近年来,人工智能技术迎来了新一轮大变革,其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的应用。随着海外科技巨头微软、谷歌、Meta等加大投入,国内科技企业如百度、华为、阿里等纷纷布局,人工智能大模型的发展日新月异。
为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目,抓取了05月22日—05月26日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
在综合指数评价方面,本次评测选取4大维度(基础能力、智商测试、情商测试、工作提效能力)、36个子能力,共300个问题,对目前主流大模型产品进行测试,并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等,最终得出各厂商的大模型综合指数评价。
在评价规则上,课题组以各个大模型对参与测评的题目回答完成度,进行了综合考量,其中评测规则分为:答案较为完美,内容可在实际场景中直接使用;基本可用,可在实际场景中使用;调整可用,但需人工进行调整后方可使用;大略可用,需要较多人工调整方可使用;不可用,答非所问、语言不通等五个层级。
注:基于评测条件、评测时间等限制,本次评测结果存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果。
通过围绕四个维度的综合测试,课题组发现,由OpenAI开发的Chat-GPT系列模型各项指标表现优异,且Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升。而由百度开发的人工智能大模型文心一言表现较为抢眼,是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良,但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。
针对各维度能力测评,该报告还给出了相应的案例展示和分析。
在基础能力部分,百度文心一言表现最为抢眼,讯飞星火、阿里巴巴通义千问、智谱ChatGLM表现优良;商汤商量、Vicuna-13B表现尚佳。
在智商测试部分,百度文心一言在该环节意外超过ChatGPT3.5,表现突出,阿里巴巴通义千问分数接近GPT3.5,商汤商量、讯飞星火、智谱ChatGLM表现尚佳;Vicuna-13B表现有待改进。
在情商测试部分,百度文心一言表现最佳;阿里巴巴通义千问与讯飞星火表现优良;商汤商量、智谱ChatGLM表现尚可;Vicuna-13B表现一般。
在工作提效部分,百度文心一言与智谱ChatGLM最佳,讯飞星火次之;阿里巴巴通义千问及Vicuna-13B表现尚可;商汤商量表现一般。
研究发现,人工智能与各行业的深度融合是促进产业升级和转型的重要方式之一,“大模型+行业”的发展应用尤为重要。目前大模型在金融、工业、医疗等领域已经取得了显著的成果,如何为行业领域提供更为精准、更为高效的解决方案,成为大模型厂商未来弯道超车的机会。
报告指出,随着人工智能的地位和作用越来越重要,政府、企业和社会需要共同努力,各大厂商应投入更多资源,头部企业可以持续发力自研大模型,而专注于解决方案的行业厂商可以考虑通过深耕行业来彰显特色。
研判该报告的测评结果,浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林建议,国内大模型发展应从两方面着力,一方面是大语言模型,中文并非ChatGPT的强项,OpenAI主业在英语,所以中文大语言模型对于中国市场还是有发展空间的;另一方面则是在细分领域应用,比如编程、专业知识问答、中文PPT制作等,这些细分的功能领域才是未来大模型真正需要关注的领域,也是从单个应用转变为生态应用的关键。
扫码查看
AI大模型体验报告
↓↓↓