智源意想院：国内头部模子已达海外一活水平，但材干发展不平衡

　　新浪科技讯 5月18日下昼音问，在北京智源意想院（智源意想院）大模子评测发布会上，智源评测体系发布并公布了140余个国表里开/闭源讲话及多模态大模子材干评测效果。评测效果披露，在中语语境下，国内头部讲话模子的空洞进展已接近海外一活水平，但存在材干发展不平衡情况；在多模态相识图文问答任务上，开闭源模子平分秋色，国产模子进展凸起；在中语语境下的文生图材干上，国产多模态模子与海外一活水平差距较小。

　　据评测效果，在中语语境下，字节向上豆包Skylark2、OpenAI GPT-4位居第一、第二，国产大模子更懂中国用户。在讲话模子客不雅评测中，OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均投入讲话模子主客不雅评测前五。

　　多模态相识模子客不雅评测效果披露，图文问答方面，阿里巴巴通义Qwen-vl-max与上海东谈主工智能施行室InternVL-Chat-V1.5先后来源于OpenAI GPT-4，LLaVA-Next-Yi-34B和上海东谈主工智能施行室Intern-XComposer2-VL-7B紧随后来。

　　在海淀区教委援手下，智源意想院连合与海淀区素养教育学校对王人学生历练款式，覆按大模子与东谈主类学生的学科水平各异。评测发现，模子在空洞学科材干上与海淀学生平均水平仍有差距，多数存在文强理弱的情况，何况对图表的相识材干不及，大模子昔时有很大的升迁空间。

　　据先容，2023年6月，智源意想院与多个高校团队共建FlagEval大模子评测平台上线，迄今放手已完成1000屡次笼罩群开阔个开源大模子的评测和表露发布。本次评测使用了20余个数据集、超8万谈考题，包括与联接单元共建和智源自建的多个评测数据集。（文猛）

海量资讯、精确解读，尽在新浪财经APP

背负剪辑：张倩

让建站和SEO变得简单

智源意想院：国内头部模子已达海外一活水平，但材干发展不平衡