你的位置:霸州市锋王金属材料应用研究所 > 服务项目 >
新浪科技讯 5月18日下昼音问,在北京智源意想院(智源意想院)大模子评测发布会上,智源评测体系发布并公布了140余个国表里开/闭源讲话及多模态大模子材干评测效果。评测效果披露,在中语语境下,国内头部讲话模子的空洞进展已接近海外一活水平,但存在材干发展不平衡情况;在多模态相识图文问答任务上,开闭源模子平分秋色,国产模子进展凸起;在中语语境下的文生图材干上,国产多模态模子与海外一活水平差距较小。
据评测效果,在中语语境下,字节向上豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模子更懂中国用户。在讲话模子客不雅评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均投入讲话模子主客不雅评测前五。
多模态相识模子客不雅评测效果披露,图文问答方面,阿里巴巴通义Qwen-vl-max与上海东谈主工智能施行室InternVL-Chat-V1.5先后来源于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海东谈主工智能施行室Intern-XComposer2-VL-7B紧随后来。
在海淀区教委援手下,智源意想院连合与海淀区素养教育学校对王人学生历练款式,覆按大模子与东谈主类学生的学科水平各异。评测发现,模子在空洞学科材干上与海淀学生平均水平仍有差距,多数存在文强理弱的情况,何况对图表的相识材干不及,大模子昔时有很大的升迁空间。
据先容,2023年6月,智源意想院与多个高校团队共建FlagEval大模子评测平台上线,迄今放手已完成1000屡次笼罩群开阔个开源大模子的评测和表露发布。本次评测使用了20余个数据集、超8万谈考题,包括与联接单元共建和智源自建的多个评测数据集。(文猛)
海量资讯、精确解读,尽在新浪财经APP
背负剪辑:张倩
热点资讯
相关资讯