中文大模型基准测评2023年度报告

自2023年以来，ai大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准superclue在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。
基于此，superclue团队发布了《中文大模型基准测评2023年度报告》，在ai大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。
国内大模型关键进展 012023年大模型关键进展与中文大模型全景图
国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（chatgpt发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。
截止目前为止，国内已发布开源、闭源通用大模型及行业大模型已有上百个，superclue梳理了2023年值得关注的大模型全景图。
022023年国内外大模型发展趋势
过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从7月份与gpt3.5的20分差距，每个月都有稳定且巨大的提升，到11月份测评时已经完成总分上对gpt3.5的超越。
数据来源于superclue基准得分(7月-12月)
我们可以看到gpt3.5和gpt4在中文上的表现情况基本一致，在11月份测评结果中显示，在中文能力都有一定的下滑，而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到，国内第一梯队模型与gpt4的差距在缩小。但仍有较大的距离需要追赶。
数据来源于superclue基准得分(7月-12月) 说明：趋势展示，选取了7月-12月superclue-open测评分数。国内代表性模型，选取了文心一言、通义千问、chatglm。原因是综合考虑了过去半年superclue测评结果、长期稳定迭代及对国内大模型生态的贡献；gpt4成绩，由gpt4-api(7-9月)与gpt4-turbo(10-12月)组成，用以表现国外最好模型发展。大模型综合测评结果 01测评模型列表
本次测评数据选取了superclue-12月测评结果，模型选取了国内外有代表性的26个大模型在12月份的版本。
02superclue模型象限
superclue评测任务可划分为基础能力和应用能力两个维度。
基础能力，包含：专业与技能、语言与知识（不包括角色扮演）、传统安全；
应用能力，包括：工具使用、角色扮演。
基于此，superclue构建了大模型四个象限，它们代表大模型所处的不同阶段与定位，其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力；【技术领跑者】代表模型聚焦基础技术研究；【实用主义者】代表模型在场景应用上处于领先定位；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。
03国内外大模型总体表现
来源：superclue, 2023年12月28日
国内外差距依然明显。gpt4-turbo总分90.63分遥遥领先，高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(api)总分79.02分，距离gpt4-turbo有11.61分，距离gpt4(网页)有4.9分的差距。
必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过gpt3.5和gemini-pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和qwen-72b-chat、oppo的andesgpt、清华&智谱ai的智谱清言、字节跳动的云雀大模型等都有比较好的表现。
另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的baichuan2-13b-chat、阿里云的qwen-72b、yi-34b-chat均优于llama2-13b-chat。
国外模型平均成绩 vs 国内模型平均成绩
在superclue测评中，国外模型的平均成绩为69.42分，国内模型平均成绩为65.95分，差距在4分左右。可以看出，国内外的平均水平差距在缩小，11月差距在10分左右。04国内大模型竞争格局
通过superclue测评结果发现，国内大模型的第一梯队有了更多新的模型加入。头部模型如文心一言4.0、通义千问2.0引领国内大模型的研发进度，部分高质量大模型紧追不舍，分别在闭源应用和开源生态中形成自己独特的优势。
来源：superclue, 2023年12月28日
从国内top19大模型的数量来看，创业公司有9个，大厂有10个，占比几乎持平。
从大厂和创业公司的平均成绩来看，大厂研发的大模型平均成绩为69.42分，创业公司研发的大模型平均成绩为62.09分，差值约6.33分，较11月份差距在略有增大。这说明大厂在大模型竞争中长期资源投入方面有一定优势。
05国内大模型历月前三甲
过去八个月国内模型在superclue基准上的前三名。
来源：superclue
曾经取得过superclue月榜首位的大模型有6个。分别是文心一言、bluelm、sensechat3.0、baichuan2-13b-chat、360智脑。其中，百度的文心一言登顶superclue月榜的次数最多，分别在7月、11月、12月取得了superclue最好成绩。
我们可以看到，在国内大模型技术发展初期阶段，各家大模型公司都投入了巨大的人力、算力和数据资源，以至于每个月测评结果的前三甲都不同程度的变化，经常会因为新发布的高质量模型引起榜单的变化。预计未来一年同样会发生类似的情况。也非常期待有高质量模型能够持续保持非常高的水准。
06大模型对战胜率分布图
从胜率来看，全球领跑者gpt4-turbo胜率为41.77%，和率为52.46%，大幅领先于其他模型，而败率仅为5.77%，足以说明gpt4-turbo对gpt3.5在各项能力上的全面压倒性优势。而国内模型中，百度的文心一言4.0胜率国内最高，接近30%。胜率超过25%的模型有智谱清言、通义千问2.0和andesgpt。
来源：superclue, 2023年12月28日
在200亿参数量级的开源模型中baichuan2-13b-chat的胜率排在首位，展现出不俗的对战能力。排在2至3位的是xverse-13b-2-chat、qwen-14b-chat，同样表现可圈可点。
从胜率分布数据可以发现，所有模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与gpt3.5的水平相近，随着任务难度的提升，不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。
07主观与客观对比
通过对比模型在主观简答题open和客观选择题opt上的不同表现，可以发现，国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。
注：计算分值为模型的open分与opt分值的差值，用以观察模型在主观题和客观题上的不同表现。数据来源：superclue, 2023年12月28日
其中，文心一言4.0和智谱清言表现相对稳定，分别为（-13.38）和（-14.01）。gpt-4 turbo的表现最为稳定，差值仅有0.86。
superclue认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。
值得关注的是，在本次测评中，国外的代表性大模型如gpt4的不同版本、claude2、llama2都很好的稳定性表现，值得国内大模型进一步分析研究。
08开源竞争格局
总体上国内开源模型表现较好，成绩最好的开源模型在中文的某些场景或任务上接近gpt4，其中qwen-72b-chat和yi-34b-chat总分上已经超过gpt3.5，baichuan2-13b-chat也有接近gpt3.5的表现。
来源：superclue, 2023年12月28日
总体上大版本（如34b）的模型优于中小版本(13b、6b)的开源模型，更大的版本（如72b）的模型表现要更好。开源模型的发展也从最开始的6b，到13b，到现在更大的34b、72b的开源模型。
虽然也有少量大厂（阿里云）参与，但众多的创业公司是开源模型的主力，如智谱ai、百川智能、零一万物和元象科技。
具体内容如下

中国医疗器械市场规模，如何突破困境
2017电子厂商TOP 50榜单富士康居全球EMS第一
CES 2013最新潮的家庭安全系统：iPhone变看门狗？！
超级电容为何迟迟没大量投入市场使用？
从写诗敲代码到临床问诊，AI大模型会是智慧医疗的强力催化剂吗？
中文大模型基准测评2023年度报告
BOE（京东方）推出了可应用于AMOLED显示领域的屏下指纹识别解决方案
封装LED发光二极管正负极判断
浅谈三维大数据可视化平台
机器视觉类公司“瞄上”半导体封装等环节
网络安全意识有多重要西工大遭网络攻击：源头是美国国安局
电阻的峰值特性及可靠性设计要求
11家中企被美国拉黑美国称将继续更新拉黑清单
PCB上过孔排列有什么要求吗？
三星的手机业务增量不增收,利润依靠芯片业务
物联网项目的价值怎样的权衡
邬贺铨：5G核心应用并非是下载一部电影的速度
华为/小米/苹果/Vivo/Oppo称霸91%中国手机市场,三星下跌
Linux内核分析 bind端口选择
5G影响下 MLCC电容行业将再次涨价