开源风波后在AlpacaEval直追GPT4，零一靠技术如何重建生态信心

斯坦福大学研发的大语言模型评测 alpacaeval leaderboard 备受业内认可，在 2023 年 12 月 7 日更新的排行榜中，yi-34b-chat 以 94.08% 的胜率，超越 llama2 chat 70b、claude 2、chatgpt，在 alpaca 经认证的模型类别中，成为仅次于 gpt-4 英语能力的大语言模型。
同一周，在加州大学伯克利分校主导的 lmsys org 排行榜中，yi-34b-chat 也以1102 的 elo 评分，晋升最新开源 sota 开源模型之列，性能表现追平 gpt-3.5。
多个 benchmark 遥遥领先
在五花八门的大模型评测中，伯克利 lmsys org 排行榜采用了一个最为接近用户体感的「聊天机器人竞技场」特殊测评模式，让众多大语言模型在评测平台随机进行一对一 battle，通过众筹真实用户来进行线上实时盲测和匿名投票，11 月份经 25000 的真实用户投票总数计算了 20 个大模型的总得分。
elo 评分越高，说明模型在真实用户体验上的表现越出色，可说是众多大模型评测集中最能展现「moment of truth」真实关键一刻” 的用户导向体验对决。
在开源模型中，yi-34b-chat 成为当之无愧的「最强王者」之一（英语能力），lmsys org 在 12 月 8 日官宣 11 月份总排行时评价：「yi-34b-chat 和 tulu-2-dpo-70b 在开源界的进击表现已经追平 gpt-3.5」。
风波终结，争议理清
yi-34b 开源发布后，开发者 eric hartford 发现了模型存在的一个问题，就简略留言在 yi 的项目页面。然而 eric 自己也没有预想到，他的留言引发了后续舆论关于 yi 模型「抄袭」 llama 的质疑。
他在邮件中写道，「感谢你们提供了一个优秀的模型。yi 模型使用了与 llama 模型完全相同的架构，只是将两个张量改了名字。由于围绕 llama 架构有很多投资和工具，保持张量名称的一致性是有价值的。」eric 建议，在 yi 被广泛传播前，及时恢复张量名称。客观来说，一个模型核心技术护城河是在架构之上，通过数据训练获得的参数和代码。大多数有志于参与基座大模型竞争的团队，也多是从零开始，用高质量的数据集再进行训练，普遍都是在沿用 llama 架构。零一后来解释他们为了执行对比实验的需要，对部分推理参数进行了重新命名，原始出发点是为了充分测试模型，而非刻意隐瞒来源。
身处这场舆论风暴的中心，eric 意识到了可能给一些人带来了误解，开始解释自己之前的发言。
他在 x（twitter）上写道，「他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物，已经发表在论文中，任何人都可以自由使用，这丝毫不减损 yi 团队的成就。他们从零开始使用自己创建的数据集训练yi，对开源领域的贡献是值得赞扬的。使用 llama 架构没有任何问题。训练才是关键。yi 给了我们目前可获得的最佳模型，没有任何可抱怨的。」现在，eric 自己也在使用 yi-34b 系列，用 yi-34b-200k 数据集训练其他的模型产品。 yi 模型开源首月，数据也很亮眼。在 hugging face 社区下载量为 16.8 万，魔搭社区下载量 1.2 万。在 github 获得超过 4900 个 stars。
由于性能表现强劲，多家知名公司和机构推出了基于yi模型基座的微调模型，比如猎豹旗下的猎户星空公司推出的 orionstar-yi-34b-chat 模型，南方科技大学和粤港澳大湾区数字经济研究院（简称 idea 研究院）认知计算与自然语言研究中心（简称 ccnl 中心）联合发布的 sus-chat-34b 等，均性能表现优异。而 amd 和 hugging face 合作的gpu加速大模型的实验中，也选择了 yi-6b 作为范例项目。
模型好不好，开发者最知道在大模型实际使用体验上，最有发言权的还是一线的开发者。知名技术作者苏洋表示，在他观察的近期 hugging face 榜单中，前三十名有一半多都是 yi 和其他用户微调的 yi-34b 的变体模型，原本占据榜单头部的 68b 和 70b 模型的数量目前只留有几个，「从这点看 yi 对于开源生态的帮助还是非常巨大的。」他会时不时的浏览下 hf 的榜单，在最近榜单中的前三十名，有一半多都是 yi 和其他用户微调的 yi-34b 的变体模型，原本占据榜单头部的 68b 和 70b 模型的数量目前只留有几个，从这点看 yi 对于开源生态的帮助还是非常巨大的。
苏洋还将他的训练经验和心得在csdn上做了分享（https://blog.csdn.net/soulteary/article/details/134904434）。
苏洋认为 34b 普通用户努努力还是能自己相对低成本跑起来的，68 和 70b 的模型想要本地运行，需要更多的资源。但其实目前分数其实相比较 34b 拉不开太多，也就三四分平均分，但参数量差了一倍。换言之，企业想部署使用，所需要的成本也可以得到非常大的节约。
目前国产大模型在开源榜单上已经是第一梯队，但如果把竞争范围追加到闭源模型、尤其是海外的模型，仍有很大的距离要去追赶。目前的普遍体验是开源模型最多只有 gpt-3.5 + 的水平。
苏洋认为国产大模型，是能够很快追赶至第一梯队的。时间也会证明大模型自身的价值，以及验证出团队是否对开源有真的持续投入。

固态继电器的应用电路
3.5G频段连续组网受好评,5G正一步步从梦想走向现实
iphone8什么时候上市?iphone8最新消息汇总:除了OLED屏幕+无线充电+面部识别,还有哪些新功能?价格或成为新亮点
基于Intel Atom Z2580处理器的智能手机解决方案
IQE+VisIC合作开发车用高可靠性D模式GaN功率产品
开源风波后在AlpacaEval直追GPT4，零一靠技术如何重建生态信心
BrandZ评选全球零售品牌10强亚马逊位于第一名
保险业SAP转型：奠定坚实的基础
信号线对音质的影响概述
工业4G路由器助力充电桩管理系统，实现高效、安全的充电管理
爱特梅尔提供低频(LF) RFID应答器ATA5577M1330C-PP
DCDC转换器中功率电感的选择要求
iPhone 8曲面屏幕细节曝光! 2.5D边位原来这样炼成
安兔兔公布首个网速测试报告华为Mate 30 Pro 5G一马当先
TPS54672有源总线终端同步PWM转换器介绍
数据中心3D可视化，动环、资产、容量管理一屏搞定
2019年乐视网还有救吗？
可照明的LED电池
上述诉讼消息传出后，Facebook股价一度下跌3%
SD卡内置ARM处理器？谷歌：数据保护懂不懂