优于10倍参数模型！微软发布Orca 2 LLM

微软发布 orca 2 llm，这是 llama 2 的一个调优版本，性能与包含 10 倍参数的模型相当，甚至更好。orca 2 使用了一个合成训练数据集和一项称为 prompt erasure（提示词擦除）的新技术来实现这一性能。
orca 2 使用了师生模式的训练方案，其中一个较大、较强的 llm 作为另一个较小的 llm（学生）的老师，老师的目标是提升学生的性能，使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧，并教其如何为特定任务选择最有效的技巧。
为此，老师被赋予了复杂的提示词来触发某种推理行为。不过，在一种被称为 prompt erasure 的方案中，学生只得到任务要求和期望的响应，而不是老师的提示词。在基准测试中，一个拥有 13b 参数的 orca 2 模型的表现超过了一个 13b 参数的基准 llama 2 模型，提升了 47.54%。而一个拥有 7b 参数的 orca 2 模型在推理任务方面与一个拥有 70b 参数的 llama 2 模型相当，甚至更好。
尽管像 chatgpt 这样的 llm 在给定少量提示词的情况下通常表现良好，但由于其内存和计算需求较大，托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好，许多研究人员已经在研究使用较大 llm 生成的合成数据集对它们进行训练。
infoq 最近报道了谷歌的 distilling step-by-step 方法，该方法会让老师 llm 自动生成一个小型的调优数据集，其中包含输入和输出标签，以及为何选择输出标签的“基本原理”。infoq 还报道了 stability ai 的 stable beluga 模型，它使用微软原始的 orca 1 方案进行训练，该方案使用了 explanation tuning，其中老师 llm 被提示“生成详细答案”。
与 orca 1 类似，orca 2 训练数据集是由老师 llm 生成的，而老师 llm 收到了详细的提示词。然而，微软新的训练方法 cautious reasoning 将训练任务与提示词相结合，引导老师 llm 使用特定的问题解决策略，如“一步一步”或“解释你的答案”。然后在学生的训练过程中，老师的提示词被删除，这促使学生学会选择正确的策略。
为了评估这种方法，微软将 orca 2 模型的性能与几个基准模型进行了比较，包括 llama 2、chatgpt（gpt-3.5）和 gpt-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中，13b 参数 orca 2 模型优于除 chatgpt 和 gpt-4 之外的所有基准。他们还发现，给 orca 2 一个“谨慎”的系统提示词（“你是一个谨慎的助手，你会仔细遵循指示”）相比无系统提示会略微提升其性能。
有几位用户在 x 上发表了关于 orca 2 的帖子。一位用户指出：“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” ai 研究员 rudi ranck 写道：
许多绝妙的想法都很简单……就像 orca 2 中的“提示词擦除”一样：完整的提示词不会呈现给模型，而只呈现任务和答案（它过滤了生成这些答案所使用的完整提示词）。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。

有刷直流微型电机和无刷电机的区别
国产芯被推上 C 位之年：“绞肉机”变身香饽饽国产突围进行时
大联大世平集团推出基于TI产品的有刷式直流电机参考设计
金升阳品牌是如何做出来的
如何设计和认证基于 RTD 的功能安全系统
优于10倍参数模型！微软发布Orca 2 LLM
一加3T今日下午线上直播进行时，对比一加3有哪些提升？
弧焊机器人焊枪分类
逆变器加电机利用常见问题，启动转矩怎么样
浅谈低烟无卤电缆与环保电缆之间的区别
高德地图首创“全境智能冬季应急大屏”正式上线
触发器的电路结构与工作原理
自制遥控机械臂的教程
手持设备Sico，连接现实与虚拟世界的桥梁
fireflyH.264硬编码&硬解码简介
管控打压区块链行业造假乱象，具有明确应用场景的区块链项目才有意义
网络大时代下，国内飞机wifi将上线，还解决了高铁信号问题高铁WiFi也会同步上线
《纽约时报》推全新的AR填字游戏
物联网发展风生水起安防正朝以视频为核心的物联网领域延伸
计量技术：二次压降及负荷测试仪使用介绍说明