微软发布 orca 2 llm,这是 llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。orca 2 使用了一个合成训练数据集和一项称为 prompt erasure(提示词擦除) 的新技术来实现这一性能。
orca 2 使用了师生模式的训练方案,其中一个较大、较强的 llm 作为另一个较小的 llm(学生)的老师,老师的目标是提升学生的性能,使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧,并教其如何为特定任务选择最有效的技巧。
为此,老师被赋予了复杂的提示词来触发某种推理行为。不过,在一种被称为 prompt erasure 的方案中,学生只得到任务要求和期望的响应,而不是老师的提示词。在基准测试中,一个拥有 13b 参数的 orca 2 模型的表现超过了一个 13b 参数的基准 llama 2 模型,提升了 47.54%。而一个拥有 7b 参数的 orca 2 模型在推理任务方面与一个拥有 70b 参数的 llama 2 模型相当,甚至更好。
尽管像 chatgpt 这样的 llm 在给定少量提示词的情况下通常表现良好,但由于其内存和计算需求较大,托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好,许多研究人员已经在研究使用较大 llm 生成的合成数据集对它们进行训练。
infoq 最近报道了谷歌的 distilling step-by-step 方法,该方法会让老师 llm 自动生成一个小型的调优数据集,其中包含输入和输出标签,以及为何选择输出标签的“基本原理”。infoq 还报道了 stability ai 的 stable beluga 模型,它使用微软原始的 orca 1 方案进行训练,该方案使用了 explanation tuning,其中老师 llm 被提示“生成详细答案”。
与 orca 1 类似,orca 2 训练数据集是由老师 llm 生成的,而老师 llm 收到了详细的提示词。然而,微软新的训练方法 cautious reasoning 将训练任务与提示词相结合,引导老师 llm 使用特定的问题解决策略,如“一步一步”或“解释你的答案”。然后在学生的训练过程中,老师的提示词被删除,这促使学生学会选择正确的策略。
为了评估这种方法,微软将 orca 2 模型的性能与几个基准模型进行了比较,包括 llama 2、chatgpt(gpt-3.5)和 gpt-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13b 参数 orca 2 模型优于除 chatgpt 和 gpt-4 之外的所有基准。他们还发现,给 orca 2 一个“谨慎”的系统提示词(“你是一个谨慎的助手,你会仔细遵循指示”)相比无系统提示会略微提升其性能。
有几位用户在 x 上发表了关于 orca 2 的帖子。一位用户指出:“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” ai 研究员 rudi ranck 写道:
许多绝妙的想法都很简单……就像 orca 2 中的“提示词擦除”一样:完整的提示词不会呈现给模型,而只呈现任务和答案(它过滤了生成这些答案所使用的完整提示词)。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。
有刷直流微型电机和无刷电机的区别
国产芯被推上 C 位之年:“绞肉机”变身香饽饽 国产突围进行时
大联大世平集团推出基于TI产品的有刷式直流电机参考设计
金升阳品牌是如何做出来的
如何设计和认证基于 RTD 的功能安全系统
优于10倍参数模型!微软发布Orca 2 LLM
一加3T今日下午线上直播进行时,对比一加3有哪些提升?
弧焊机器人焊枪分类
逆变器加电机利用常见问题,启动转矩怎么样
浅谈低烟无卤电缆与环保电缆之间的区别
高德地图首创“全境智能冬季应急大屏”正式上线
触发器的电路结构与工作原理
自制遥控机械臂的教程
手持设备Sico,连接现实与虚拟世界的桥梁
fireflyH.264硬编码&硬解码简介
管控打压区块链行业造假乱象,具有明确应用场景的区块链项目才有意义
网络大时代下,国内飞机wifi将上线,还解决了高铁信号问题高铁WiFi也会同步上线
《纽约时报》推全新的AR填字游戏
物联网发展风生水起 安防正朝以视频为核心的物联网领域延伸
计量技术:二次压降及负荷测试仪使用介绍说明