微软正式发布一个27亿参数的语言模型—Phi-2

先后和 openai、meta 牵手推动大模型发展的微软，也正在加快自家小模型的迭代。就在今天，微软正式发布了一个 27 亿参数的语言模型——phi-2。这是一种文本到文本的人工智能程序，具有出色的推理和语言理解能力。
同时，微软研究院也在官方 x 平台上如是说道，“phi-2 的性能优于其他现有的小型语言模型，但它足够小，可以在笔记本电脑或者移动设备上运行”。
phi-2 的性能真能优于大它 25 倍的模型？
对于 phi-2 的发布，微软研究院在官方公告的伊始便直言，phi-2 的性能可与大它 25 倍的模型相匹配或优于。
这也让人有些尴尬的事，不少网友评价道，这岂不是直接把 google 刚发的 gemini 最小型号的版本给轻松超越了？
那具体情况到底如何？
微软通过时下一些如 big bench hard (bbh)、常识推理（piqa、winogrande、arc easy 和 challenge、siqa）、语言理解（hellaswag、openbookqa、mmlu（5-shot）、 squadv2、boolq）、数学（gsm8k）和编码（humaneval）等基准测试，将 phi-2 与 7b 和 13b 参数的 mistral 和 llama-2 进行了比较。
最终得出仅拥有 27 亿个参数的 phi-2 ，超越了 mistral 7b 和 llama-2 7b 以及 13b 模型的性能。值得注意的是，与大它 25 倍的 llama-2-70b 模型相比，phi-2 还在多步推理任务（即编码和数学）上实现了更好的性能。
此外，如上文所提及的，微软研究人员也直接在基准测试中放上了其与google 全新发布的 gemini nano 2 正面 pk 的结果，不出所料，phi-2 尽管尺寸较小，但性能还是把 gemini nano 2 超了。
除了这些基准之外，研究人员似是在暗讽 google 前几日在 gemini 演示视频中造假一事，因为当时 google 称其即将推出的最大、最强大的新人工智能模型 gemini ultra 能够解决相当复杂的物理问题，并且甚至纠正学生的错误。
事实证明，尽管 phi-2 的大小可能只是 gemini ultra 的一小部分，但它也能够正确回答问题并使用相同的提示纠正学生。
微软的改进
phi-2 小模型之所以有如此亮眼的成绩，微软研究院在博客中解释了原因。
一是提升训练数据的质量。phi-2 是一个基于 transformer 的模型，其目标是预测下一个单词，它在 1.4t 个词组上进行了训练，这些词组来自 nlp 和编码的合成数据集和网络数据集，包括科学、日常活动和心理理论等用于教授模型常识和推理的内容。phi-2 的训练是在 96 个 a100 gpu 上耗时 14 天完成的。
其次，微软使用创新技术进行扩展，将其知识嵌入到 27 亿参数 phi-2 中。
微软指出，phi-2 是一个基础模型，没有通过人类反馈强化学习（rlhf）进行调整，也没有经过指导性微调。尽管如此，与经过对齐的现有开源模型相比，微软观察到在毒性和偏差方面，phi-2 有更好的表现。
写在最后
话说 phi-2 的发布的确在小模型的性能上实现了突破，不过也有媒体发现它还存在很大的局限性。
因为根据微软研究许可证显示，其规定了 phi -2 只能用于“非商业、非创收、研究目的”，而不是商业用途。因此，想要在其之上构建产品的企业就不走运了。

运用物联网技术让电网变“智能”
OLED电视市场竞争激烈，LG的市场发展受到影响
电子水准仪使用方法及步骤
NET工程师应具备的基本素质有哪些
基于FPGA和高速D/A的多功能信号源生成系统
微软正式发布一个27亿参数的语言模型—Phi-2
噪声扬尘监测系统的特点及参数
二维材料光电探测器及光场增强的研究进展
时间继电器的型号规格和使用方法
第三代数字视频编解码技术标准基准档次制定完成
人工智能与物联网创造了怎样的新市场
米家互联网洗碗机开启众筹众筹价1999元
有机肥料实验室仪器上门培训都有哪些内容？
说一说动力电池强标之针刺试验
Vuzix正式发售面向商业级市场的M300XL AR智能眼镜
机器人在线主办的2021中国（上海）智造技术创新峰会隆重举行
RGB与白光LED,如何取舍?
因苹果助力，台积电将引领全球半导体产业
中国遭受网络攻击持续增加，美国是针对中国网络攻击较大的来源国
可充电锌空气电池明年将替代锂电池