虽然gpt-3没有开源,却已经有人在复刻gpt系列的模型了。
例如,慕尼黑工业大学的connor leahy,此前用200个小时、6000rmb,复现了gpt-2。
又例如,基于150亿参数版gpt-3的dall·e模型刚出,来自康奈尔大学的 philip wang就开始复现 了。
但此前,还没人能复现出gpt-3大小的大语言模型来。
不过,已经有人开始尝试了。这是一个名为 gpt-neo的项目,用于复现gpt系列的各种语言模型,当然也包括gpt-3。
作者表示,目前他们已经成功制造出gpt-2大小的模型。
从项目代码的可扩展性来看,他们预计可以复刻出gpt-3大小的语言模型,甚至比gpt-3更大。
不仅如此,由于这是个开源的项目,大家还可以自主训练这些模型 (将来也会包括gpt-3)。
目前,作者已经给出了详细的训练步骤。
消息一出,网友沸腾了:
要是真能复现,说不定会比现在的gpt-3还要更好用!
gpt系列的“高仿”项目
本质上,gpt-neo有点像是gpt系列的“高仿”项目:
gpt-neo中的各种模型,设计原理接近gpt系列,但代码并不一样。
作者们打算尝试各种结构和注意力类型,最终扩展出gpt-3大小的大语言模型。
为了实现这一目标,他们从复现gpt系列的模型开始,不断尝试各种模型架构、和各种注意力机制的实现方式。
也就是说,gpt-neo更像是一个实验性质的项目,通过各种尝试,扩展出更大的模型。
这里面,融合了各种让模型变得“更大”的研究:
例如,多任务学习方法moe (mixture of experts),采用多个专家的结构,将问题空间划分为同质区域,然后采用分发器,决定问题应该问哪些专家。
又比如,具有线性复杂性的自注意力机制。
……
这个项目还在施工中,不过,连模型的训练方式都准备好了。
项目计划通过tpu或gpu,对大语言模型进行训练。
为此,作者们已经基于tensorflow-mesh (用于在gpu上训练模型)、deepspeed (用于在tpu上训练模型)两个项目,编写了gpt-neo的训练代码。
这两个项目都可以扩展到大于gpt-3的大小,甚至还能更大。
因此,训练gpt-3大小的模型,软件理论上是可行的。
但硬件上的问题,目前作者们还在思考明确的解决方案。如果将来真的做出了gpt-3大小的模型,他们打算先从谷歌那多要点免费资源,如果不行的话,就再说……
如何训练gpt-neo
当然,在tpu和gpu上训练的方式有所不同。
如果使用tpu训练的话,需要注册一个谷歌云平台,创建存储空间,然后再搞个虚拟机,将模型放到tpu上训练。
不过,如果你的gpu硬件足够ok,也可以选择直接训练gpt-neo,就不用设置一系列谷歌云了。
此外,也可以用谷歌colab来训练项目,它免费提供tpu-v8s处理器,训练gpt的3xl (1.5b参数)版本绰绰有余。
训练过程也不复杂,主要包括创建分词器、数据集预处理、指定训练数据集、选择训练配置、训练模型几个步骤。
在创建分词器上,gpt-neo目前提供一个huggingface的预训练gpt-2分词器。不过,也可以训练自己专属的分词器。
然后,对数据进行预处理,可以直接下载项目提供的数据,也可以使用自己的数据集。
在那之后,指定模型训练所用的数据集,然后对训练方式进行设置,例如优化算法、训练步数等。
然后,指定硬件名称、数量,就可以开始训练模型了。
“只会用谷歌搜索的自动化团队”
不过,对于gpt系列的项目复现,有网友并不看好。
网友认为,gpt-x系列项目,就像是一个由几百人组成的自动化团队,这几百人 只会用谷歌搜索来干活,而且还没办法写出最新的新闻事件报道。 (因为训练数据无法一直更新)
它虽然是个非常有趣的研究,但目前却还没有一个“杀手级”应用,来让gpt-3项目的存在变得更有意义。
当然,也有人认为,复现这一项目还是有意义的。
即使只是“几百个只会用搜索引擎干活的团队”,他们也需要快速给出某个问题的答案。
如何在大量零碎信息中, 高效地选出最优解,本身就是gpt-x项目的价值之一。毕竟如果只是几百个“会用谷歌搜索”的人组成的团队,是无法像gpt-3一样,快速得出最佳答案的。
当然,也有一些程序员调侃,要是这个gpt-3项目真的被复现了,岂不是他们马上就要失业了。
“我们总是在用谷歌搜索、和stackoverflow来解决问题。这不就是像gpt-3一样,只会整合搜索引擎上的信息,来解决问题吗?”
“该死,原来gpt-3竟然可以取代这么多程序员。”
目前,gpt-neo的所有项目和代码已开源。
想要上手一试、或是对项目感兴趣的小伙伴,可以行动起来了~
江西省对宜春市和新余市锂电发展定位提出新要求 将培育一批创新创业示范基地
极路由和tplink哪个好
2018年中国研发经费19677.9亿元,同比增11.8%
鸿蒙系统面向全球销售替代谷歌只是时机问题
TI推出基于BAW的全新嵌入式处理器和模拟芯片
GPT系列的“高仿” 最大可达GPT-3大小 自主训练
基于WEB技术与嵌入式技术实现对设备的控制与诊断
华为Mate20X续航怎么样
应用于无线传感器网络的蓝牙低功耗技术介绍
MakerBot 3D打印机成功扩充了两种新材料
VR沙盒游戏编辑器Modbox v2.0将在9月9日登陆多平台
CFOA电路分析与设计
目前VR头盔解决近视问题的方案哪个最好
英特尔宣布在芯片制造领域的扩张计划
ANADIGICS推出多模式多频段功率放大器(MMPA)
应用笔记|如何选择和设置外部晶体适配 BlueNRG-X
平板电脑有望取代智能手机的五大理由
生产设备近半被闲置 LED行业“洗牌潮”暗涌
关于综合食品安全检测仪的详细说明
购买高尔夫测距仪品牌产品需要考虑哪些因素?