什么样的模型更适合zero-shot? 对于模型架构,不同的论文有不同的分发,不同的名称。我们不必纠结于称谓,在这里我们延续bigscience的概念来讨论,即:
架构:自回归、非自回归、编码器-解码器 目标:全语言模型、前缀语言模型、掩码语言模型 适配器:不添加适配器、将自回归模型用于掩码目标训练的适配器、将掩码为目标的模型转化为纯语言模型目标 是否经过多任务微调 评估数据集:eai-eval、t0-eval
bigscience有两项重要的结论,但这两项结论是在控制预训练的预算的基础上的,而非控制参数量。如此实验编码器-解码器用了11b参数量,而纯解码器却是4.8b。
如果不经过多任务微调,自回归模型最好,掩码语言模型跟随机结果一样。 如果经过多任务微调,编码器-解码器掩码模型最好【这参数量都翻倍了,很难说不是参数量加倍导致的】。换个角度想,在多任务微调之后,自回归全语言模型在参数量不到编码器-解码器掩码模型一半,计算量还少10%的情况下,效果还能差不多。
来自科学空间的对比实验【https://spaces.ac.cn/archives/9529】更是印证了这一点:
在同等参数量、同等推理成本下,decoder-only架构很可能是最优选择。
效果和模型形状有没有关系 在openai的实验中,通过控制参数量,分别调整模型形状的三个指标前馈维度比、宽高比、注意力头维度,实验表明,模型形状对性能的依赖非常轻微。
单独研究层数,排除嵌入层的影响,除了一层这种极端情况之外,同样参数下,不同的层数倾向于收敛于同样的损失。
到底需要多少数据训练 在gpt-3中参数数据比约为1:1.7,而chinchilla是为1:20。然而gpt-3参数量是chinchilla的2.5倍,下游任务却大范围地输给了chinchilla。再看llama就更离谱了约为1:77,只有13b参数量很多任务就超越了gpt-3。这是不是和咱公众号名字很符合:【无数据不智能】,海量高质量数据才是王道。
model parameters training tokens
lamda (2022) 137 billion 168 billion
gpt-3 (2020) 175 billion 300 billion
jurassic (2021) 178 billion 300 billion
gopher (2021) 280 billion 300 billion
mt-nlg 530b (2022) 530 billion 270 billion
chinchilla(202) 70 billion 1.4 trillion
llama(202) 13 billion 1.0 trillion
批次大小设置为多少好
【scaling laws for neural language models】实验中表明batch size和模型大小无关,只和想达到的loss有关(幂次关系),同时也受到噪声数据的影响。
学习率多大合适
只要学习率不是太小,衰减不是太快,性能对学习率的依赖性并不强。 较大的模型需要较小的学习率来防止发散,而较小的模型可以容忍较大的学习率。 经验法则:lr(n) ≈ 0.003239 − 0.0001395log(n),n:模型参数量 参数量、数据量、训练时长和loss什么关系
参数量、数据量、训练时长和loss都存在幂指数关系
照明相关知识介绍
宝马宣布未来计划推出 Digital Key Plus:无需拿出 iPhone 就能解锁和启动车辆
如何解决引入注册机制问题
浅析屏下指纹识别技术的发展趋势
中国厂商在柔性OLED业务上全面超越LG指日可待
什么样的模型更适合zero-shot?
伺服电动机定义 伺服种类的选择
管式墒情监测仪是全方位、高效准确的土壤监测解决方案
人类大脑的深度AI智能
美国银行认为加密货币存在商业风险
现场直击丨西井科技携Q-Truck亮相碳博会,展示全球化进程中减碳“新实力”
Keysight安捷伦N8957A直流电源30A
禁止算法识别性别就能消解歧视吗
为迎接5G商用物联网时代的到来,各手机厂商动作不断
75欧姆同轴电缆和50欧姆同轴电缆区分
测速发电机的作用_测速发电机和编码器区别
艾贝特与您相约2021慕尼黑上海光博会
看看海康威视无线网络摄像机有哪些特点?
曝AMD将演示Xbox Series X实机跑光追游戏效果 索尼PS5或无缘AMD光追支持
稳压管厂家,国内有哪些?