Adam模型的新改进“Rectified Adam”

uiuc华人博士生团队提出了对常用机器学习模型优化器adam的新改进radam,省去了使用adam必须的“预热”环节,既能保证学习率和收敛速度,又能有效避免模型陷入“局部最优解”的陷阱,堪称adam的优秀接班人!
近日,uiuc的华人博士生liyuan liu等人的一篇新论文中介绍了adam模型的新改进“rectified adam”(简称radam)。这是基于原始adam作出的改进,它既能实现adam快速收敛的优点,又具备sgd方法的优势,令模型收敛至质量更高的结果。
有国外网友亲测,效果拔群。
以下是网友测试过程和radam的简介:
我已经在fastai框架下测试了radam,并快速获得了高精度新记录,而不是imagenette上两个难以击败的fastai排行榜得分。我今年测试了许多论文中的模型,大部分模型似乎在文中给出的特定数据集上表现良好,而在我尝试的新的数据集上表现不佳。但radam不一样,看起来真的实现了性能提升,可能成为vanilla adam的永久“接班人”。
radam具备在多种学习率下的强大性能,同时仍能快速收敛并实现更高的性能(cifar数据集)
radam和xresnet50,5个epoch精度即达到86%
imagenette排行榜:达到当前最高性能84.6%
下面来看看radam的内部机制,看看为什么能够实现更优质的收敛,更好的训练稳定性(相对所选择的学习率更不敏感),为何基于几乎所有ai应用都能实现更好的准确性和通用性。
不只是对于cnn:radam在billion word dataset上的表现优于lstm
radam:无需预热,避免模型收敛至“局部最优解”
作者指出,虽然每个人都在努力实现快速稳定的优化算法,但包括adam,rmsprop等在内的自适应学习率优化器都存在收敛到质量较差的局部最优解的可能。因此,几乎每个人都使用某种形式的“预热”方式来避免这种风险。但为什么需要预热?
由于目前对ai社区中对于“预热”出现的潜在原因,甚至最佳实践的理解有限,本文作者试图揭示这个问题的基础。他们发现,根本问题是自适应学习率优化器具有太大的变化,特别是在训练的早期阶段,并且可能由于训练数据量有限出现过度跳跃,因此可能收敛至局部最优解。
使用原始adam必须预热,否则正态分布会变得扭曲,是否预热的分布对比见上图
因此,当优化器仅使用有限的训练数据时,采用“预热”(这一阶段的学习率要慢得多)是自适应优化器要求抵消过度方差的要求。
简而言之,vanilla adam和其他自适应学习速率优化器可能会基于训练早期数据太少而做出错误决策。因此,如果没有某种形式的预热,很可能在训练一开始便会收敛局部最优解,这使得训练曲线由于糟糕的开局而变得更长、更难。
然后,作者在不用预热的情况下运行了adam,但是在前2000次迭代(adam-2k)中避免使用动量,结果实现了与“adam+预热”差不多的结果,从而验证了“预热”在训练的初始阶段中起到“降低方差”的作用,并可以避免adam在没有足够数据的情况下在开始训练时即陷入局部最优解。
适用于多个数据集,堪称adam的优秀“接班人”
我们可以将“预热”作为降低方差的方法,但所需的预热程度未知,而且具体情况会根据数据集不同而变化,本文确定了一个数学算法,作为“动态方差减少器”。作者建立了一个“整流项”,可以缓慢而稳定地允许将自适应动量作为基础方差的函数进行充分表达。完整模型是这样的:
作者指出,在某些情况下,由于衰减率和基本方差的存在,radam可以在动量等效的情况下退化为sgd。
实验表明,radam优于传统的手动预热调整,其中需要预热或猜测需要预热的步骤数。radam自动提供方差缩减,在各种预热长度和各种学习率下都优于手动预热。
总之,radam可以说是ai最先进的优化器,可以说是adam的优秀接班人!

对AI创业公司而言,建立完善的健康福利保障机制才能留住核心人才
再见了ASIMO!本田将停止研发人型机器人ASIMO
AI和人类将会是以什么关系相处
史密斯英特康的高频片式负载可提供高达67GHz的宽带性能
虚拟拍摄的革新:LED屏幕引领影视制作进入新纪元
Adam模型的新改进“Rectified Adam”
中科创达荣获2020中国汽车出行产业创新榜TOP20
泰国明年开始拍卖5G频谱,有四个频段
分享去耦电容的有效使用方法和应用
电源测试系统有哪些类型,它有哪些优势
英伟达TensorRT 7新平台推出,兼容ARM处理器
中航锂电(CALB)按下产能扩张“快进键
可控硅的特性和检测以及可控硅引脚判别
低静态功耗PS7A20 LDO芯片设计
贸泽备货Bosch BMP388数字气压传感器,适用于无人机等应用
华为云灾备服务,凭什么能保护企业数据资产?
ISA防火墙网络负载均衡地问题转移
慢速软启动放大器电源电路图
手机电池临时故障解决技术
东京大学研究出超薄柔性纳米纤维压力传感器