【导读】metaai这次发布的modem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。
12月27日,metaai 负责视觉和强化学习领域的a
截止27日晚间,这篇推文的阅读量已经达到73.9k。
他表示,仅给出5个演示,modem就能在100k交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。
有多优秀呢?
他们发现modem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。
lecun也转发了这一研究,表示modem的模型架构类似于jepa,可在表征空间做出预测且无需解码器。
链接小编就放在下面啦,有兴趣的小伙伴可以看看~
论文链接:https://arxiv.org/abs/2212.05698
github链接:https://github.com/facebookresearch/modem
研究创新和模型架构
样本效率低下是实际应用部署深度强化学习 (rl) 算法的主要挑战,尤其是视觉运动控制。
基于模型的rl有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。
然而在实践中,基于模型的rl的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。
首先,modem分别通过使用世界模型、模仿+rl和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:
大样本复杂性(large sample complexity)
高维状态和动作空间探索(exploration in high-dimensional state and action space)
同步视觉表征和行为学习(simultaneous learning of visual representations and behaviors)
这次的模型架构类似于yann lecun的jepa,并且无需解码器。
作者aravind rajeswaran表示,相比dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用ssl预训练的视觉表示。
此外基于il+rl,他们提出了一个三阶段算法:
bc预训练策略
使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要
通过在线互动微调世界模型
结果显示,生成的算法在21个硬视觉运动控制任务中取得了sota结果(state-of-the-art result),包括adroit灵巧操作、metaworld和deepmind控制套件。
从数据上来看,modem在各项任务中的表现远远优于其他模型,结果比之前的sota方法提升了150%到250%。
红色线条为modem在各项任务中的表现
在此过程中,他们还阐明了modem中不同阶段的重要性、数据增强对视觉mbrl的重要性以及预训练视觉表示的实用性。
最后,使用冻结的 r3m 功能远远优于直接的 e2e 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。
但8月数据强劲的e2e与冻结的r3m竞争,我们可以通过预训练做得更好。
Z3025型摇臂钻床电气控制线路原理详解
吹田电气华东地区代理商培训会成功举办,技术总裁张磊亲授经验与技术
小米mix评测:全面屏惊艳全场 颜值超高配置逆天
人体组织培养传感器新技术 或助研发半机器人
Seven Seas:TDK闯关寻宝之旅即将启程
MoDem解决了视觉强化学习领域的三个挑战
IC制造工艺落后,中国何时能跟上世界步伐?
研究人员提出了一种新的新冠病毒检测方法
台积电时程规划领先业界并积极备妥产能 三星加速时程紧咬台积电
AMD R3 4200G产品细节曝光,将集成Navi 8核显
二叉树的所有路径介绍
小功率无线遥控器为什么这么受市场追捧?
从米其林看中国产业的弱点
乐Pro3双摄AI版评测:联发科X27 能否撑起乐视手机的性价比?
玻璃板液位计投用步骤_玻璃板液位计的钢球作用
电力晶体管特点
IDC预测:2018年全球半导体收入将达到4500亿美元
Letv超级电视与乐视说再见 旧的乐视超级电视时代结束
水肥一体化智能灌溉系统组成部分
应急灯充电电路图大全(六款应急灯充电电路设计原理图详解)