本周于预印服务器arxiv.org上发表的一篇论文中,来自google brain,google x和加州大学伯克利分校的研究人员组成的团队描述了对现有ai方法的扩展,这些方法使诸如代理人之类的代理人成为可能。决定执行上一个动作时要采取的动作。其思想是,模仿人或动物行为的行为模型将在将来导致更健壮,更不易发生故障的系统。
研究人员指出,尽管ai算法已经在视频游戏,机器人抓取和操纵任务中取得了成功,但大多数算法都使用了阻塞性的“观察-思考-行动”范例-代理假定其环境在“思考”时保持静态,因此其行动将在计算它们的相同状态下执行。这在仿真中是适用的,但在现实世界中则不然,在现实世界中,环境状态随着代理程序处理观测结果并计划其下一个动作而变化。
团队的解决方案是一个可以在机器学习上下文中处理并发环境的框架。它利用标准的强化学习公式-通过奖励推动代理人达到目标的公式-其中,代理人从一组可能的状态中接收一个状态,并根据策略从一组可能的操作中选择一个操作。环境返回从过渡分布和奖励中采样的下一个状态,以便代理学习从每个状态最大化期望的收益。
除了上一个动作之外,还有两个附加功能-动作选择时间和走动向量(vtg)-有助于封装并发知识。(研究人员将vtg定义为在测量环境状态时立即执行的最后一个动作。)并发动作环境在执行前一个动作时以及捕获状态之后捕获状态。并且该策略将选择一个操作并执行该操作,而不管先前的操作是否已完成-即使必须中断先前的操作。
研究人员在真实世界的机械手臂上进行了实验,他们的任务是抓取并移动垃圾箱中的各种物体。他们说,他们的框架取得了与基线阻止模型相当的抓取成功,但是就策略持续时间(衡量策略的总执行时间)而言,它比阻止模型快49%。此外,并发模型能够执行比基线更平滑的轨迹。
共同作者写道:“并发方法可能允许在动态环境中进行机器人控制,在这种环境中,机器人无法在计算动作之前停止环境。”“在这些情况下,机器人必须真正地同时思考和行动。”
这项工作是在google领导的一项研究之后进行的,该研究描述了一种ai系统,该系统从动物的动作中学到了东西,从而使机器人具有更大的灵活性。合着者认为,他们的方法可以促进机器人的发展,该机器人可以完成现实世界中的任务,例如在多层仓库和履行中心之间运输物料。
索尔维新型KetaSpire® PEEK XT带来更高性能表现
骨传导耳机性价比之光!NANK南卡Runner CCII震撼发布!
构成PLL频率合成器的构建模块研究
应用于高频变压器的首条工业机器人生产线在瑞格精密投入生产
微雪电子ZIGBEE开发板简介
Google研究人员开发出了一种可以促进机器人发展的AI系统
康耐视推出新一代高性能手持式读码器
5G商用大幕正在开启,各国5G最新排名!
噪声对策中如何改善WLAN的接收灵敏度?
Nuro霸福布斯美国最有前景AI企业榜单第一位
米尔科技KEIL C166开发工具版本比较
2019年日本工业机器人订单额同比增长4% 首破万亿日元
什么是整流电路_整流电路四种类型详解
物联网如何影响我们的日常生活
从2009年1-10月中国电池行业预测发展
轻松实现 Matomo 网站数据的高效分析极简教程
5个方法教你如何快速地使用压缩来得到你想要的声音
铁氧体磁环电感封装相同电流大小相同吗
2023年国际十大科技新闻揭晓
大陆今年恐挤下台湾成IC设计全球第二