你们不是嫌弃世界冠军 og 团队实力太水吗?“你行你上”的机会来了。
4 月 14 日凌晨,openai five 以 2:0 击败了 dota 世界冠军团队 og 引发热议。比赛当天,openai 也宣布要开放 openai five 竞技场模式,让每个感兴趣的人都参与其中。
4 月 18 日(太平洋标准时间)下午 6 点,openai 如约开放了这一模式,全世界各路玩家都可以免费进行体验。开放时间为期三天,4 月 21 日(太平洋标准时间)晚上 11 点 59 分关闭,要体验一把人机对战的话可得抓紧时间。
参赛链接:https://arena.openai.com/#/
目前从其官网赛况来看,截止今天早上 10 点,openai five 与参与者打了 424 场比赛,ai 以 112-0 完胜人类玩家。
以下是人类参与者的部分赛况:
据 openai 官方介绍,参与者可以在竞争模式和合作模式下体验 openai five。他们的 1v1 机器人可以通过巧妙的策略加以利用,但他们也并不知道 openai five 能在多大程度上可以做到这一点。
在此前决赛中,他们展示了 openai five 和人类在合作模式打游戏。一组是 sheever、blitz 和三个 openai five,对手是由 capitalist、odpixel 和三个 openai five 组成的团队。
不过,通过 openai five 在决赛上的表现,openai 团队在最新的博客中分享了两个惊喜:
尽管训练 openai five 系统的目的是为了打败其他机器人,但他们却发现 openai five 其实还有与人类成为队友的基本能力,也就是说可以将一个竞争型 ai 变为合作型 ai。他们认为,如果能更努力去开发,未来 ai 系统能为人类做出非常多的贡献。
4 月 18 日 到 21 日的竞技场模式测试将回答一个很重要的研究问题——openai five 的潜能可以被人类运用到何种程度,或者它们在其他哪些方面必定会被打败。openai five 这一深度强化学习智能体系统,可能会成为有史以来人类能与之交互的最大的 ai 部署系统。
og战队与openai开发团队
对于 openai five 竞技场模式,有很多人报以期待,reddit 上有网友评论称,“这特么太酷了,自从 openai 1v1 首秀之后,人们已经要求要在网上跟机器人玩游戏了,现在它真的发生了!”
只是,如果在竞争模式跟 ai 打 dota,作为人类玩家的你会不会惨遭openai five 的虐杀,而输得毫无悬念呢?祝你们好运。
当然,玩游戏之余,你可能也想知道:openai five 取得胜利背后的“秘诀”是什么?为什么这次的 openai five 系统要比去年在 ti 表演赛上败给人类的ai系统更强?openai 是如何训练 openai five 系统的?openai 团队最近给出了解读。
为什么是 dota2?
一开始,openai 团队研究 openai five 是为了解决超出现有深度强化学习算法能力范围的问题,他们希望通过现有的方法解决当下无法解决的问题,原以为这需要复杂的算法思想(比如分层强化学习(hierarchical rl)),但他们惊讶地发现只需要改进的是规模,但实现和利用这个规模并不容易,这成了其研究的主要内容。
openai five 把世界看作是一串必须破译的数字。无论这些数字是以 dota 游戏形式(约 20000 个数字),还是以机械手形式(约 200 个),使用的都是通用学习代码。
为了创建 openai five,openai 团队创造了一个名为 rapid 的系统,用来以从未有过的规模去运行 ppo(proximal policy optimization),结果出人意料,居然创造了一个不受任何基本性能限制的世界级 dota 机器人。
如今,rl 算法表现出了惊人的能力,但它在游戏或模拟环境之外却用处不大,但这个限制可能并没有听起来的那么糟糕,例如可以使用 rapid 来控制机械手来重新移动一个模块,这需要首先进行模拟训练,然后在物理机器人上执行。他们认为,对于 rl 的下一个挑战是减少对经验的依赖。
虽然他们决定不再让 openai five 成为竞争对手,但社会进步和技术发展将继续推动未来的研究,这也并非 dota 比赛研究的终点,他们认为 dota 比赛对 rl 开发来说是一个比现在使用的标准环境更有趣、更复杂、也更好理解的环境。
算力
与 dota2 在去年的 ti 表演赛的失利相比,openai five 在 4 月 14 日战胜 og 团队的主要原因是其训练的计算量增加了 8 倍。去年比赛后,openai 团队将项目中的绝大部分计算用于训练 openai five 模型,同时还增加了训练时间。
openai five 的 trueskill,由于已经使用了额外的训练计算,所以用线来划分主要的系统变化。这张图的走向大致是线性的,意味着 openai five 不断从额外计算中获益。
总之 ,openai five 的当前版本已经训练了 800 petaflop/s /天,并且在10个实时月的时间内进行相当于人类大约 45000 年时长的 dota 游戏自我训练,相当于人类每天平均有 250 年的模拟训练。openai five 的最终版本与 ti 版本相比,胜率是 99.9%。
18 个英雄
从训练 5 名英雄到 18 名英雄时的训练进度几乎没有放缓,他们已经假设同样的情况如果发生在更多的英雄身上会怎样。ti比赛后,又花了很多精力去整合新的英雄。
他们花了几周时间去训练多达 25 个英雄的英雄池,将这些英雄带到大约 5k mmr(大约是95% dota 玩家的水平)。虽然在进步,但学习速度不够快,无法在决赛前达到职业水平。研究人员还没有时间去找到原因,但后来发现模型容量不足,需要更好的匹配来扩展英雄池,还需要更多的训练时间来让新英雄赶上老英雄。但想象一下,当一个人掌握了自己的英雄时,再去学习一个新英雄是多么困难。
对了,这里明明说训练了 18 个英雄,但为什么在与 og 比赛时只放了 17 个英雄?因为还有一个英雄在 dota v7.20 版本中出现了明显变化,所以就没用。
最后,这么好的机会,要不要去体验下被机器人在 dota 中碾压的酸爽感?
植物病虫害检测仪器@恒美品牌2021新款
自动驾驶技术计算分析以及路径规划的问题
将 SiLabs AMW007 Wi-Fi 模块连接到 Medium One 物联网云
PN8366M低功耗小功率电源适配器ic
DC-DC开关模式电源控制器驱动稳压电荷泵
你们不是嫌弃世界冠军OG团队实力太水吗?“你行你上”的机会来了
示波器经常说“四个部分”是哪四个部分?
Material Design指南中更新的相关内容
汽车制造商现在正面临着另一个供应链难题
边缘计算未来将如何更好地推动物联网技术的发展
深圳大学解决分布式光纤传感领域“卡脖子”问题
元宇宙的概念是如何实现的?是否是骗局
微软Windows10更新又挡不住了?这次恐让钱包大失血
透波低介电绝缘高导热氮化硼膜材垫片毫米波雷达的应用
恩智浦推出第2代射频多芯片模块 将频率范围扩展至4.0 GHz
号称“地表最强”自动泊车,激光雷达真能带来这么大提升?
特斯拉Model Y正式交付后 对电池的需求预计会进一步增加
iPhone凭18%的份额却拿走了整个智能手机市场的92%利润!
浅谈完整地平面的重要性
Michael Hampden:新的VR杀手级应用将会出现