人工智能的强化学习要点

了解强化学习的要点!
强化学习(rl)是现代人工智能领域中最热门的研究主题之一,其普及度还在不断增长。 让我们看一下开始学习rl需要了解的5件事。
1.什么是强化学习? 与其他机器学习技术相比有何不同?
强化学习(rl)是一种机器学习技术,使代理能够使用自身行为和经验的反馈,通过反复试验,在交互式环境中学习。
尽管监督学习和强化学习都使用输入和输出之间的映射,但不同于监督学习,后者提供给代理的反馈是执行任务的正确动作集,而强化学习则将奖惩作为正面和负面行为的信号。
与无监督学习相比,强化学习在目标方面有所不同。 无监督学习的目标是发现数据点之间的相似点和差异,而在强化学习的情况下,目标是找到合适的行为模型,以最大化代理的总累积奖励。 下图说明了通用rl模型的动作奖励反馈回路。
2.如何制定基本的强化学习问题?
描述rl问题基本要素的一些关键术语是:
环境-代理在其中运行的物理世界
状态—代理的现状
奖励-来自环境的反馈
策略-将代理状态映射到操作的方法
价值-代理在特定状态下采取的行动将获得的未来奖励
rl问题可以通过游戏来最好地解释。 让我们以吃豆人的游戏为例,代理人(pacman)的目标是在网格中吃食物,同时避免途中出现鬼魂。 在这种情况下,网格世界是代理所作用的交互式环境。 如果特工被幽灵杀死(输掉了游戏),代理会得到食物和惩罚的奖励。 状态是代理在网格世界中的位置,总累积奖励是赢得比赛的代理。
为了建立最佳政策,代理面临探索新状态的困境,同时又要最大化其整体回报。 这称为探索与利用的权衡。 为了平衡两者,最佳的整体策略可能涉及短期牺牲。 因此,代理应收集足够的信息,以便将来做出最佳的总体决策。
马尔可夫决策过程(mdp)是描述rl环境的数学框架,几乎所有rl问题都可以使用mdp来表述。 一个mdp由一组有限的环境状态s,在每个状态下的一组可能的动作a,一个实值奖励函数r和一个过渡模型p(s',s | a)组成。 但是,现实环境更可能缺少任何有关环境动力学的先验知识。 在这种情况下,无模型rl方法非常方便。
q学习是一种常用的无模型方法,可用于构建自播放的pacman代理。 它围绕更新q值的概念展开,q值表示在状态s中执行动作a的值。 以下值更新规则是q学习算法的核心。
3.什么是最常用的强化学习算法?
q学习和sarsa(状态行动-奖励状态行动)是两种常用的无模型rl算法。 它们的探索策略不同,而利用策略却相似。 q学习是一种非策略方法,其中代理根据从另一个策略得出的操作a *学习值,而sarsa是一种策略上方法,在其中根据其当前操作a从当前策略得出的值来学习值。 政策。 这两种方法易于实现,但缺乏通用性,因为它们无法估计未见状态的值。
可以通过更高级的算法(例如使用神经网络来估计q值的深度q网络(dqn))来克服这一问题。 但是dqn只能处理离散的低维动作空间。
深度确定性策略梯度(ddpg)是一种无模型,脱离策略,对执行者敏感的算法,它通过在高维连续动作空间中学习策略来解决此问题。 下图是评论体系结构的表示。
4.强化学习的实际应用是什么?
由于rl需要大量数据,因此最适用于容易获得模拟数据(例如游戏性,机器人技术)的领域。
rl被广泛用于构建用于玩计算机游戏的ai。 alphago zero是第一个在古代中国的围棋游戏中击败世界冠军的计算机程序。 其他包括atari游戏,西洋双陆棋等
在机器人技术和工业自动化中,rl用于使机器人能够为其自身创建高效的自适应控制系统,该系统可以从自身的经验和行为中学习。 deepmind的通过异步策略更新进行机器人操纵的深度强化学习就是一个很好的例子。 观看这个有趣的演示视频。
rl的其他应用包括抽象文本摘要引擎,对话代理(文本,语音),这些代理可以从用户的交互中学习并随着时间的流逝而改善,学习医疗保健中的最佳治疗策略,以及用于在线股票交易的基于rl的代理。
5.我如何开始进行强化学习?
为了理解rl的基本概念,可以参考以下资源。
《强化学习-入门》,是强化学习之父的一本书-理查德·萨顿(richard sutton)和他的博士生导师安德鲁·巴托(andrew barto)。 这本书的在线草稿可以在这里找到。
david silver的教学材料(包括视频讲座)是有关rl的入门课程。
pieter abbeel和john schulman(开放式ai /伯克利ai研究实验室)的另一本有关rl的技术教程。
对于开始构建和测试rl代理,以下资源可能会有所帮助。
博客介绍了如何使用来自原始像素的policy gradients训练神经网络atari pong代理,andrej karpathy将帮助您在130行python代码中启动并运行您的第一个deep reinforcement learning代理。
·deepmind lab是一个类似于开放源代码的3d游戏平台,用于具有丰富模拟环境的基于代理的ai研究。
马尔默项目是另一个支持ai基础研究的ai实验平台。
openai gym是用于构建和比较强化学习算法的工具包。

小米6最新消息:第一部蓝色小米,性能怪兽小米6发布在即,必须666!
高精度电子开关电源电路
利用等离子增强技术改善钙钛矿太阳能电池在可见光谱中的低光学吸收
Qorvo和ubisys联手,推出首个采用多堆栈芯片的IoTivity平台
有关相邻和同信道拥堵与干扰的问题解析
人工智能的强化学习要点
常见的进程间通信方式
从湖南限电来看中国电化学储能
5G将会给全社会带来三大好处
VR工地安全体验馆的最主要的优势特点是什么
AVR单片机对电梯外呼板系统的控制设计
AI芯片组全球十大排名
2018年国内毫米波雷达市场规模将达60亿元,同比增长44%
智能音箱初战告捷,2020年相关设备出货量有望超10亿台
宏集七轴机械臂,以精准力控实现柔性抛光打磨!
Intel通过设计Logo新面貌渐变色系,让整体视觉形象趋于时尚化
基于PID控制策略和3C2410芯片实现中央空调末端装置远程控制设计
什么是单模与多模光纤?使用光纤有哪些优点?
iphone8发布会现场直播,iphone8 699美元iphone8plus 799美元这售价,情理之中意料之外
使用物联网和英特尔Movidius神经计算棒自动执行野生动物图像处理