用PyTorch实现了基本的RL算法

今天和大家分享reddit上的一个热帖,楼主用pytorch实现了基本的rl算法,而且每个算法都在一个文件夹中完成,即使没有gpu,每个算法也可以在30秒内完成训练。
近日,有开发人员用pytorch实现了基本的rl算法,比如reinforce, vanilla actor-critic, ddpg, a3c, dqn 和ppo。这个帖子在reddit论坛上获得了195个赞并引发了热议,一起来看一下吧。
特点如下:
每个算法都在一个文件中完成。
每个算法的长度可达100~150行代码。
即使没有gpu,每个算法也可以在30秒内完成训练。
envs固定在“cartpole-v1”上,你只需关注执行。
minimalrl-pytorch算法:
1. reinforce(66行)
2. td actor-critic(97行)
3. dqn(113行,包括重放内存和目标网络)
4. ppo(116行,包括gae)
5. ddpg(149行,包括ou噪声和软目标更新)
6. a3c(116行)
7. 有什么建议吗?
依赖配置:
1. pytorch
2. openai gym
使用:
# works only with python 3.#e.g.python3reinforce.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py
评论中,不少朋友表示了对楼主的认可和感谢:
dump7留言:“可以!这是我见过的最美的东西之一。我不是一个能用框架编写nn的人。但我正在努力。这将在很大程度上帮助到我。谢谢你做了这个。但是你能为基本的cnn和rnn制作这样的单一文件代码吗?”
codereclaimers表示:“谢谢你分享这个——我知道把代码简化到最少是很费事的。特别好的是,你的代码将依赖配置控制在最低限度。通常都是,我去寻找可以学习的例子,要花至少30多分钟来收集所有依赖配置,结果发现我的平台上少了一些关键的东西。”
reddit上的讨论:
https://www.reddit.com/r/machinelearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/
github资源:
https://github.com/seungeunrho/minimalrl

浦桑尼克扫地机器人LDSD550评测 采用方形设计清扫更加聪明高效
Cadence宣布提供业界首款HDMI 2.0验证IP
主流芯片厂商纷纷抢跑5G芯片,联发科成为5G芯片市场的巨大新变量
电池回收对电动汽车行业有什么作用?
七要素微气象仪的技术参数介绍
用PyTorch实现了基本的RL算法
简述覆铜板的性能
实时时钟器件X1226原理及软件设计
详细解读GPU的起源及发展
信雅达亮相中东Seamless ME 2023展会
非蜂窝5G,物联网的下一块拼图?
三星推出两款高端智能显示器 M7和 M5,运行智能电视系统的显示器
区块链与数据隐私怎样做可以兼容
Linux下线程间通讯--互斥锁
低调的哪吒汽车何以紧追明星造车新势力?
残疾人士福音:德国成功研发“读心机器手”
【新品推荐】氧气变送器OMD-150
Virtex UltraScale FPGA发货同时,赛灵思还新增加了另一款器件VU190 FPGA
消防管网监测系统组成及介绍
苹果、华为、Oppo的“后发制人”