用PyTorch实现了基本的RL算法

今天和大家分享reddit上的一个热帖，楼主用pytorch实现了基本的rl算法，而且每个算法都在一个文件夹中完成，即使没有gpu，每个算法也可以在30秒内完成训练。
近日，有开发人员用pytorch实现了基本的rl算法，比如reinforce, vanilla actor-critic, ddpg, a3c, dqn 和ppo。这个帖子在reddit论坛上获得了195个赞并引发了热议，一起来看一下吧。
特点如下：
每个算法都在一个文件中完成。
每个算法的长度可达100~150行代码。
即使没有gpu，每个算法也可以在30秒内完成训练。
envs固定在“cartpole-v1”上，你只需关注执行。
minimalrl-pytorch算法：
1. reinforce（66行）
2. td actor-critic（97行）
3. dqn（113行，包括重放内存和目标网络）
4. ppo（116行，包括gae）
5. ddpg（149行，包括ou噪声和软目标更新）
6. a3c（116行）
7. 有什么建议吗？
依赖配置：
1. pytorch
2. openai gym
使用：
# works only with python 3.#e.g.python3reinforce.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py
评论中，不少朋友表示了对楼主的认可和感谢：
dump7留言：“可以！这是我见过的最美的东西之一。我不是一个能用框架编写nn的人。但我正在努力。这将在很大程度上帮助到我。谢谢你做了这个。但是你能为基本的cnn和rnn制作这样的单一文件代码吗？”
codereclaimers表示：“谢谢你分享这个——我知道把代码简化到最少是很费事的。特别好的是，你的代码将依赖配置控制在最低限度。通常都是，我去寻找可以学习的例子，要花至少30多分钟来收集所有依赖配置，结果发现我的平台上少了一些关键的东西。”
reddit上的讨论：
https://www.reddit.com/r/machinelearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/
github资源：
https://github.com/seungeunrho/minimalrl

浦桑尼克扫地机器人LDSD550评测采用方形设计清扫更加聪明高效
Cadence宣布提供业界首款HDMI 2.0验证IP
主流芯片厂商纷纷抢跑5G芯片，联发科成为5G芯片市场的巨大新变量
电池回收对电动汽车行业有什么作用?
七要素微气象仪的技术参数介绍
用PyTorch实现了基本的RL算法
简述覆铜板的性能
实时时钟器件X1226原理及软件设计
详细解读GPU的起源及发展
信雅达亮相中东Seamless ME 2023展会
非蜂窝5G，物联网的下一块拼图？
三星推出两款高端智能显示器 M7和 M5，运行智能电视系统的显示器
区块链与数据隐私怎样做可以兼容
Linux下线程间通讯--互斥锁
低调的哪吒汽车何以紧追明星造车新势力？
残疾人士福音：德国成功研发“读心机器手”
【新品推荐】氧气变送器OMD-150
Virtex UltraScale FPGA发货同时，赛灵思还新增加了另一款器件VU190 FPGA
消防管网监测系统组成及介绍
苹果、华为、Oppo的“后发制人”