深度强化学习玩微信跳一跳

2018-06-15 14:06:54 +08:00
 hijkzzz

最近学习了一下深度强化学习算法,用 CNN+DDPG 算法做了一个玩微信跳一跳的 AI

和 GitHub 上的基于 OpenCV 的方法有本质的区别,实现了端到端的自动学习

有兴趣的同学可以看一看,或者帮忙改进改进一下,目前参数调优和训练量都还不足

代码在 https://github.com/hijkzzz/wechat-jump-ddpg

5383 次点击
所在节点    Python
7 条回复
Heigum
2018-06-15 14:24:20 +08:00
我跳一跳的排行榜都没人了
nine99
2018-06-15 14:57:52 +08:00
好奇这个训练起来会有多慢
ynyounuo
2018-06-15 15:01:35 +08:00
跳一跳距离和按压时间正相关,你这样意义不大。
hijkzzz
2018-06-15 15:11:30 +08:00
@ynyounuo
输入不是距离
输入的是原始游戏图像

这个只是作死,当然用测量距离的方式更容易做
但是那种是典型的基于规则的
和 AI 就没什么太多关系了
takato
2018-06-15 16:32:50 +08:00
@hijkzzz 目前 RL 对短距离激励还是比较容易做的(比如这个 case ),长距离激励会比较麻烦点。

关于可能的改进,提个可能的方向,不一定对:CNN 会不会套得有一些深。
tsaoyu
2018-06-15 18:16:03 +08:00
做的还是很有意思的。
@takato 可以继续往稀疏奖励和高维状态的方向上去做,应用方面的话机器人,能源规划以及资产管理都有一些可以继续深入的点。
takato
2018-06-16 19:47:52 +08:00
@tsaoyu 稀疏奖励不好学。而且很容易学到随机特征。。不过想想也是,世界的规则就是这样,某种层面上具有非常强的随机性。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/463382

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX