之前用类似 AlphaGo 论文的方法训练了个策略网络,经过一番折腾,现在可在网页中直接用 JS 运行了(纯本地运行噢,感谢 MXnet 的 amalgamation 功能)。虽然 JS 比较慢,在电脑上每步要两秒钟(比 CPU 直接跑模型慢几十倍,比 GPU 慢几百倍),但实际在 iPhone7 上也能跑,速度不错(在安卓上就很慢了)。
点击打开: https://withablink.coding.me/goPolicyNet/
这里的策略网络的架构是 13 层 128 个 3x3 卷积,配合残差和 BN ,并且只用了 8 个特征平面(本方 /对手 /无子 /1 气 /2 气 /3 气 /4 气及以上 /上一手位置),同样实现了 KGS 测试集 54%+的准确率,而且训练速度非常快。
经测试,做为完全没有搜索的纯神经网络,棋力比 AlphaGo v13 的纯策略网络强,有奕城段位的水准(只要你不故意利用它的漏洞...比如它不会征子)。电脑的选点有时挺有意思,会发现一些狗的习惯。现在正在进行进一步强化学习中。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.