破解 AlphaGo 的关键信息出现了~

著作权归作者所有。
商业转载请联系作者获得授权，非商业转载请注明出处。
作者： Heinrich
链接： http://zhuanlan.zhihu.com/wille/20639779
来源：知乎

第二部分李世乭最后的机会

目前看来李世乭的棋力的确在 AlphaGo 以下，但是有一点是我今天想到的。在训练 AlphaGo 的数据中，平均一盘棋要下 200 手左右。然而围棋棋盘有 361 个点，也就是说：所有的训练数据都不包含大家硬着头皮把棋盘下满的情况！在我自己的模型中，当 CNN 硬着头皮下到 200 手左右的时候已经开始犯弱智的错误了，诸如把自己的眼添死，或者在双活情况下自杀。因为在训练数据中根本不存在这样的情况。不知道 AlphaGo 能否避免这样的情况，因为如果我的预测是对的，那么到了最后，还能支撑 AlphaGo 下棋的就只剩下蒙特卡洛搜索了。因为状态评估网络应该也没有在大于 200 目地情况下训练的可能。也就是说过了 200 目， AlphaGo 就回到了 GnuGo 的 6-8 段水平了。凭李世乭的水平也许还有一拼

我怎么觉得很有道理啊。。。。搬砖狗表示平时没玩过机器学习，分词还是玩过的。语料库大小是硬伤啊。

恰好，我又找到另外一个关键信息：

https://www.reddit.com/r/baduk/comments/4a2ay4/

Apparently, the KGS games were used as a dataset for AlphaGo before playing Fan Hui, but those games were erased before the games against Lee Sedol. Instead, Tygem games (with professional players' games included) were used to populate its database so it could "learn" for the Lee Sedol match. Kim noted, "If KGS games were good enough for AlphaGo to defeat Fan Hui 2p, then having the Tygem games (with the professional players playing Go) would make AlphaGo much stronger."

那么，计算 KGS 棋谱的平均长度就差不多可以估量 AlphaGo 的 dataset 大小了。

有人会反驳到后期会暴力破解。我也没算过，觉得是扯谈的。就算国际象棋，现在暴力破解也就最多 12 步棋。李世石只需要坚持到 250 手（手动滑稽）说不定还真能忽悠住 alphago 。

我先喷为敬。

yangff

2016-03-13 00:37:37 +08:00

@est 搜索树那边就不说了吧。
总之 ago 试图判断某个位置好不好的时候，就尝试在搜索树上移动到这个位置（这个可能之前就计算过了），然后一直在搜索树上走直到走到叶子，然后在这个地方（可能展开），用快速落子把棋下完（随机落子、和 fast rollout 把局面下完）和价值网络判断。

所以剩余位置少的时候，即便 policy 网络预测的精度下降， ago 也有足够的机会多计算几步。。

policy network 跑一次 3ms （ gpu ）， fast rollout 一次 2us （ gpu ，精度 24%），局面评估什么的论文里没说时间，他以用 1k 多个 cpu 核心…… 读秒 1 分钟……

写的比较仓促，不保证完全正确…… 你可以去看看论文或者这个 http://zhuanlan.zhihu.com/yuandong/20607684