阿尔法 GO(AlphaGo)是怎么进行思考的?

2017-01-05 11:37:13 +08:00
 onice

今天看新闻消息:新阿尔法 GO 六十连胜横扫人类棋手

链接: http://www.thepaper.cn/newsDetail_forward_1593625

看了新闻,突然觉得人工智能很厉害啊!

但是我心中一直有个问题,冯诺依曼有个理论是:计算机应该按照程序顺序执行

但是从新闻上看来,阿尔法 GO 是能够像人类一样进行思考的。我想这也是人工智能的目的吧:让计算机能够像人类一样思考。

也就是说,从一定的意义上来讲:计算机思考的步骤实际上是由人类通过程序编写好的逻辑。这个观点和人工智能的目的是悖论。

一旦计算机能够独立思考,在理想状态下,计算机应该可以像人脑一样进行一些创造性的行为。就像是电影《终结者》那样。

不过我还是很好奇,阿尔法 GO 的程序逻辑是怎么实现的。有没有相关领域的大神科普一下。

1482 次点击
所在节点    AlphaGo
13 条回复
benwwchen
2017-01-05 11:44:41 +08:00
allenlee7c9
2017-01-05 11:45:20 +08:00
没有思考
easing
2017-01-05 11:50:17 +08:00
思而不学则殆。我觉得 lz 还是不要在缺乏一些基础知识的情况下思考这些问题。或者你看看一楼里贴的链接后再做思考。
tumbzzc
2017-01-05 11:55:48 +08:00
也算是“思考”吧。。跟人类一样,考虑走哪一步胜率更大。。
Izual_Yang
2017-01-05 11:58:06 +08:00
深度学习+蒙特卡洛吧
关键是围棋有一定复杂度,但又有明确的评判标准(死活,胜负),还有海量的输入数据(人类对局和 AI 左右互搏)可供学习,人工智能从这里开始突破也是很正常的。
层主的主要误解在于“和人类一样思考”,然后层主又瞬间脑补了“独立思考”乃至“创造性的行为”
onice
2017-01-05 12:01:13 +08:00
@Izual_Yang 没有接触过这个领域,见笑了。
bearqq
2017-01-05 12:49:05 +08:00
以下有一些是深度学习里的词,不懂可以忽略,感兴趣可以百度
围棋是监督学习,你提到“思考”,所以我想说说别的东西,无监督学习

DQN 是一个典型的无监督学习方法,能展示典型的“思考”的过程。
如果说一个函数对确定的输入(可能时间相关)有确定的输出,那么我们可以去逼近这个函数。 DQN 认为,如果我们给出当前的(游戏)状态变量,作为输入,加上“下一步的可选行动”选项,我们可以通过这个函数来预计游戏结束的分数。那么如果我们想要得更高的分数,我们就分别计算每个可选行动,对得出分数最高的那个行动进行实施不就可以了吗。

举个例子,愤怒的小鸟。如果我们把当前屏幕截图给模型(如上状态变量,即输入),我们可以让他跳跃或者不跳跃(下一步的可选行动),让机器自己去判断跳还是不跳。机器计算一下,跳的话最后得分可能是多少,不跳的话最后得分是多少,然后决定跳还是不跳。

那么思考过程呢,就是对那个“预计游戏结束的分数”的函数。计算机不断的用这个不完善的函数去尝试,每次结果的偏差用来修正这个函数,不断的去逼近真实的那个预估函数,不断的提高自己的预判能力,不断的提高自己的分数。逼近的过程是数学方法,有兴趣可以了解梯度下降,这是深度学习“思考”的本质。

然后你就看见电脑控制着那个鸟,一开始撞的满头包,后来能跳过几个桩了欣喜若狂,过了百万次(帧,预判次数)以后,他能顺利飞过所有的桩,根本停不下来。
就像教孩子一样。

源码在此 https://github.com/yenchenlin/DeepLearningFlappyBird ,需要 tensorflow
还有有土逼的视频
<amp-youtube data-videoid="THhUXIhjkCM" layout="responsive" width="480" height="270"></amp-youtube>
bearqq
2017-01-05 12:56:40 +08:00
@bearqq 我想说的是 flappy bird 不是怒鸟,抱歉
yyfearth
2017-01-05 13:40:32 +08:00
@bearqq 你不用 at 自己 哈哈
bearqq
2017-01-05 13:47:18 +08:00
@yyfearth 习惯-。-
blackjar
2017-01-05 18:15:09 +08:00
了解一下 nn 再问问题 没那么难吧?
srlp
2017-01-07 07:53:38 +08:00
简单地说,是一种人工调节过初始值和算法的优化过的搜索。

并没有“思考”。

话说回来,谁能证明人类并不是这样的呢?
Khlieb
2017-01-07 16:44:55 +08:00
3 年前, DeepMind 在自主增强学习算法上有了一个突破。这是“深度学习”领域,最接近 AI 的一个研究方向。
其中一个令人振奋的成果,就是不去由程序员编写 传统的固定下棋算法。而是初始化一个空白的深度神经网络系统,然后让 AI 自我对弈,自己学会了下棋。之后通过无限自我对局,不断完善自身。

DeepMind 的论文引起了 Google 的关注,随即以超过 4 亿美金的价格收购了 DeepMind 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/332352

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX