爱吱声

标题: 李世石赢了 [打印本页]

作者: 晨枫 时间: 2016-3-13 23:35
标题: 李世石赢了
本帖最后由晨枫于 2016-3-13 11:05 编辑

连输三盘后，李世石赢回了一局，这也是历史上人类第一次打败AlphaGo。非同小可。实际上，个人认为，这意义比前三局加上樊麾的5局还要重要，尤其是如果李世石把第5局也赢下来的话。这说明了两个重要的问题：
1、人类的学习和突变思维能力依然强于电脑
2、人类一旦找到电脑的缺陷，还是有能力迅速、反复地在同一个地方突破，而电脑难以反制

这和电脑游戏有点相像。刚开始的时候，尤其是难度等级高的时候，人类玩手被电脑打得稀里哗啦。但一旦找到漏洞，以后反复打败电脑就容易了，即使不是重复同样的步子。这里还有一个心理问题。没打败电脑之前，心里没有底；打败过一次了，以后就不怕了，继续打败就更没压力了。

传统电脑游戏没有学习能力，AlphaGo是极大的不同。现在球回到AlphaGo那里了，看它如何自我学习、自我改善了。

作者: 老票 时间: 2016-3-13 23:48
这预示了两个重要的结论：
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷，有能力迅速、反复地在同一个类型范围突破提升，而人类难以反制

要不要开赌第五局？最终比分会是：4:1

作者: xlan1976 时间: 2016-3-14 00:15
这个嘛，不好说。因为从几个月与樊麾的对局到现在，阿法狗的进步是神速的，超过了已知的任何一位人类棋手

就看它再往前会不会遇到瓶颈了。

作者: xlan1976 时间: 2016-3-14 00:17

老票发表于 2016-3-13 23:48
这预示了两个重要的结论：
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷，有能 ...

这个第五局应该还看不到。因为开发团队说为了保持系统的稳定性，他们在比赛期间冻结了阿法狗的深度学习。而且阿法狗的学习应该是需要大量样本的，仅仅一盘棋恐怕没多少效果。

作者: 煮酒正熟 时间: 2016-3-14 00:22
晨大，阿狗这一败，还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI，在应对突变方面仍然给人类留下了战胜它们的机会，而已。

阿狗此败，往好处说，也就是说谷歌/DeepMind没有藏奸耍滑头，我只能说围棋的变数实在是过巨，DeepMind团队虽已取得重大突破，但阿狗在团队的设置下能够找到的较优选，仍然给人类留下了击败他们的机会，虽然这个机会也许只有15%，10%，8%...

往坏处说，谷歌/DeepMind如果认定最终比分是3:2或4:1比5:0能够获取更大商业利益，那么取得那样的比分对他们来说实在是易如反掌。

作者: 晚稻米 时间: 2016-3-14 00:36

想当初，阿法狗只要赢一盘就是突破了，现在已经赢了三盘=突破X3

作者: xzhangz 时间: 2016-3-14 00:52

煮酒正熟发表于 2016-3-14 00:22
晨大，阿狗这一败，还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI，在应对突 ...

如果李世石确实是找到了软件弱点，如果陈经说的是对的，那么人类总结提高的能力确实比电脑强
如果电脑在没有人类提示的情况下能很快发现这个漏洞，那么说明电脑也具有总结提高的能力了。个人目前不看好这点
在发现漏洞以后有针对性的增加对局改进网络，多半只是硬件资源和时间的问题，当然也有可能遇到瓶颈，那么就需要软件架构的改进

作者: 冰蚁 时间: 2016-3-14 02:28
和樊麾的非正式快棋可是输了两盘的。

作者: 龙血树 时间: 2016-3-14 02:36
机器是逻辑产物，人类有逻辑和直觉，人类逻辑能力速度逊于机器，但机器只能去模拟直觉。到最后是直觉与模拟直觉对阵。输赢看人类如何把直觉发挥到极致了。

作者: 冰蚁 时间: 2016-3-14 02:38

煮酒正熟发表于 2016-3-13 11:22
晨大，阿狗这一败，还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI，在应对突 ...

这也不叫突变，而是开放式复杂局面外加有劫争的情况。超过电脑运算能力了。陈经写的还是有道理的。

作者: tanis 时间: 2016-3-14 02:51
之前AlphaGo学习的时候，估计输给了不少人类~

作者: qyangroo 时间: 2016-3-14 03:24
两个可能，一个是阿法狗训练的那两张神经元网络的训练样本多样性不够，没覆盖这种棋局，被李世石遇到了，回头google团队会加强对这一类型棋面的训练；第二是手写的针对围棋的搜索算法和局部搜索算法的bug被李世石测出来了。

总的来说阿法狗需要人类喂各种数据样本，缺陷也需要人类来发现和打补丁。

另外从相关文献看到，google的野心是做出模仿人类的通用神经元网络，能学习一切知识技能。

但目前每个神经元网络都是specific给某个功能的，比如图像的、语音的、围棋的，需要针对某个功能做专门的大数据训练，训练好的网络里神经元的参数和输入输出函数设计就只能是针对一个specific的功能，比如专门图像识别、语言识别或者围棋。而不像我们人类大脑里神经元网络是一张联通的通用的网络，什么知识都一笼统学习。也因此我们人类由于左脑右脑之间能触类旁通、灵机一动，从完全不同的领域受到启发激活灵感，知识是整合的。

作者: 山远空寒 时间: 2016-3-14 06:28

qyangroo 发表于 2016-3-14 03:24
两个可能，一个是阿法狗训练的那两张神经元网络的训练样本多样性不够，没覆盖这种棋局，被李世石遇到了，回 ...

这个太吓人了，真的是天网呀！以后真能统治世界！

作者: 走南闯北 时间: 2016-3-14 07:24
天网觉得还是低调点，输一两盘伪装一下而已。

作者: 山远空寒 时间: 2016-3-14 07:33

老票发表于 2016-3-13 23:48
这预示了两个重要的结论：
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷，有能 ...

不一定，对第四局的学习，电脑未必能那么快补上这个漏洞，还得高手来搞。

作者: 煮酒正熟 时间: 2016-3-14 08:57
本帖最后由煮酒正熟于 2016-3-13 19:59 编辑

qyangroo 发表于 2016-3-13 14:24
两个可能，一个是阿法狗训练的那两张神经元网络的训练样本多样性不够，没覆盖这种棋局，被李世石遇到了，回 ...

我的看法很不同... 从已知的信息来说，DeepMind的下一步很明确，就是不让狗狗再向人类学习，而是彻底归零后，完全自己摸索。俗话说杀了老子二十年以后又是一条好汉，这个也一样，归了零，几个月以后又是一条好狗。
至于为什么没有从一开始就让狗自己学，而是给它喂了3000万手人类棋招，我猜，还是需要一个宏观方向，这样归零以后可以顺着这个大方向迅速长棋，而不是从一开始就毫无方向地去随机乱试，那样乱试也许真的需要20年才能再出一条好狗

作者: leekai 时间: 2016-3-14 09:22

qyangroo 发表于 2016-3-14 03:24
两个可能，一个是阿法狗训练的那两张神经元网络的训练样本多样性不够，没覆盖这种棋局，被李世石遇到了，回 ...

谷歌的野心太可怕了，如果AI到了机械姬的程度

作者: dasa 时间: 2016-3-14 09:38
如果阿尔法狗真的是我理解的那样，每一步都不是最优选，但是整体胜率控制在较高水准，而不是真的依赖于其强大的学习能力（这个可以理解为自我升级和进化），那么人类就可能慢慢捉摸出对付人工智能的方法，并最终战胜。

如果阿尔法狗是真的自我学习能力很强，那人类战胜人工智能的机会就很少。

我们拭目以待，看看小李子的第五盘

作者: duanjian 时间: 2016-3-14 09:56
不懂围棋。记得李昌镐的名言“只追求51%的胜率”，阿发哥应该很像石佛（比他还没情绪）。

作者: qyangroo 时间: 2016-3-14 09:57

煮酒正熟发表于 2016-3-14 08:57
我的看法很不同... 从已知的信息来说，DeepMind的下一步很明确，就是不让狗狗再向人类学习，而是彻底归零 ...

我这两天读了不少介绍阿法狗的神经元网络算法的文章，阿法狗用了两类神经元网络，策略网络和价值网络。

其实，它的策略网络有两个版本，一个称为“监督学习的策略网络“，一个称为“强化学习的策略网络”。简单的说，监督学习的策略网络是用人类高手的棋局来训练的，阿法狗在一个围棋网站上迎战人类高手，并被小组有意识喂了不少高手棋局，这个网络相当于学习了人类高手，最后成果是仅靠这张网来决策就能战胜57%的人类高手。

另一个“强化学习的策略网络”，训练方法是两只阿法狗自己跟自己下模拟棋局，每局下到底，用胜者的结果来训练，这种随机产生的棋局有上百万局，都成为累积训练用的大数据。这些数据同时也用来训练了价值网络。

所以google说归零后重新学习，不再监督学习，而是随机自学成才，应该指用第二张“强化学习的策略网”，阿法狗自己随机产生棋局，左右互搏，每局下到底，重新训练两张网，看成果比向人类高手学习如何。这第二张网的级数应该远多于第一张，所需训练更是海量计算。

现在阿法狗跟李世石比赛很可能用的第一张监督学习的策略网和价值网，同时辅以MCTS和另一个滑动窗口的快速遍历计算算法。

将来会用第二张强化学习的策略网络和价值网络。

以上只是基于我的理解。

作者: holycow 时间: 2016-3-14 10:25
本帖最后由 holycow 于 2016-3-13 18:32 编辑

qyangroo 发表于 2016-3-13 17:57
我这两天读了不少介绍阿法狗的神经元网络算法的文章，阿法狗用了两类神经元网络，策略网络和价值网络。

...

不是战胜57%的人类棋手，而是有57%的概率能正确判断人类棋手在同样的棋局下会走在哪里。虽然比以前AI的记录44%大大提高，但显而易见这只是模仿人类下棋，光靠这个赢樊麾都够呛，遑论李世石。

现在对局一定是在用强化学习的策略网络。其实那个监督学习的策略网络起的作用只是在短时间内给阿法狗一个过得去的起点，以后全靠强化学习涨棋。从原理来讲，完全可以跳过监督学习，光靠左右互搏从一开始随机下子开始涨棋，消耗掉天文数字的CPU时间后同样可以达到现在的水准。

作者: 燕庐敕 时间: 2016-3-14 10:31

煮酒正熟发表于 2016-3-14 00:22
晨大，阿狗这一败，还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI，在应对突 ...

李世石应该继续保持开局不落后+中盘在中腹复杂战斗的下法，来验证昨天的胜利。

你看了陈经前天连夜写的帖子了吗？

作者: holycow 时间: 2016-3-14 10:36

燕庐敕发表于 2016-3-13 18:31
李世石应该继续保持开局不落后+中盘在中腹复杂战斗的下法，来验证昨天的胜利。

你看了陈经前天连夜写的 ...

这个是可能的获胜途径，不是必然的，蒙特卡罗昨天帮了你，今天就可能吃了你。

作者: 燕庐敕 时间: 2016-3-14 10:38

holycow 发表于 2016-3-14 10:36
这个是可能的获胜途径，不是必然的，蒙特卡罗昨天帮了你，今天就可能吃了你。
...

如果重复出现呢？

作者: 删除失败 时间: 2016-3-14 10:47

燕庐敕发表于 2016-3-14 10:38
如果重复出现呢？

说明阿法狗这game开发不合格，三两下就被找到规律了

作者: 煮酒正熟 时间: 2016-3-14 10:48

holycow 发表于 2016-3-13 21:25
不是战胜57%的人类棋手，而是有57%的概率能正确判断人类棋手在同样的棋局下会走在哪里。虽然比以前AI的记 ...

那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结

作者: 煮酒正熟 时间: 2016-3-14 11:07

dasa 发表于 2016-3-13 20:38
如果阿尔法狗真的是我理解的那样，每一步都不是最优选，但是整体胜率控制在较高水准，而不是真的依赖于其强 ...

那么人类就可能慢慢捉摸出对付人工智能的方法，并最终战胜。

时间不在人类这一边.. 只要谷歌继续支持DeepMind团队，团队坚持让狗狗自我学习的战略，几个月后的狗狗会重新达到今天的棋力，并且出昏招下手的概率锐减，也就是说很少会有能够让人捕捉得到的破绽了。一旦进入自我学习的快速通道，狗的棋力用一日千里来形容也不为过，人类不要说慢慢琢磨，你就是快快琢磨也不赶趟儿

作者: 四处张望 时间: 2016-3-14 11:10

燕庐敕发表于 2016-3-14 10:38
如果重复出现呢？

第五盘重复第四盘落子？

作者: 燕庐敕 时间: 2016-3-14 11:24

四处张望发表于 2016-3-14 11:10
第五盘重复第四盘落子？

应该是思路：

多头并进，少定型，中盘鬼手。

作者: 燕庐敕 时间: 2016-3-14 11:25

煮酒正熟发表于 2016-3-14 10:48
那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结 ...

为了一开始就省力加不希望开始就跑偏，可能隐含棋手几千年总结在最初阶段是合理的这个假设？

作者: zilewang 时间: 2016-3-14 11:33

燕庐敕发表于 2016-3-14 10:31
李世石应该继续保持开局不落后+中盘在中腹复杂战斗的下法，来验证昨天的胜利。

你看了陈经前天连夜写的 ...

以前觉得政委有点大嘴巴。但他连续几篇人机大战的文章，有水平。

人机大战，不应该将焦点放在输赢上。

作者: zilewang 时间: 2016-3-14 11:40

煮酒正熟发表于 2016-3-14 11:07
时间不在人类这一边.. 只要谷歌继续支持DeepMind团队，团队坚持让狗狗自我学习的战略，几个月后的狗狗会 ...

围棋的本质还是计算，他可以一分钟穷举上千上万手棋，这一点，狗狗已经证明了，他强大人脑太多。
他现在缺的是复杂局面下的优选，价值判断。不解决这一点，狗狗的水平就没办法突破。

即使他赢了棋，也是输了。

作者: qyangroo 时间: 2016-3-14 11:43

煮酒正熟发表于 2016-3-14 10:48
那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结 ...

有几种可能：

1、用人类高手能较快较好的找到神经元的合适参数。随机产生的棋局水平有可能较低，训练出的初始参数很可能局限了阿法狗的“思路”，一旦陷进去了很难走出来，无法仅靠现有水平突破出更优决策，就像臭棋篓子再下1000局也是臭棋一样。

2、尽管阿法狗的计算能力很强，但由于围棋无法穷举，开局后很长时间基本在算局部最优解，有可能导致剪枝太过，错过了全局最优，这对训练价值网络是不利的。人类高手一般有大局观，可以较快帮阿法狗的价值网建立全局观。

现在google团队应该是想挑战阿法狗通过自己的策略网络决策来下棋，并自学成不亚于人类高手的能力。也就是想让阿法狗自己反复试错加反馈，自己“琢磨”出妙招和高招。同时尽可能“琢磨”出多样化的棋局，这一点肯定需要尽量扩大搜索广度，多下棋来实现。由此阿法狗可模拟出人类不断试错、反馈、并提高的学习过程。由于阿法狗计算速度快、数据吞吐量大，一天能顶人类几年，所以进化应该比较快。就像生物进化一样，阿法狗能否进化的关键我认为是多样性和反馈。

作者: 燕庐敕 时间: 2016-3-14 11:45

zilewang 发表于 2016-3-14 11:33
以前觉得政委有点大嘴巴。但他连续几篇人机大战的文章，有水平。
人机大战，不应该将焦点放在输赢 ...

这个，玩经济他是业余爱好者，人工智能是他吃饭的家伙，围棋是他唯一的爱好。

作者: holycow 时间: 2016-3-14 11:52

煮酒正熟发表于 2016-3-13 18:48
那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结 ...

我估计从零开始的话，一开始涨棋非常非常慢。从完全随机的一片混沌中开始，就好象从尼安德特人开始，先进化到狩猎部族，花了老鼻子时间。然后去耕种，农业革命，这下快一点了。到工业革命又得上千年，然后两三百年到信息革命。涨棋也是一样，越到后面才越快，前面会不成比例的耗费机时。阿法伯虽然有的是钱，养一条阿法狗没问题，可是耗不起出成果的时间。

作者: 一无所之 时间: 2016-3-14 11:53

老票发表于 2016-3-13 23:48
这预示了两个重要的结论：
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷，有能 ...

来嘛，怎么个赌法？

作者: 煮酒正熟 时间: 2016-3-14 12:03

holycow 发表于 2016-3-13 22:52
我估计从零开始的话，一开始涨棋非常非常慢。从完全随机的一片混沌中开始，就好象从尼安德特人开始，先进 ...

嗯，应该就是这个原因。商业上，很多时候只能是先做一个quick and dirty的prototype，来看看这个东西能不能做出来，大概能做到一个什么程度，做出来以后大概能有哪些方面的价值。prototype出来以后，各方基本满意，这个时候返回头去重新做一个精致细腻高大上的洁本出来。俺上周刚刚做过类似的东西，prototype连续作战10个小时，拿出来一个脏脏的东西，大家看了都说有价值，我再回来一点儿一点儿扣细节，把数据做干净，做合理，这一做就是30个小时，现在也只做了70%。

作者: longcheng 时间: 2016-3-14 14:06
实验室机器人，把多个熟练工的操作动作学习一遍，能成为不错的技工。

作者: 常挨揍 时间: 2016-3-14 14:19
赢了也是输了。
今天李世石排名被阿尔法狗挤下去一位

作者: xzhangz 时间: 2016-3-14 14:22

燕庐敕发表于 2016-3-14 11:45
这个，玩经济他是业余爱好者，人工智能是他吃饭的家伙，围棋是他唯一的爱好。 ...

这个，第一点和第三点矛盾吧？你师弟在经济方面码的那么多字连爱好都不算？难道是写作练习么

作者: 燕庐敕 时间: 2016-3-14 14:27

xzhangz 发表于 2016-3-14 14:22
这个，第一点和第三点矛盾吧？你师弟在经济方面码的那么多字连爱好都不算？难道是写作练习么 ...

以前也打过桥牌，后来也不玩了。

研究经济不是爱好，是希望小试牛刀，看看自己的洞察力---开发自己的新边界。

作者: 燕庐敕 时间: 2016-3-14 14:30

冰蚁发表于 2016-3-14 02:28
和樊麾的非正式快棋可是输了两盘的。

那个实在是上好几版了吧。

昨天说，找不到bug在哪里，被一群下棋加研究AI的炮轰。

作者: 晨枫 时间: 2016-3-14 21:41

holycow 发表于 2016-3-13 21:52
我估计从零开始的话，一开始涨棋非常非常慢。从完全随机的一片混沌中开始，就好象从尼安德特人开始，先进 ...

最大的问题是无法从局部最优走出来，而局部最优可能与全局最优差别很大。

作者: 晨枫 时间: 2016-3-14 21:43

煮酒正熟发表于 2016-3-13 22:03
嗯，应该就是这个原因。商业上，很多时候只能是先做一个quick and dirty的prototype，来看看这个东西能不 ...

哇，你可是快手。我的prototype出来到turn over没有几个月肯定不行，中间少说几十个改版，有时还是大改，反复测试就要好久，而且常常出现弄到一半“哦，其实我想要的是那样的不是这样的”。

作者: 陈王奋起挥黄钺 时间: 2016-3-14 23:52

holycow 发表于 2016-3-14 11:52
我估计从零开始的话，一开始涨棋非常非常慢。从完全随机的一片混沌中开始，就好象从尼安德特人开始，先进 ...

有一个简单的方法，就是从座子开始，一下子局面简化很多，建立价值估算能力后再扩展到任意子。

这是古人下围棋的思路。狗狗也可以采用。

作者: yoshiro 时间: 2016-3-15 00:28

燕庐敕发表于 2016-3-14 11:45
这个，玩经济他是业余爱好者，人工智能是他吃饭的家伙，围棋是他唯一的爱好。 ...

原来政委是搞人工智能的啊。

作者: 老财迷 时间: 2016-3-15 08:10

燕庐敕发表于 2016-3-14 14:27
以前也打过桥牌，后来也不玩了。

研究经济不是爱好，是希望小试牛刀，看看自己的洞察力---开发自己的新 ...

政委2014年10月参加过双人赛，在河里发过帖子。看样子是工作太忙，没时间玩了

作者: 老票 时间: 2016-3-15 21:04

一无所之发表于 2016-3-14 11:53
来嘛，怎么个赌法？

骚瑞刚看到，现在还能赌么？

欢迎光临爱吱声 (http://aswetalk.net/bbs/)