李世石赢了
本帖最后由 晨枫 于 2016-3-13 11:05 编辑连输三盘后,李世石赢回了一局,这也是历史上人类第一次打败AlphaGo。非同小可。实际上,个人认为,这意义比前三局加上樊麾的5局还要重要,尤其是如果李世石把第5局也赢下来的话。这说明了两个重要的问题:
1、人类的学习和突变思维能力依然强于电脑
2、人类一旦找到电脑的缺陷,还是有能力迅速、反复地在同一个地方突破,而电脑难以反制
这和电脑游戏有点相像。刚开始的时候,尤其是难度等级高的时候,人类玩手被电脑打得稀里哗啦。但一旦找到漏洞,以后反复打败电脑就容易了,即使不是重复同样的步子。这里还有一个心理问题。没打败电脑之前,心里没有底;打败过一次了,以后就不怕了,继续打败就更没压力了。
传统电脑游戏没有学习能力,AlphaGo是极大的不同。现在球回到AlphaGo那里了,看它如何自我学习、自我改善了。 这预示了两个重要的结论:
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷,有能力迅速、反复地在同一个类型范围突破提升,而人类难以反制
要不要开赌第五局? 最终比分会是:4:1 {:187:}
这个嘛,不好说。因为从几个月与樊麾的对局到现在,阿法狗的进步是神速的,超过了已知的任何一位人类棋手{:215:}就看它再往前会不会遇到瓶颈了。
老票 发表于 2016-3-13 23:48
这预示了两个重要的结论:
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷,有能 ...
这个第五局应该还看不到。因为开发团队说为了保持系统的稳定性,他们在比赛期间冻结了阿法狗的深度学习。而且阿法狗的学习应该是需要大量样本的,仅仅一盘棋恐怕没多少效果。 晨大,阿狗这一败,还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI,在应对突变方面仍然给人类留下了战胜它们的机会,而已。
阿狗此败,往好处说,也就是说谷歌/DeepMind没有藏奸耍滑头,我只能说围棋的变数实在是过巨,DeepMind团队虽已取得重大突破,但阿狗在团队的设置下能够找到的较优选,仍然给人类留下了击败他们的机会,虽然这个机会也许只有15%,10%,8%...
往坏处说,谷歌/DeepMind如果认定最终比分是3:2或4:1比5:0能够获取更大商业利益,那么取得那样的比分对他们来说实在是易如反掌。
{:187:}想当初,阿法狗只要赢一盘就是突破了,现在已经赢了三盘=突破X3 煮酒正熟 发表于 2016-3-14 00:22
晨大,阿狗这一败,还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI,在应对突 ...
如果李世石确实是找到了软件弱点,如果陈经说的是对的,那么人类总结提高的能力确实比电脑强
如果电脑在没有人类提示的情况下能很快发现这个漏洞,那么说明电脑也具有总结提高的能力了。个人目前不看好这点
在发现漏洞以后有针对性的增加对局改进网络,多半只是硬件资源和时间的问题,当然也有可能遇到瓶颈,那么就需要软件架构的改进 和樊麾的非正式快棋可是输了两盘的。 机器是逻辑产物,人类有逻辑和直觉,人类逻辑能力速度逊于机器,但机器只能去模拟直觉。到最后是直觉与模拟直觉对阵。输赢看人类如何把直觉发挥到极致了。 煮酒正熟 发表于 2016-3-13 11:22
晨大,阿狗这一败,还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI,在应对突 ...
这也不叫突变,而是开放式复杂局面外加有劫争的情况。超过电脑运算能力了。陈经写的还是有道理的。 之前AlphaGo学习的时候,估计输给了不少人类~ 两个可能,一个是阿法狗训练的那两张神经元网络的训练样本多样性不够,没覆盖这种棋局,被李世石遇到了,回头google团队会加强对这一类型棋面的训练;第二是手写的针对围棋的搜索算法和局部搜索算法的bug被李世石测出来了。
总的来说阿法狗需要人类喂各种数据样本,缺陷也需要人类来发现和打补丁。
另外从相关文献看到,google的野心是做出模仿人类的通用神经元网络,能学习一切知识技能。
但目前每个神经元网络都是specific给某个功能的,比如图像的、语音的、围棋的,需要针对某个功能做专门的大数据训练,训练好的网络里神经元的参数和输入输出函数设计就只能是针对一个specific的功能,比如专门图像识别、语言识别或者围棋。而不像我们人类大脑里神经元网络是一张联通的通用的网络,什么知识都一笼统学习。也因此我们人类由于左脑右脑之间能触类旁通、灵机一动,从完全不同的领域受到启发激活灵感,知识是整合的。
qyangroo 发表于 2016-3-14 03:24
两个可能,一个是阿法狗训练的那两张神经元网络的训练样本多样性不够,没覆盖这种棋局,被李世石遇到了,回 ...
这个太吓人了,真的是天网呀!以后真能统治世界! 天网觉得还是低调点,输一两盘伪装一下而已。:lol 老票 发表于 2016-3-13 23:48
这预示了两个重要的结论:
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷,有能 ...
不一定,对第四局的学习,电脑未必能那么快补上这个漏洞,还得高手来搞。 本帖最后由 煮酒正熟 于 2016-3-13 19:59 编辑
qyangroo 发表于 2016-3-13 14:24
两个可能,一个是阿法狗训练的那两张神经元网络的训练样本多样性不够,没覆盖这种棋局,被李世石遇到了,回 ...
我的看法很不同... 从已知的信息来说,DeepMind的下一步很明确,就是不让狗狗再向人类学习,而是彻底归零后,完全自己摸索。俗话说杀了老子二十年以后又是一条好汉,这个也一样,归了零,几个月以后又是一条好狗。
至于为什么没有从一开始就让狗自己学,而是给它喂了3000万手人类棋招,我猜,还是需要一个宏观方向,这样归零以后可以顺着这个大方向迅速长棋,而不是从一开始就毫无方向地去随机乱试,那样乱试也许真的需要20年才能再出一条好狗 qyangroo 发表于 2016-3-14 03:24
两个可能,一个是阿法狗训练的那两张神经元网络的训练样本多样性不够,没覆盖这种棋局,被李世石遇到了,回 ...
谷歌的野心太可怕了,如果AI到了机械姬的程度:funk: 如果阿尔法狗真的是我理解的那样,每一步都不是最优选,但是整体胜率控制在较高水准,而不是真的依赖于其强大的学习能力(这个可以理解为自我升级和进化),那么人类就可能慢慢捉摸出对付人工智能的方法,并最终战胜。
如果阿尔法狗是真的自我学习能力很强,那人类战胜人工智能的机会就很少。
我们拭目以待,看看小李子的第五盘 不懂围棋。记得李昌镐的名言“只追求51%的胜率”,阿发哥应该很像石佛(比他还没情绪)。 煮酒正熟 发表于 2016-3-14 08:57
我的看法很不同... 从已知的信息来说,DeepMind的下一步很明确,就是不让狗狗再向人类学习,而是彻底归零 ...
我这两天读了不少介绍阿法狗的神经元网络算法的文章,阿法狗用了两类神经元网络,策略网络和价值网络。
其实,它的策略网络有两个版本,一个称为“监督学习的策略网络“,一个称为“强化学习的策略网络”。简单的说,监督学习的策略网络是用人类高手的棋局来训练的,阿法狗在一个围棋网站上迎战人类高手,并被小组有意识喂了不少高手棋局,这个网络相当于学习了人类高手,最后成果是仅靠这张网来决策就能战胜57%的人类高手。
另一个“强化学习的策略网络”,训练方法是两只阿法狗自己跟自己下模拟棋局,每局下到底,用胜者的结果来训练,这种随机产生的棋局有上百万局,都成为累积训练用的大数据。这些数据同时也用来训练了价值网络。
所以google说归零后重新学习,不再监督学习,而是随机自学成才,应该指用第二张“强化学习的策略网”,阿法狗自己随机产生棋局,左右互搏,每局下到底,重新训练两张网,看成果比向人类高手学习如何。这第二张网的级数应该远多于第一张,所需训练更是海量计算。
现在阿法狗跟李世石比赛很可能用的第一张监督学习的策略网和价值网,同时辅以MCTS和另一个滑动窗口的快速遍历计算算法。
将来会用第二张强化学习的策略网络和价值网络。
以上只是基于我的理解。