loy_20002000 发表于 2017-5-28 23:18:40

丁丁咚 发表于 2017-5-28 22:24
和柯洁下棋的新版本AlphaGo跟以前的alphago已经大不相同,并非只是靠庞大的计算。实际上,新版本的AlphaG ...

1、机器没有放弃人类棋谱,只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧,3000万盘是自我对战局,不是人类棋谱。人类职业的棋谱从唐朝那个时候算也不可能有这么多。这个问题记者问过哈斯必死,不清楚是同步翻译的问题还是怎么说,哈撒必死说他们没有放弃过人类棋谱。

2、蒙特卡洛算法是唯一可以解决围棋复杂度的方法,不可能放弃的。2.0或1.xx的计算数据是可以直接使用的,最凑巧的局面是某个盘面Go下出过很多次,并且有一个胜率最高的招法,这样连搜索都不用。就算真的是单机版,它内部的博弈树也是分布版试出来的,所以还是分布版的功劳。Google的牛掰之处是其他公司投入硬件堆不出Go的水平,硬件再其次,算法可能有大突破。之前对李世石的版本就是DM发明了多个网络共同决策的机制,其中最后搞出来的走子网络(英文我忘了)不借助其他网络就有业余6d的水平。

等着DM发布论文了,不清楚核心的东西是否公开。搞不好像上次《Nature》那篇,讲个轮廓具体的东西就不提了。1.xx赢了李世石后逼得Facebook把黑暗丛林公开了。不少人都猜测,DM藏私货,有些核心的可能压根没讲,不然解释不了其他公司复制它的思路战绩普遍糟糕。

清凉山 发表于 2017-5-28 23:23:59

大时代的看客 发表于 2017-5-28 22:57
咸的甜的都吃

是你把粽子抢光的?{:190:}

大时代的看客 发表于 2017-5-28 23:47:42

清凉山 发表于 2017-5-28 23:23
是你把粽子抢光的?

最终也没吃上甜的{:205:}

冰蚁 发表于 2017-5-28 23:52:06

本帖最后由 冰蚁 于 2017-5-28 11:30 编辑

loy_20002000 发表于 2017-5-28 10:18
1、机器没有放弃人类棋谱,只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧,3000万 ...

3000万不是自我对局,而是人类棋局。但是是 3000 万 moves,3000万手棋。200手一盘棋的话,15万盘棋。

ps, 刚查了一下,哈斯必死说了给 alpha 1.0 大约喂了10万盘棋。

tenba 发表于 2017-5-29 00:22:38

咸的甜的都吃

loy_20002000 发表于 2017-5-29 00:57:29

本帖最后由 loy_20002000 于 2017-5-29 14:33 编辑

冰蚁 发表于 2017-5-28 23:52
3000万不是自我对局,而是人类棋局。但是是 3000 万 moves,3000万手棋。200手一盘棋的话,15万盘棋。

p ...
看见你这个回复我差点哭了。国内的报道坑人呐,职业解说坑人呐,职业棋手坑人呐,伪专家坑人呐。刚查了哈撒必死的博客,真是你说的这个。(这里删了一段,原始文字是错误的)

我靠,盘、局和move、position的意思简直是天上地下。我已经迷糊了,现代就去看原始论文。

————————————————————

原始论文:We trained a 13 layer policy network, which we call the SL policy network, from 30 million positionsfromtheKGSGoServer.

哈撒必死博客:We trained the neural networks on 30 million moves from games played by human experts,……

好吧,我在拿头撞墙。


冰蚁 发表于 2017-5-29 01:14:33

本帖最后由 冰蚁 于 2017-5-28 12:17 编辑

loy_20002000 发表于 2017-5-28 11:57
看见你这个回复我差点哭了。国内的报道坑人呐,职业解说坑人呐,职业棋手坑人呐,伪专家坑人呐。刚查了哈 ...

嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。


{:191:}

PS,哈斯必死说用了约10万盘进行了训练。deep learning 阶段是自我对局。

loy_20002000 发表于 2017-5-29 01:22:36

冰蚁 发表于 2017-5-29 01:14
嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。




{:196:}

我真没想到那么多专家都是错的。职业棋手、围棋AI开发者、职业解说、专业媒体、专家解读(田渊栋除外),特么都是错的怎么可能?!这让我想起08年查XP的API,百度给出的原型统统是错误的。一字之差呀,意思差太多了。让我痛快地哭一场吧。{:205:}

还在看论文,明天更新下阅读心得。

喜欢就捧捧场 发表于 2017-5-29 02:07:26

为什么要排队为什么?

燕庐敕 发表于 2017-5-29 06:24:29

喜欢就捧捧场 发表于 2017-5-29 02:07
为什么要排队为什么?

排了队,大家可以去红包中心领豆豆发的红包。

吴承骏 发表于 2017-5-29 07:13:29

排队拿红包

dashanji 发表于 2017-5-29 07:57:08

我还是吃个甜的人

独角兽 发表于 2017-5-29 10:40:54

吃粽子的

随便 发表于 2017-5-29 10:57:02

      甜的

云淡风轻 发表于 2017-5-29 11:11:23

{:192:}{:191:}

loy_20002000 发表于 2017-5-29 16:54:43

冰蚁 发表于 2017-5-29 01:14
嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。




DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。

1、DM使用了KGS的16万局6d至9d棋局,共选取3000万个盘面构建SL Policy Network与Rollout Policy。盘面由(a,s)构成。SL Policy Network精确度高,Rollout Policy速度快,两者速度对比大致是1:1000。

2、由SL Policy Network+Rollout Policy生成RL Policy Network。RL使用的是Upper Confidence Bound(信心上界算法)。UCB随机选择多个a,通过终局胜负判断多个a的优劣p(a|s)。

3、由RL Policy Network生成Value Network。前者的节点由条件概率p(a|s)构成,而后者是v~(s)构成。v~(s) 不同于 v(s),是其近似。训练Value Network使用RL Policy Network会导致过度拟合,所以引入了Self Play。共选取【3000万盘自我对弈的盘面,确保每一个盘面不是出自同一局自我对弈】。



1——3示意图如上

4、MCTS将Rollout Policy+SL Policy Network+RL Policy Network+Value Network整合。通过搜索对a1、a2、……an各选点做胜率判断,选择算数平均值最高的选点。



多网络协作下棋力的对比,上图中。

小结:

1、3000万盘自我对局是正确的,高手们没有错;我还纳闷刘知青怎么会错,他可是搞了十多年计算机围棋的专业人员。3000万盘self play的positions,与Human expert的3000万个positons,在数量上正好重合。

2、具体流程还是不明了。一是我不懂贝叶斯方法,二是论文写得模糊。

3、今早想起来田渊栋强调过【这就是为什么是三千万局,而不是三千万个盘面】。刚才又看了一遍他知乎的专栏,当时我没理解他话的意思,结果第一感是自己错了。浅尝辄止呀,这个以后需要注意。

一瞬无尽 发表于 2017-5-29 20:12:09

在这里排队?

荷子 发表于 2017-5-29 22:23:48

跟着甜党红包链接来的

冰蚁 发表于 2017-5-29 22:53:27

loy_20002000 发表于 2017-5-29 03:54
DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。

1、DM使 ...

厘清就好了。现在等狗年底公布核心算法。

loy_20002000 发表于 2017-5-29 23:18:18

冰蚁 发表于 2017-5-29 22:53
厘清就好了。现在等狗年底公布核心算法。

这个值得期待。2.xx可以让对李世石的版本3子,与人类的实战也是碾压,不是亲眼见到很难相信这是事实。
页: 1 2 3 4 5 6 [7] 8 9
查看完整版本: 前度阿狗今又来