设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
楼主: 燕庐敕
打印 上一主题 下一主题

前度阿狗今又来

  [复制链接]
  • TA的每日心情
    慵懒
    2018-6-21 13:05
  • 签到天数: 21 天

    [LV.4]金丹

    121#
    发表于 2017-5-28 23:18:40 | 只看该作者
    丁丁咚 发表于 2017-5-28 22:24
    和柯洁下棋的新版本AlphaGo跟以前的alphago已经大不相同,并非只是靠庞大的计算。实际上,新版本的AlphaG ...

    1、机器没有放弃人类棋谱,只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧,3000万盘是自我对战局,不是人类棋谱。人类职业的棋谱从唐朝那个时候算也不可能有这么多。这个问题记者问过哈斯必死,不清楚是同步翻译的问题还是怎么说,哈撒必死说他们没有放弃过人类棋谱。

    2、蒙特卡洛算法是唯一可以解决围棋复杂度的方法,不可能放弃的。2.0或1.xx的计算数据是可以直接使用的,最凑巧的局面是某个盘面Go下出过很多次,并且有一个胜率最高的招法,这样连搜索都不用。就算真的是单机版,它内部的博弈树也是分布版试出来的,所以还是分布版的功劳。Google的牛掰之处是其他公司投入硬件堆不出Go的水平,硬件再其次,算法可能有大突破。之前对李世石的版本就是DM发明了多个网络共同决策的机制,其中最后搞出来的走子网络(英文我忘了)不借助其他网络就有业余6d的水平。

    等着DM发布论文了,不清楚核心的东西是否公开。搞不好像上次《Nature》那篇,讲个轮廓具体的东西就不提了。1.xx赢了李世石后逼得Facebook把黑暗丛林公开了。不少人都猜测,DM藏私货,有些核心的可能压根没讲,不然解释不了其他公司复制它的思路战绩普遍糟糕。

    点评

    两个网络: value network,policy network  发表于 2017-5-28 23:46
  • TA的每日心情

    13 小时前
  • 签到天数: 2761 天

    [LV.Master]无

    122#
    发表于 2017-5-28 23:23:59 | 只看该作者

    是你把粽子抢光的?
  • TA的每日心情
    开心
    2019-4-30 15:47
  • 签到天数: 778 天

    [LV.10]大乘

    123#
    发表于 2017-5-28 23:47:42 | 只看该作者
    清凉山 发表于 2017-5-28 23:23
    是你把粽子抢光的?

    最终也没吃上甜的

    点评

    快去吧,那边又煮上了  发表于 2017-5-29 00:44
  • TA的每日心情
    擦汗
    2019-6-16 23:34
  • 签到天数: 1277 天

    [LV.10]大乘

    124#
    发表于 2017-5-28 23:52:06 | 只看该作者
    本帖最后由 冰蚁 于 2017-5-28 11:30 编辑
    loy_20002000 发表于 2017-5-28 10:18
    1、机器没有放弃人类棋谱,只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧,3000万 ...


    3000万不是自我对局,而是人类棋局。但是是 3000 万 moves,3000万手棋。200手一盘棋的话,15万盘棋。

    ps, 刚查了一下,哈斯必死说了给 alpha 1.0 大约喂了10万盘棋。
  • TA的每日心情
    擦汗
    2024-2-21 15:59
  • 签到天数: 1104 天

    [LV.10]大乘

    125#
    发表于 2017-5-29 00:22:38 | 只看该作者
    咸的甜的都吃
  • TA的每日心情
    慵懒
    2018-6-21 13:05
  • 签到天数: 21 天

    [LV.4]金丹

    126#
    发表于 2017-5-29 00:57:29 | 只看该作者
    本帖最后由 loy_20002000 于 2017-5-29 14:33 编辑
    冰蚁 发表于 2017-5-28 23:52
    3000万不是自我对局,而是人类棋局。但是是 3000 万 moves,3000万手棋。200手一盘棋的话,15万盘棋。

    p ...

    看见你这个回复我差点哭了。国内的报道坑人呐,职业解说坑人呐,职业棋手坑人呐,伪专家坑人呐。刚查了哈撒必死的博客,真是你说的这个。(这里删了一段,原始文字是错误的)

    我靠,盘、局和move、position的意思简直是天上地下。我已经迷糊了,现代就去看原始论文。

    ————————————————————

    原始论文:We trained a 13 layer policy network, which we call the SL policy network, from 30 million positions  from  the  KGS  Go  Server.

    哈撒必死博客:We trained the neural networks on 30 million moves from games played by human experts,……

    好吧,我在拿头撞墙。


  • TA的每日心情
    擦汗
    2019-6-16 23:34
  • 签到天数: 1277 天

    [LV.10]大乘

    127#
    发表于 2017-5-29 01:14:33 | 只看该作者
    本帖最后由 冰蚁 于 2017-5-28 12:17 编辑
    loy_20002000 发表于 2017-5-28 11:57
    看见你这个回复我差点哭了。国内的报道坑人呐,职业解说坑人呐,职业棋手坑人呐,伪专家坑人呐。刚查了哈 ...


    嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。




    PS,哈斯必死说用了约10万盘进行了训练。deep learning 阶段是自我对局。
  • TA的每日心情
    慵懒
    2018-6-21 13:05
  • 签到天数: 21 天

    [LV.4]金丹

    128#
    发表于 2017-5-29 01:22:36 | 只看该作者
    冰蚁 发表于 2017-5-29 01:14
    嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。



    我真没想到那么多专家都是错的。职业棋手、围棋AI开发者、职业解说、专业媒体、专家解读(田渊栋除外),特么都是错的怎么可能?!这让我想起08年查XP的API,百度给出的原型统统是错误的。一字之差呀,意思差太多了。让我痛快地哭一场吧。

    还在看论文,明天更新下阅读心得。
  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 1893 天

    [LV.Master]无

    129#
    发表于 2017-5-29 02:07:26 | 只看该作者
    为什么要排队为什么?

    点评

    油墨: 5.0
    油墨: 5
    还能为什么,排队吃粽子啊:))  发表于 2017-5-29 02:32
  • TA的每日心情

    2020-11-20 06:24
  • 签到天数: 1618 天

    [LV.Master]无

    130#
     楼主| 发表于 2017-5-29 06:24:29 | 只看该作者
    喜欢就捧捧场 发表于 2017-5-29 02:07
    为什么要排队为什么?

    排了队,大家可以去红包中心领豆豆发的红包。
  • TA的每日心情
    开心
    2019-5-7 18:26
  • 签到天数: 841 天

    [LV.10]大乘

    131#
    发表于 2017-5-29 07:13:29 | 只看该作者
    排队拿红包
  • TA的每日心情
    擦汗
    2017-12-24 06:47
  • 签到天数: 640 天

    [LV.9]渡劫

    132#
    发表于 2017-5-29 07:57:08 | 只看该作者
    我还是吃个甜的人

    该用户从未签到

    133#
    发表于 2017-5-29 10:40:54 | 只看该作者
    吃粽子的
    回复

    使用道具 举报

  • TA的每日心情

    2018-4-4 23:00
  • 签到天数: 88 天

    [LV.6]出窍

    134#
    发表于 2017-5-29 10:57:02 | 只看该作者
            甜的
  • TA的每日心情
    慵懒
    前天 11:25
  • 签到天数: 1210 天

    [LV.10]大乘

    135#
    发表于 2017-5-29 11:11:23 | 只看该作者
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    2018-6-21 13:05
  • 签到天数: 21 天

    [LV.4]金丹

    136#
    发表于 2017-5-29 16:54:43 | 只看该作者
    冰蚁 发表于 2017-5-29 01:14
    嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。

    DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。

    1、DM使用了KGS的16万局6d至9d棋局,共选取3000万个盘面构建SL Policy Network与Rollout Policy。盘面由(a,s)构成。SL Policy Network精确度高,Rollout Policy速度快,两者速度对比大致是1:1000。

    2、由SL Policy Network+Rollout Policy生成RL Policy Network。RL使用的是Upper Confidence Bound(信心上界算法)。UCB随机选择多个a,通过终局胜负判断多个a的优劣p(a|s)。

    3、由RL Policy Network生成Value Network。前者的节点由条件概率p(a|s)构成,而后者是v~(s)构成。v~(s) 不同于 v(s),是其近似。训练Value Network使用RL Policy Network会导致过度拟合,所以引入了Self Play。共选取【3000万盘自我对弈的盘面,确保每一个盘面不是出自同一局自我对弈】



    1——3示意图如上

    4、MCTS将Rollout Policy+SL Policy Network+RL Policy Network+Value Network整合。通过搜索对a1、a2、……an各选点做胜率判断,选择算数平均值最高的选点。



    多网络协作下棋力的对比,上图中。

    小结:

    1、3000万盘自我对局是正确的,高手们没有错;我还纳闷刘知青怎么会错,他可是搞了十多年计算机围棋的专业人员。3000万盘self play的positions,与Human expert的3000万个positons,在数量上正好重合。

    2、具体流程还是不明了。一是我不懂贝叶斯方法,二是论文写得模糊。

    3、今早想起来田渊栋强调过【这就是为什么是三千万局,而不是三千万个盘面】。刚才又看了一遍他知乎的专栏,当时我没理解他话的意思,结果第一感是自己错了。浅尝辄止呀,这个以后需要注意。

    点评

    你这篇可以单独发研究生院去了。  发表于 2017-5-29 22:54
  • TA的每日心情
    开心
    2016-2-8 14:34
  • 签到天数: 2 天

    [LV.1]炼气

    137#
    发表于 2017-5-29 20:12:09 | 只看该作者
    在这里排队?
  • TA的每日心情
    慵懒
    2024-1-31 16:37
  • 签到天数: 1114 天

    [LV.10]大乘

    138#
    发表于 2017-5-29 22:23:48 | 只看该作者
    跟着甜党红包链接来的
  • TA的每日心情
    擦汗
    2019-6-16 23:34
  • 签到天数: 1277 天

    [LV.10]大乘

    139#
    发表于 2017-5-29 22:53:27 | 只看该作者
    loy_20002000 发表于 2017-5-29 03:54
    DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。

    1、DM使 ...

    厘清就好了。现在等狗年底公布核心算法。
  • TA的每日心情
    慵懒
    2018-6-21 13:05
  • 签到天数: 21 天

    [LV.4]金丹

    140#
    发表于 2017-5-29 23:18:18 | 只看该作者
    冰蚁 发表于 2017-5-29 22:53
    厘清就好了。现在等狗年底公布核心算法。

    这个值得期待。2.xx可以让对李世石的版本3子,与人类的实战也是碾压,不是亲眼见到很难相信这是事实。

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2024-11-22 13:14 , Processed in 0.049731 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表