围棋吧 关注:334,671贴子:10,023,362

细思恐极,难道只有我一个人关注么?

只看楼主收藏回复

阿老师什么时候学会六目半的?
在我和@鸟甲 讨论master身份的时候,@鸟甲 的重要论据之一,就是AlphaGo只会下七目半的棋,ta从生下来就是这么训练的,我也认为deepmind也不会这么无聊再给它训练六目半。
当时我举个例子,做台好的面条机或者米线机或许不算什么,但一台机器能同时做好面条和米线,那基本上就可以认为是合格的厨师了。别问我为啥不煎牛排,大概主人对过桥米线有特殊爱好。
选择围棋,大概是围棋足够复杂,有足够的测试深度。
这才是阿老师最恐怖的进步吧。
金庸武功也有类似的描述,
比如张无忌,他用龙爪手打败了少林,用七伤拳打败了倥侗,他最恐怖的是龙爪手和七伤拳么?还是他能随时学会龙爪手和七伤拳的的那种能力?
我们看到的,只是阿老师八个月前的龙爪手威震武林,八个月后七伤拳独步天下。
但Deepmind真正关注的,应该是阿老师背后九阳神功的学习能力。
独孤九剑风老好像也有类似的论述。
另外,关于版本号。
软件之类科技产品的版本号,一般是有一定逻辑关系,并不是按阿拉伯数字顺序排下去的。
比如,1.0之前一般为测试版(内测?),从1.0到1.9,甚至1.99大概是同一个版本打补丁;但到2.0就基本上是全新版本了。
这里小数点也并没有独立意义,7和700、761可能是一个系列,而8就是下一代产品。
关于AlphaGo,我们好像没有见过v10以前的版本,大概是内测,我们是否可以认为,v11-v19是一个版本基础上提高,而从v20开始,其实已经是一个全新的纪元了?


IP属地:江苏1楼2017-01-05 12:38回复
    贴目并不影响围棋的本质下法,对阿法狗来说可能就是改个参数的事。


    3楼2017-01-05 13:10
    回复
      贴目差一目应该对棋风改变很小,当然如果到让先,估计棋风会激进很多


      IP属地:美国4楼2017-01-05 13:15
      回复
        没有九阳神功,谢逊也能练七伤拳,但对张无忌来说,有任何意义么?
        调一个参数当然不算太难。
        但是对Google有任何意义么?
        值得花几个月时间花大量金钱去重新训练么?
        做了面条机,再做一台米线机,有意义么?


        IP属地:江苏6楼2017-01-05 13:48
        收起回复
          码农表示,像这种还没有稳定版本的软件,版本号其实不一定代表的了什么
          一般只有完成度很高了或比较稳定了才会用版本区分,比如IOS的版本号


          IP属地:四川7楼2017-01-05 13:57
          收起回复
            测试嘛,不要求最强棋力,先打个补丁用着。再者,这是2.0版,以前的bug估计该解决了,也稳定了


            IP属地:重庆8楼2017-01-05 14:02
            回复
              简单地说,围棋AI就是就是求一个函数y=f(x),x是当前落子分布,f函数就是胜率最大化函数,y就是下一手位置。6目半,七目半,甚至让子棋,只会影响胜率百分比,不会影响这个求最大化函数的方法的。


              IP属地:广东9楼2017-01-05 14:09
              收起回复
                这个问题我和鸟甲兄讨论过了,我估计阿法狗至少3个版本,这正好解释鸟甲判断失误认为master是韩国人的。他认为谷歌论文设定贴7.5目模型,原来训练量大,不可能推到重来。
                但是:1.三月谷歌就说了还可以另设一个版本,不输入人类棋谱完全自己学,这个版本是全新,一切都可重设,从零训练。
                2.原来版本从3到12月足以修改贴目设定并训练9个月。
                3.贴7.5目版不改一直训练。
                上述三版本可以同时进化,哪个棋力高最终用哪个,其实也可能贴7.5目版因为训练时间长,水平最高,但这次没拿出来。
                转xwfh2000n老师分析:阿法狗同时有几个版本开发
                我这个疑问来自于以下几方面:
                1 第一次人机大战之后,有新闻说2月底AlphaGo就已经冻结,开始选版本进行比赛。
                2 16年七月份,Lucas在日本围棋大会上提到,“训练集不同,结果截然不同”“当你知道了我们试了哪些训练集你一定会感到惊讶! ” 这是我就猜测是否同时存在并行的若干AlphaGo的版本,拥有不同的风格,可以互相博弈想强化学习。网址:http://tieba.baidu.com/p/4677008652?pid=94122527831&cid=0#94122527831
                3 8月,美国围棋大会,Aja Huang明确说出他认为在让二子,黑贴7目半的前提下,从进步曲线上看AlphaGo有可能能击败职业棋手,只后又两次在404上说AlphaGo不断进步。这也是我几天前猜测Master是早起版本的根据。
                4 昨天,Aja Huang承认Master(p)就是AlphaGo,但英语版本说的是“New Prototype version”,而汉语版本则忽略了Prototype,大家都知道这个单词是“原型,样板”的意思。
                至此我相当确定这是一个并行的版本,因为他可以下6.5的贴目,同时从创新性来看,应该是完全摒弃人类棋谱的版本。但是棋力不一定有其他的版本高,因为根据3、4,从进步速度来看,最高棋力的版本,让先倒贴目完胜人类顶尖应该不成问题,而职业棋手普遍认为让先倒贴目有的下(当然并不一定准确)
                总结一下:李世石版人机大战之前,AlphaGo就有若干不同的版本,用了不同的训练集,风格不同,互相搏斗来提升棋力;人机大战后,重新开发了摒弃人类棋谱的新版本,并进行了非正式公测,但此版本不一定是最强的版本。
                联系到李喆微博说的“真正的强围棋AI是没有风格的”,这丫一定知道什么……


                IP属地:上海来自Android客户端10楼2017-01-05 14:41
                回复
                  不能调贴目数好奇怪
                  难道不是7.5改成6.5目时黑的下一步最高胜率自动上浮一点点?


                  IP属地:江西来自Android客户端11楼2017-01-05 14:42
                  收起回复
                    这个问题还真不是那么简单,简单调个参数是没法解决的。就算不随机初始化重新训练,也得再原来的网络上改训练目标后继续训练一段时间。更好的解决方式是将贴目数设为一个神经网络的输入参数,然后训练policy/value net的输出根据贴目数不同给出不同输出,这样训练出来的网络就可以随时调参数适应不同规则了。


                    12楼2017-01-05 14:53
                    回复
                      职业棋手下惯六目半了,改七目半就要重新学棋了?


                      IP属地:重庆来自Android客户端13楼2017-01-05 15:39
                      收起回复
                        我昨天说过这个,一群人喷我,说实话,master很可能也是贴7目半的,和野狐6目半的规则有1目的差距,只要棋手脸皮够厚,可以填子填到让master执白输半目。
                        7.5目是中国规则,master只能用中国规则训练,因为用中国规则电脑知道什么时候才能下完,怎么填子都不改变胜负,但日韩规则下电脑不知道什么才算下完,日韩规则是6.5目,所以我们可以看到棋局最后master甚至会往自己空里填子,棋手一看也不好意思认输了,这是棋手的风度,无可厚非,但如果有一个脸皮厚点的,就让master填,有赢的机会。


                        14楼2017-01-05 21:43
                        收起回复
                          我觉得是这样,ALPHAGO那样的水平对贴目会非常敏感,贴7目半的话,按胜率最大来训,极可能最后训出来反而是黑的乱搅白的一味求稳的这一套。
                          (18K互相让先下胜率也是50%左右,4~5d互相让先下胜率就有七成了,柯洁慢棋让填子一先胜率恐怕就一成多,ALPHAGO自己让自己先基本没胜率了)
                          少一目对水平高的来说挺致命的。
                          所以极可能从6目半重新开始训了一套出来。


                          IP属地:北京15楼2017-01-05 22:58
                          回复