围棋吧 关注:201,784贴子:7,771,163
  • 81回复贴,共1

大概读了读alpha zero的论文,印象如下

只看楼主收藏回复

其基本着眼点在于要试图证明适用于alphgo zero的从零开始神经网络训练法可以适用于规则更为复杂的游戏。


文章指出,围棋是特别适合卷积神经网络的,规则具有平移不变性(棋子在棋盘上任何位置规则都一样),游戏具有轴对称和旋转对称性,另外规则是局域而非远程的(比如没有象棋里“炮”这类东西),搜索空间非常单纯(任何地方都可落子)。但象棋和将棋的规则要更为复杂,尤其是将棋,吃掉的棋子还可以重新摆上棋盘,对称性也不够强,而且有远程作用的棋子等等。


deepmind就想试验用同样培养go zero的方法是不是能搞定象棋和将棋,结果证明,能。


文章还有一个隐含的观点。我记得alphago刚出来的时候,和李世石下的那阵子,有人问过电脑棋类专家一个问题,如果用alphago这种神经网路方法来制作国象程序,是否能击败目前的顶尖棋软。结果一众专家纷纷说不可能,他们认为当然能达到很高水平,但认为神经网络有弱点,不能和接近穷举的stockfish之类相比。


我看deepmind这帮人就是不服这种看法,所以真的对此进行了挑战。文章指出,原来业界占统治地位的alpha beta搜索法,效果不如他们的用神经网路+蒙特卡洛(是的,alpha zero重新引入了蒙特卡罗),并发了一个图,思考时间越长,神+蒙 对于 alpha beta 的优势就越大,所以他们对传统的看法,即认为alpha beta这种minmax搜索法是象棋类最佳算法,提出了很正式的质疑和挑战。其实alpha zero的算法是更接近人脑的,人类不是靠蛮力计算(这是目前chess棋软的大致算法),而是更有效地剪枝,alpha zero也是如此,它一秒只搜索几万个局面,但效果却好于象棋将棋程序的一秒数千万个局面。


alpha zero重新发现了国象里各种典型开局,并且在每一种开局里都击败了stockfish,不过看了看详细的开局分类数据,在有些局面下,stockfish执黑的效果稍好些(也不是很明显),执白则一致是alpha zero明显好。如果认为stockfish的算法里包含了人类的象棋知识精华的话,似乎人类对西西里防御的掌握稍微好些,stockfish执黑赢了7盘。


alpha zero没有采用任何开局库和残局库,而stockfish似乎用了(文章里提到stockfish的技术包括开残库)。


alpha zero和alphago zero的算法架构也有不同。alphago zero是利用了围棋的对称性,所以把任何一个棋谱都给对称为8个了。而alpha zero并没有这么做,因为它是通用算法,而其它棋类并不一定对称。所以alpha zero对于棋盘上不同的点就认为是不同,即使它们是对称的,当然可能实际上数据会无限接近了。另外我记得alphago zero在下棋时不进行蒙特卡洛搜索,但这次的alpha zero在下棋时是用蒙特卡洛的。训练过程稍有不同的是,alphago zero是阶段性搞循环赛,如果产生新王(对老王胜率超55%)则用新王代替老王,而alpha zero则是随时替换,更为连续,不搞阶段性循环赛。


对了,还有个区别,alpha zero的训练程序里内置了噪声参数,用于加进一些随机性,这样可以保证训练的广度,不会局限于某些开局。不光是围棋,象棋也是如此。


回复
1楼2017-12-07 11:12
    蒙特卡洛一直都有吧, 相对于v13,v18, 去掉的是rollout, 只使用神经网络的价值判断


    收起回复
    2楼2017-12-07 11:27
      难道 AlphaGo Zero 没有用蒙特卡洛树搜索?


      收起回复
      来自iPhone客户端3楼2017-12-07 11:33
        西西里防御胜率很低,应该抛弃。


        收起回复
        来自iPhone客户端4楼2017-12-07 11:34
          AlphaZero 随时更新网络会不会导致由于一直和柯洁@世界第2人 @柯填子 这样的菜鸡下棋导致棋走得越来越差呢?


          回复
          来自iPhone客户端5楼2017-12-07 11:37
            哦,我把chess 执黑执白搞错了,应该是确实在所有局面下,alpha zero无论执黑执白都强于stockfish,但stockfish确实在西西里防御开局里表现最好,zero输给stockfish基本都是在这一开局下。


            收起回复
            6楼2017-12-07 11:38
              所以,AlphaZero 实际上只训练了 2100万/8=262.5万局,远远小于490万局的 AlphaGo Zero 20block 3天。


              收起回复
              来自iPhone客户端7楼2017-12-07 11:41
                stockfish执黑赢了7盘?


                收起回复
                8楼2017-12-07 12:43
                  alphago主要是赋予了电脑主观判断的直觉能力


                  回复
                  来自Android客户端9楼2017-12-07 13:02
                    好文 有参考意义。


                    回复
                    10楼2017-12-07 13:25
                      好文,好想学,不知有什么捷径没有,


                      回复
                      来自手机贴吧11楼2017-12-07 13:39
                        谢谢楼主总结


                        收起回复
                        12楼2017-12-07 13:42
                          谢谢楼主


                          回复
                          13楼2017-12-07 15:48
                            双方的硬件水平一样吗?


                            收起回复
                            14楼2017-12-07 17:21
                              不错的心得


                              回复
                              来自Android客户端15楼2017-12-08 03:36
                                stockfish 8 没有使用开局书


                                收起回复
                                16楼2017-12-08 14:37
                                  80K vs 7万K,更恶心的是,80K全胜。而且盘面的下法,就像去年αGo的走法一样,充满了灵动,会下的人都说优美……
                                  对国际象棋界(软件)的冲击,就像αGo去年对我们人类的冲击一样。


                                  回复
                                  17楼2017-12-08 16:37
                                    鳕鱼没赢过吧,最好是平局


                                    回复
                                    18楼2017-12-08 16:38
                                      做实验的那些,不能计入正式成绩。
                                      同时因为训练时间有限,deepmind没投入优化时间去针对某些局面,进行特别训练,只是说几个局面下,通用训练的结果不是很好。
                                      如果正式比赛,AI自然不会用那些开局的


                                      收起回复
                                      19楼2017-12-08 16:47
                                        因为这些开局并非你能必然导引到达的,所以这种局部劣势,无法被真正利用。更何况是否真的劣势,还没有板上钉钉


                                        回复
                                        20楼2017-12-08 16:48
                                          卡斯帕罗夫看了棋谱说这才是类人智慧,而深蓝只是暴力搜索。内尔森认为是外星棋谱,他现在终于知道外星人怎么下象棋了。 , 对象棋的冲击不亚于围棋


                                          收起回复
                                          21楼2017-12-08 18:06
                                            deepmind老板现在正在伦敦参加国象大赛呢,贴俩图片



                                            回复
                                            22楼2017-12-08 20:37
                                              毕竟神+蒙,涉猎攻心


                                              回复
                                              来自iPhone客户端23楼2017-12-08 20:42
                                                这真是一家神级公司!简直不敢想象五年后他们会做出什么样的事情来。我猜测一定会惊天动地!


                                                收起回复
                                                来自Android客户端24楼2017-12-08 22:15
                                                  他们进步的速度怎么这么快呀!他们公司一定会青史留名。一年多以前,我就很看好这家神奇的公司。不过现在他们做到的比我原来想象的还要好。


                                                  回复
                                                  来自Android客户端25楼2017-12-08 22:17
                                                    这家公司的人工智能一定会向通用的方向发展。那么几年之后会不会碾压其他所有的人工智能公司?也包括中国的。也就是一家独大,赢者通吃。搞得其他公司都没有存在的必要了。


                                                    收起回复
                                                    来自Android客户端26楼2017-12-08 22:22
                                                      如果真的厉害,就应该放弃蒙特卡洛树搜索,使用一般的树搜索。


                                                      回复
                                                      来自iPhone客户端27楼2017-12-11 08:55
                                                        我感觉,Deepmind公司就是要证明,我用深度学习出来的AI,远远超过了你暴力搜索的那些AI。


                                                        我只搜索8万个局面,就比你搜索7000万个强得多,充分说明你的搜索,99.99%是浪费。其实人来搜索的更少,也许只有80个局面,但是也已经能达到差不多的结果(当然是差一些的)。



                                                        一个虽然没有人来棋谱的干预,但是结果还是给人极为优美的感觉。这就是科技进步的威力,就像热兵器对冷兵器时代的完全碾压一样。


                                                        回复
                                                        28楼2017-12-11 09:00
                                                          楼主 最重点的是 神经网络是如何训练的呢?错误函数是什么呢?神经网络input 和 output又是什么呢?这些才是重点啊


                                                          回复
                                                          来自iPhone客户端29楼2018-11-06 15:16