前面说了很多理论的东西,现在来说一些冷知识
现在比较新版本的katago并不是完全自我对弈出来的,因为作者发现加入人谱能加快训练,作者同时也给出了最后没有人谱掺杂的katago权重
我们平常说的visits/计算量指的是蒙特卡洛树搜索过程中playout的次数,也是神经网络运行的次数,具体来讲就是前面说的树搜索最开始的局面的visits上限,达到这个数就停止计算
katago的权重有很多版本,它们拥有不同的后缀,如当前最强的网络为kata1-b40c256-s11840935168-d2898845681,这里的b和c指的是神经网络的结构,其中b指的是残差块数量,根据我的理解,理论上b的数值变为两倍,神经网络一次运行时间变为两倍,c的数值变为两倍,神经网络一次运行时间变为四倍
并不是b的数量越大棋力越强,只是理论上的上限越高,具体要看网络训练到什么程度,比如现在已经有b60的网络了,但是ELO最高的还是b40的网络,甚至可以直接搞一个b100的网络,里面权重全是随机数,这样出来的网络大概率跟随机撒豆子差不多。