象棋吧 关注:278,949贴子:6,176,829
  • 81回复贴,共1

象棋引擎慢棋等级分测试报告

只看楼主收藏回复

先说一下为什么我要做这个测试。
现在网上比较容易看到的象棋引擎排名天梯,采用规则是非平衡开局(等于一方开局故意亏)+超快棋规则,与正常对局环境相差甚远。
而且采用的是ordo计分方式,与传统体育(如国际象棋、围棋、象棋)采用的公式是完全不同的。
所以网上有些人说人类等级分2700、2800,然后这个软件3600那个软件3700,其实是不对的。
所以我就好奇如果采用更接近人类实战的环境,各象棋引擎的真实表现如何,等级分是否仍然像网上那样?
测试软件采用鲨鱼象棋的象棋联赛功能,禁开局库,用时采用的是3分钟+5秒。
以下引擎除皮卡鱼外,其余均来自某象棋软件群。所有引擎分先对战25轮共50场。

经测试,名手326仅支持6线程,南澳仅支持2线程,其余引擎支持12线程,名手其实还好,但南澳在这方面确实吃亏,但这也是引擎优化的一部分。
还有就是网上常以名手326(2850分)为基准,但我感觉旋风6.2的棋力讨论更广泛,可能更适合作为基准引擎。
至于旋风6.2是否有2600,欢迎讨论。
本次测试结果与主流象棋引擎天梯图对比后,可以发现:
1、代际优势明显体现:
即使是最早期的皮卡鱼220713版本,也领先传统引擎400分以上
南澳引擎虽然仅支持2线程,但仍领先12线程的旋风6.2近200分。
2、象棋引擎发展接近极限:
在慢棋环境下,引擎进步空间已明显缩小。
本身我参考象棋引擎天梯图,特意选取了4个预估测试分差会接近的皮卡鱼版本,结果前三个版本确实保持约100分的差距,但到了皮卡鱼250110对221226已经无法保持100分的领先优势。
最新版皮卡鱼250110对221226仅取得1胜49平的成绩,但他们在虐菜上是有明显差别的,59分的分差主要依靠对其他软件的表现。
我对整体测试结果还是满意的,最大遗憾是没有一个顶级的传统引擎软件(20年的旋风或者小虫)可以进行测试。


IP属地:广东1楼2025-03-28 13:55回复
    党晓阳最强不接受反驳


    IP属地:福建来自iPhone客户端2楼2025-03-28 18:42
    收起回复
      2025-08-31 04:47:45
      广告
      不感兴趣
      开通SVIP免广告
      均势局是明显的边际效应,相同配置相同设置下,随着引擎发展,均势局自对弈和棋率越来越高相同的高优局elo提升,放在均势局提升幅度越来越小


      IP属地:意大利来自Android客户端3楼2025-03-28 20:21
      收起回复
        1.对战25轮样本太小,可能等级分差不够精细,特别是等级分差在400以上的,多和一局,多胜一局,按elo的公式来算分差挺大的
        2.统一线程测好,还是用最大支持线程测好?
        3.基准到底如何确定?例如旋风6.2为什么不是2550或者2650?不是质疑,而是真不知道该怎么定基准


        IP属地:广东4楼2025-04-26 00:42
        收起回复
          这是我用鹏飞测的,开局用的是六大正规开局,主要是不想看统一中炮
          时间120s+1.2 线程和哈希1+1024,CPU是7600x
          名手取2850,则HCE=2972,newGG=2916,Hengin=2764,南澳1.6=2743,bc610k=2643
          PikafishHCE424 VS newGG
          153胜87负176和 = 416
          胜率57.932692%,等级分差55.59
          newGG VS Hengin20110918
          205胜40负155和 = 400
          胜率70.625%,等级分差152.392
          Hengin20110918 VS 南澳1.6
          161胜131负212和 = 504
          胜率52.976%,等级分差20.7052
          南澳1.6 VS bc610k
          223胜88负169和 = 480
          胜率64.0625%,等级分差为100.4224


          IP属地:广东5楼2025-04-26 00:44
          收起回复

            至于基准如何确定。
            初期的时候,我首先查看了当年关于象棋引擎实力的讨论。
            当年关于旋风6.2和小虫610K棋力的讨论还是有一些的,但关于名手326的实力如何,应该是没有经过什么讨论的,所以我认为旋风6.2和小虫610K作为基准,比名手326更合适。
            后来,在测试过程中,我也做了验证。
            旋风象棋官网,声称旋风三代=2700分=人类冠军,旋风六代=2970分,同时旋风四代“精湛的棋艺令职业棋手望而生畏,这标志着人类和电脑的对抗中电脑已处于绝对优势”。
            平均来看旋风四代可能在2790分,考虑到误差,夸大宣传,人类比当年实力进步等各种可能的因素,现在旋风四代=2774分,那么旋风6.2=2600分的基准,我大致是可以接受的。
            另一个是象棋巫师,象棋巫师官网声称,他们最强的引擎,比免费的象眼引擎要高400分以上(也就是这里的2534分以上),在高性能4核电脑上有望达到2600分的水平。考虑到当年高性能4核在当今不值一提,象眼单线程非常依赖单核性能强的CPU,这个结果我大致也能接受。
            所以我认为旋风6.2=2600分,比326=2850分更能让我接受,可能会稍微低了一点但不会很多,而且要考虑人类棋手在这10多年进步的可能性。


            IP属地:广东6楼2025-04-26 08:58
            收起回复
              我从来没装过软件,手机不会用来下棋,手机软件没有,用的华为的手机,因为手机上下棋,老是滑错。
              电脑只是6核的电脑不知下载有没有用。从来没用过,纯人下棋33年。感觉软件用来拆棋不错,要是去网上砍人没意义,如果与软件对局不看提示,提示好像起不到作用,上面可能只显示优势劣势多少分,感觉软件也没啥用,愿意和各软件对战,提高自己。背谱记谱效果差,因为高手会变招,没用相同的2盘棋呵呵。个人观点。


              IP属地:江苏7楼2025-04-27 01:06
              收起回复
                硬件配置也是限制棋力的因素之一吧


                IP属地:北京8楼2025-04-28 07:55
                回复
                  2025-08-31 04:41:45
                  广告
                  不感兴趣
                  开通SVIP免广告
                  最后一个疑问,10s+0.1s的快棋,该如何制定基准?我想了很久也找不着


                  IP属地:广东来自Android客户端9楼2025-04-29 06:24
                  收起回复

                    除了增加了一些软件和以610K为2700为基准,主要有改动。
                    1、剔除了500分以上软件相互间的对战成绩(因为500分以上软件对战,强方的理论胜率普遍低于实际胜率),所以我这里取了个平衡,何况人类棋手其实也几乎没试过相差超过500分对战的,强软特别是皮卡鱼他们的分数下降了不少。
                    2、对2300分以下的软件,因为理论胜率和实际胜率的偏差还是相对比较显著,我尝试参考国际象棋对胜率的研究,调整了一下elo公式,大幅提升了最后三个软件的分数(ufx实力是稳居以前神1的),小幅提升了象眼等引擎的分数。
                    象眼引擎有空再跟旧版天天精英验证一下就能更确认这个调整对不对了。


                    IP属地:广东11楼2025-05-26 11:09
                    收起回复
                      我先预估旧版精英是2230,和旧版大师是2820,和象眼打了100把左右,给所有引擎制定了一个初始分
                      然后所有引擎打几轮双循环赛,每局结束更新等级分
                      统一原始开局+1线程,60s+1s
                      目前3轮下来旋风62有2606分,虽然这只是引擎相对分数,但结合https://tieba.baidu.com/p/9737232008?pid=152141590739&cid=#152141590739
                      我的旋风62,配置上虽然我4线程性能比他好,但线程少于他,用时少于他,棋力是不如他的,所以2606我觉得还行
                      然后楼主的旋风62,12线程,用时还比我多2倍多,所以我感觉2614有点低估了


                      IP属地:广东13楼2025-06-15 22:19
                      收起回复