妹被抓进去,憋担心,害活着
~
别问什么RPL,MTL,ARL,最近忙的要死没空找舅舅吃饭问消息。
问就是不知道
。
Ps:最近其实是在忙几件事,一方面是年底了要赶点进度。
另一方面是其实我在做自己的一套标准相关CPU单线程性能天梯,主要会以SPEC2017为基准,目前已经测试了包括Golden Cove,Zen 3, Cypress Cove,Willow Cove(Gear 2 mode),Zen2,Gracemont在内的一系列微架构。
一月底的时候会继续将Skylake以及Willow Cove Gear1 mode一起测完,届时会根据微架构测试的情况,以及不同CPU的标称睿频情况,去构建一个单线程int/FP性能的一个天梯。
附已经测试完成的微架构数据:

PS,其实FP部分的521,527两个子项也已经解决了编译上的问题,不过因为前期测试的时候没有引入这两个子项,后续数据也将不再包含。
所有的测试均在3200CL22-22下进入,定频在3.6Ghz,Windows10/11-WSL2+GCC10.3.0
编译flag:-O3 match=native
虽然匹配不同的match跟编译器版能够得到在不同处理器下更好的成绩,但实际上程序别说是正常应用哪怕是benchmark也不会因为不同微架构而专门编译不同的binary,因此为了更符合开箱即用的情况,我们选择的是O3作为编译flag,match=native。
上述成绩均为跑了多组后选择的最好组别成绩,后台为仅有windows安全中心,其他非驱动/系统后台全部清理干净(最难跑的一组uarch跑了八组之多,把人都跑吐了)。
int部分与Anandtech的Server的GCC部分测评做过对照,Zen3的IPC成绩几乎完全一致,分别为5.91/3.5Ghz(Anandtech),6.02/3.6Ghz(Raichu),至于浮点部分,穷鬼双通道是不配与八通道相比较的,在这里我们还是有一定程度上的自觉的XD。
------------------------------------------------------------------分割线--------------------------------------------------------------
另外与其他人成绩例如Chen大,会有一些不同的地方,这里主要体验在几个项目上,我也会一一解释缘由。
1.523.xalancbmk_r,这个子项非常吃内存调度,我之前跟Andrei聊过关于M1 A14 A15的分数问题,其中有一个很大的变化就是因为系统升级后,malloc调度有一定的调整变化所致。
Chen使用了第三方的jemalloc会导致523,521(浮点,不包含在本测试内)有非常大幅度的提升(40-60%),但不同微架构提升幅度是不同的,所以会引发不同测试数据显著不同的问题。
2.match选项,GCC在不同版本中有不同uarch的特定flag,这样会在不同微架构上对成绩有一定的提升,同理后续的GCC12会引入alder lake的flag,也会进一步提升对应性能,但是很遗憾,我们依旧不会使用。
3.-O3与-Ofast的区别,虽然很多同学信誓旦旦的说-Ofast跟-O3几乎是一致的,几乎没有成绩上的区别,仅仅只是gfortran上有几个优化flag的区别而已。
但在我们实测对比测试的过程中,我们发现有两个子项跟-O3/-Ofast的选择是密切相关的。
第一个子项是557.xz_R,由于编译器对应新架构支持的问题,-Ofast下的557成绩大约比-O3下低10%。

另一个子项是544.nab_r,在这个子项中,-Ofast则比O3要快大约10%,实际在O3下你会发现GLC甚至打不过CPC跟LWC。
以上就是我们对应测试中与其他测试组别产生的一些数据的差异,仅供参考。
------------------------------------------------------------------分割线--------------------------------------------------------------
后续,我们还会完成表格中Skylake部分以及Gear1下Willow Cove的测试,至此我们会根据测试IPC结果以及对应产品睿频去标定的不同CPU的整数与浮点性能情况,并尽可能的制成对应的天梯图。
如果有可能可以借到相应测试平台的话,我们还会测试CZN,RMB,以及Renoir 的情况。
最后,初版的天梯不咕的话,大概会在二月初完成,最迟我想应该也不会超过二月底才对。

别问什么RPL,MTL,ARL,最近忙的要死没空找舅舅吃饭问消息。
问就是不知道

Ps:最近其实是在忙几件事,一方面是年底了要赶点进度。
另一方面是其实我在做自己的一套标准相关CPU单线程性能天梯,主要会以SPEC2017为基准,目前已经测试了包括Golden Cove,Zen 3, Cypress Cove,Willow Cove(Gear 2 mode),Zen2,Gracemont在内的一系列微架构。
一月底的时候会继续将Skylake以及Willow Cove Gear1 mode一起测完,届时会根据微架构测试的情况,以及不同CPU的标称睿频情况,去构建一个单线程int/FP性能的一个天梯。
附已经测试完成的微架构数据:

PS,其实FP部分的521,527两个子项也已经解决了编译上的问题,不过因为前期测试的时候没有引入这两个子项,后续数据也将不再包含。
所有的测试均在3200CL22-22下进入,定频在3.6Ghz,Windows10/11-WSL2+GCC10.3.0
编译flag:-O3 match=native
虽然匹配不同的match跟编译器版能够得到在不同处理器下更好的成绩,但实际上程序别说是正常应用哪怕是benchmark也不会因为不同微架构而专门编译不同的binary,因此为了更符合开箱即用的情况,我们选择的是O3作为编译flag,match=native。
上述成绩均为跑了多组后选择的最好组别成绩,后台为仅有windows安全中心,其他非驱动/系统后台全部清理干净(最难跑的一组uarch跑了八组之多,把人都跑吐了)。
int部分与Anandtech的Server的GCC部分测评做过对照,Zen3的IPC成绩几乎完全一致,分别为5.91/3.5Ghz(Anandtech),6.02/3.6Ghz(Raichu),至于浮点部分,穷鬼双通道是不配与八通道相比较的,在这里我们还是有一定程度上的自觉的XD。
------------------------------------------------------------------分割线--------------------------------------------------------------
另外与其他人成绩例如Chen大,会有一些不同的地方,这里主要体验在几个项目上,我也会一一解释缘由。
1.523.xalancbmk_r,这个子项非常吃内存调度,我之前跟Andrei聊过关于M1 A14 A15的分数问题,其中有一个很大的变化就是因为系统升级后,malloc调度有一定的调整变化所致。
Chen使用了第三方的jemalloc会导致523,521(浮点,不包含在本测试内)有非常大幅度的提升(40-60%),但不同微架构提升幅度是不同的,所以会引发不同测试数据显著不同的问题。
2.match选项,GCC在不同版本中有不同uarch的特定flag,这样会在不同微架构上对成绩有一定的提升,同理后续的GCC12会引入alder lake的flag,也会进一步提升对应性能,但是很遗憾,我们依旧不会使用。
3.-O3与-Ofast的区别,虽然很多同学信誓旦旦的说-Ofast跟-O3几乎是一致的,几乎没有成绩上的区别,仅仅只是gfortran上有几个优化flag的区别而已。
但在我们实测对比测试的过程中,我们发现有两个子项跟-O3/-Ofast的选择是密切相关的。
第一个子项是557.xz_R,由于编译器对应新架构支持的问题,-Ofast下的557成绩大约比-O3下低10%。

另一个子项是544.nab_r,在这个子项中,-Ofast则比O3要快大约10%,实际在O3下你会发现GLC甚至打不过CPC跟LWC。
以上就是我们对应测试中与其他测试组别产生的一些数据的差异,仅供参考。
------------------------------------------------------------------分割线--------------------------------------------------------------
后续,我们还会完成表格中Skylake部分以及Gear1下Willow Cove的测试,至此我们会根据测试IPC结果以及对应产品睿频去标定的不同CPU的整数与浮点性能情况,并尽可能的制成对应的天梯图。
如果有可能可以借到相应测试平台的话,我们还会测试CZN,RMB,以及Renoir 的情况。
最后,初版的天梯不咕的话,大概会在二月初完成,最迟我想应该也不会超过二月底才对。