技术分析:《86版和98版五笔的重码率和平均码长的比较》
作者:ghjj
发表:五笔爱好者论坛-『五笔软件与输入技巧』-86版和98版五笔的重码率和平均码长的比较
http://wbfans.w11.51web.cn/bbs/dispbbs.asp?BoardID=3&ID=9886
下表是86版五笔和98版五笔的重码率和静态平均码长的比较,也可以作为和其他输入法作比较的依据。
说明:本码表取自2000和XP的标准86和标准98版
GB6763指:GB2312的统计结果,
GB3755指:GB2312一级字的统计结果,
频+数字指:根据本人自制的字频的前“数字”个汉字的统计结果。
本表只给出重码的字数,重码字数指没排在第一的汉字,也就是说必需选择的汉字数,
从左至右6列说明如下:(有可能显示时数字和项目在位置上不能一一对应,
简码重码 指只要此字有简码,就以其最短的简码作为编码进行统计的重码数,
全码重码 指按字的全码统计的重码数,
简码 指按最短简码统计的平均码长,
算空格 指按最短简码统计的平均码长,但把码长小于4的简码+1作为码长统计,因为空格键也算一键。
至于为什么空格键也算一键见相关文章,
全码 指按全码统计的平均码长,
全码空格 指按全码统计的平均码长,但把码长小于4的简码+1作为码长统计。
86 简码重码 全码重码 简码 算空格 全码 全码空格
GB6763 122 261 3.251 3.906 3.876 3.999
GB3755 26 72 3.068 3.833 3.834 3.998
频200 0 2 2.330 3.245 3.570 3.970
频500 1 4 2.552 3.450 3.628 3.988
频1000 1 12 2.714 3.587 3.708 3.994
频2000 6 33 2.925 3.738 3.771 3.997
频3000 15 57 3.022 3.801 3.812 3.998
频4000 35 93 3.103 3.845 3.839 3.999
98 简码重码 全码重码 简码 算空格 全码 全码空格
GB6763 76 176 3.238 3.902 3.834 4.000
GB3755 16 24 3.055 3.829 3.771 4.000
频200 0 0 2.270 3.225 3.380 4.000
频500 1 1 2.524 3.438 3.488 4.000
频1000 2 4 2.697 3.581 3.577 4.000
频2000 5 8 2.903 3.727 3.680 4.000
频3000 10 15 3.002 3.794 3.739 4.000
频4000 16 36 3.082 3.840 3.780 4.000
从中可以看出,98版在各项指标上几乎都优于86版,尤其是在重码率上所作的努力,减少100来个重码并不容易。但指标的差别并不太大,也就是说没有实质的改变,只是进行了优化和完善。
下表是86版和98版对键盘键位的利用情况(即所有全码编码中所含的键位的个数):
键位 86版 98版
a 1027 979
b 654 653
c 711 681
d 1230 1152
e 836 902
f 1640 1561
g 1919 2089
h 1336 1304
i 1053 965
j 1117 1073
k 1274 1288
l 593 582
m 831 688
n 1498 1346
o 413 513
p 663 645
q 1279 1139
r 718 800
s 676 780
t 1439 1457
u 1183 1221
v 620 567
w 1186 1268
x 560 575
y 1757 1728
从中可以看出,五笔的键盘利用并不是很好,因为从码长和重码率的角度看,键盘的键位利用越平均越好;
但五笔的键位利用率差别很明显。要是从指法上考虑,其安排也不尽合理,比如A Q W的利用率多了点。有兴趣的可以自己对照键位作一比较。
综合而言,不考虑易学性,单考虑速度,即重码率和平均码长,五笔的确作的较好,尤其是重码率很低。
但绝不是最优方案,其平均码长还可以进一步降低,这是从对键位的利用率上看出的,其键位的利用率最高的和最低的相差有4倍,从概率上讲这不利于降低码长和重码率。当然有人可以说这是为了考虑易学性,但五笔的字根规律性本身就较差,完全可以根据键位的利用率改一下,反正也不好记了,也许改一下更好记了呢,这就看编码人的水平了。
我不知五笔编码时用没用计算机进行统计,如果没用计算机,能得出这样的结果就更显难能可贵。
因为计算机几分钟就可以统计的东西手工统计也许就要用几天甚至几周。但这个结果如果利用计算机统计优化,还会在平均码长上有所降低的。
本表也可以作为其他输入法编码方案的参考目标,如果不能全面超过五笔,就不要瞎搞了。不过要在性能上相差无几的话,可以在易学性上下工夫。
再加上86版的重码字(按字频降序排列),此重码是按我自己的字频得出的,也许和实际的重码有一两个差别,但此重码字的编码肯定有两个以上的汉字和其对应,也就是说下面的重码字也许会有一两个排在第一位。
作者:ghjj
发表:五笔爱好者论坛-『五笔软件与输入技巧』-86版和98版五笔的重码率和平均码长的比较
http://wbfans.w11.51web.cn/bbs/dispbbs.asp?BoardID=3&ID=9886
下表是86版五笔和98版五笔的重码率和静态平均码长的比较,也可以作为和其他输入法作比较的依据。
说明:本码表取自2000和XP的标准86和标准98版
GB6763指:GB2312的统计结果,
GB3755指:GB2312一级字的统计结果,
频+数字指:根据本人自制的字频的前“数字”个汉字的统计结果。
本表只给出重码的字数,重码字数指没排在第一的汉字,也就是说必需选择的汉字数,
从左至右6列说明如下:(有可能显示时数字和项目在位置上不能一一对应,
简码重码 指只要此字有简码,就以其最短的简码作为编码进行统计的重码数,
全码重码 指按字的全码统计的重码数,
简码 指按最短简码统计的平均码长,
算空格 指按最短简码统计的平均码长,但把码长小于4的简码+1作为码长统计,因为空格键也算一键。
至于为什么空格键也算一键见相关文章,
全码 指按全码统计的平均码长,
全码空格 指按全码统计的平均码长,但把码长小于4的简码+1作为码长统计。
86 简码重码 全码重码 简码 算空格 全码 全码空格
GB6763 122 261 3.251 3.906 3.876 3.999
GB3755 26 72 3.068 3.833 3.834 3.998
频200 0 2 2.330 3.245 3.570 3.970
频500 1 4 2.552 3.450 3.628 3.988
频1000 1 12 2.714 3.587 3.708 3.994
频2000 6 33 2.925 3.738 3.771 3.997
频3000 15 57 3.022 3.801 3.812 3.998
频4000 35 93 3.103 3.845 3.839 3.999
98 简码重码 全码重码 简码 算空格 全码 全码空格
GB6763 76 176 3.238 3.902 3.834 4.000
GB3755 16 24 3.055 3.829 3.771 4.000
频200 0 0 2.270 3.225 3.380 4.000
频500 1 1 2.524 3.438 3.488 4.000
频1000 2 4 2.697 3.581 3.577 4.000
频2000 5 8 2.903 3.727 3.680 4.000
频3000 10 15 3.002 3.794 3.739 4.000
频4000 16 36 3.082 3.840 3.780 4.000
从中可以看出,98版在各项指标上几乎都优于86版,尤其是在重码率上所作的努力,减少100来个重码并不容易。但指标的差别并不太大,也就是说没有实质的改变,只是进行了优化和完善。
下表是86版和98版对键盘键位的利用情况(即所有全码编码中所含的键位的个数):
键位 86版 98版
a 1027 979
b 654 653
c 711 681
d 1230 1152
e 836 902
f 1640 1561
g 1919 2089
h 1336 1304
i 1053 965
j 1117 1073
k 1274 1288
l 593 582
m 831 688
n 1498 1346
o 413 513
p 663 645
q 1279 1139
r 718 800
s 676 780
t 1439 1457
u 1183 1221
v 620 567
w 1186 1268
x 560 575
y 1757 1728
从中可以看出,五笔的键盘利用并不是很好,因为从码长和重码率的角度看,键盘的键位利用越平均越好;
但五笔的键位利用率差别很明显。要是从指法上考虑,其安排也不尽合理,比如A Q W的利用率多了点。有兴趣的可以自己对照键位作一比较。
综合而言,不考虑易学性,单考虑速度,即重码率和平均码长,五笔的确作的较好,尤其是重码率很低。
但绝不是最优方案,其平均码长还可以进一步降低,这是从对键位的利用率上看出的,其键位的利用率最高的和最低的相差有4倍,从概率上讲这不利于降低码长和重码率。当然有人可以说这是为了考虑易学性,但五笔的字根规律性本身就较差,完全可以根据键位的利用率改一下,反正也不好记了,也许改一下更好记了呢,这就看编码人的水平了。
我不知五笔编码时用没用计算机进行统计,如果没用计算机,能得出这样的结果就更显难能可贵。
因为计算机几分钟就可以统计的东西手工统计也许就要用几天甚至几周。但这个结果如果利用计算机统计优化,还会在平均码长上有所降低的。
本表也可以作为其他输入法编码方案的参考目标,如果不能全面超过五笔,就不要瞎搞了。不过要在性能上相差无几的话,可以在易学性上下工夫。
再加上86版的重码字(按字频降序排列),此重码是按我自己的字频得出的,也许和实际的重码有一两个差别,但此重码字的编码肯定有两个以上的汉字和其对应,也就是说下面的重码字也许会有一两个排在第一位。