聊聊小鹤的收字范围
最近总看到一些说小鹤收字少的问题,今天有时间就来聊聊这个问题。
我们知道拼音输入法是个重码罗列的输入法,即同音字会一直罗列下去,即使翻十几二十页,只要这个字有读音我都可收在同音字列表中。而在拼音输入法之外的一个主要的输入法编码方式全码四码方案:小鹤、五笔、郑码...等等都是此类方案,通常会通过选定字集的方式,确定收字范围,比如gb2312集6763字、gbk集21003字、gb18030-2000集27533字...选择各字集各有各的理由,通常你看到的四码方案都不会是收录全集的输入法,拼音倒有可能,但无拼音读音或没有进入unicode标准的字也是无法收录的。
小鹤在5.0版之前是采用的gb2312字集,5.0开始脱离字集的收字方式,而采用《通用规范汉字表》国发〔2013〕23号文规定用字,此表收字8105个,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字。二级字表收字3000个,使用度仅次于一级字。一、二级字表主要满足印刷、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。
表内字涉及cjk基本集至cjk-e,cjk基本集差不多就是gbk集,这是一个规范,从国务院发文那日开始,你的小孩取名就要受限于这个规范,超出这个规范表的名就上不了户口,而你取的名小鹤能打出,五笔却不一定能打出。有人说规范是一些专家拍脑袋想出来的,我只能说规范的方向是好的,但收字范围无论如何取舍都不可能得到所有人认同,既然已经通过国务院发文,他就是一种标准。对于规范字表内没收录的可能生活中较有机会用到的字,我们可以采用增补的方式来满足。
有的拼音用户刚接触四码方案,有人打了个字结果自己打不出,就觉得这方案不好了字少了,但其实四码方案的代表五笔字型,在具体到输入法形态时也会有收字范围,而且很可能是gbk集,我们来看看下面这个表:
unicode cjk-基本 : 20902 字+101=21003+〇=21004
unicode cjk-a :6582 字 =27586
unicode cjk-b :42711 字 =70297
unicode cjk-c :4149 字 =74446
unicode cjk-d :222 字 =74668
unicode cjk-e :5762 字 =80430
unicode cjk-f :7473 字 =87903
共计: 87903 字
常见的QQ五笔收字范围是:gbk≈cjk-基本
你可以看到gbk之外还有6万多字,而包含全集的四码方案输入法你基本接触不到,是不是统统都不好了呢?
我们再来看看下表:
《通用规范汉字表》8105字的字集分布情况
字集 字数
CJK基本集 7832
CJK-A 77
CJK-B 36
CJK-C 44
CJK-D 8
CJK-E 108
合计 8105
按照字集的收字方法,QQ五笔需要收完abcde集才能收录完整规范字表涵盖的字,即还需要增加约6万字,小鹤收录8000字就完成了规范,五笔要收8万字,而这多收的字基本没有用处。如果要收全集还需要收e集,以后还可能出fg...集
这里有三个新增属于cjk基本集的字:“鿍(土+降右半)”、“鿎(石达)”、“鿏(钅麦)”,你可以用你认为的大字库输入法打打看有没有。
最近总看到一些说小鹤收字少的问题,今天有时间就来聊聊这个问题。
我们知道拼音输入法是个重码罗列的输入法,即同音字会一直罗列下去,即使翻十几二十页,只要这个字有读音我都可收在同音字列表中。而在拼音输入法之外的一个主要的输入法编码方式全码四码方案:小鹤、五笔、郑码...等等都是此类方案,通常会通过选定字集的方式,确定收字范围,比如gb2312集6763字、gbk集21003字、gb18030-2000集27533字...选择各字集各有各的理由,通常你看到的四码方案都不会是收录全集的输入法,拼音倒有可能,但无拼音读音或没有进入unicode标准的字也是无法收录的。
小鹤在5.0版之前是采用的gb2312字集,5.0开始脱离字集的收字方式,而采用《通用规范汉字表》国发〔2013〕23号文规定用字,此表收字8105个,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字。二级字表收字3000个,使用度仅次于一级字。一、二级字表主要满足印刷、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。
表内字涉及cjk基本集至cjk-e,cjk基本集差不多就是gbk集,这是一个规范,从国务院发文那日开始,你的小孩取名就要受限于这个规范,超出这个规范表的名就上不了户口,而你取的名小鹤能打出,五笔却不一定能打出。有人说规范是一些专家拍脑袋想出来的,我只能说规范的方向是好的,但收字范围无论如何取舍都不可能得到所有人认同,既然已经通过国务院发文,他就是一种标准。对于规范字表内没收录的可能生活中较有机会用到的字,我们可以采用增补的方式来满足。
有的拼音用户刚接触四码方案,有人打了个字结果自己打不出,就觉得这方案不好了字少了,但其实四码方案的代表五笔字型,在具体到输入法形态时也会有收字范围,而且很可能是gbk集,我们来看看下面这个表:
unicode cjk-基本 : 20902 字+101=21003+〇=21004
unicode cjk-a :6582 字 =27586
unicode cjk-b :42711 字 =70297
unicode cjk-c :4149 字 =74446
unicode cjk-d :222 字 =74668
unicode cjk-e :5762 字 =80430
unicode cjk-f :7473 字 =87903
共计: 87903 字
常见的QQ五笔收字范围是:gbk≈cjk-基本
你可以看到gbk之外还有6万多字,而包含全集的四码方案输入法你基本接触不到,是不是统统都不好了呢?
我们再来看看下表:
《通用规范汉字表》8105字的字集分布情况
字集 字数
CJK基本集 7832
CJK-A 77
CJK-B 36
CJK-C 44
CJK-D 8
CJK-E 108
合计 8105
按照字集的收字方法,QQ五笔需要收完abcde集才能收录完整规范字表涵盖的字,即还需要增加约6万字,小鹤收录8000字就完成了规范,五笔要收8万字,而这多收的字基本没有用处。如果要收全集还需要收e集,以后还可能出fg...集
这里有三个新增属于cjk基本集的字:“鿍(土+降右半)”、“鿎(石达)”、“鿏(钅麦)”,你可以用你认为的大字库输入法打打看有没有。