汉字编码研究的一些史实(TR)

汉字编码研究的一些史实

汉字编码研究的一些史实
(摘自《汉字键盘输入技术与理论基础》陈一凡 胡宣华 著 1994.6 清华大学出版社)

1978年7月9日上海《文匯報》在第一版以標題“汉字进入计算机”长篇文章,详细报道了支秉彝先生完成“见字识码”的小键盘输入汉字的设计方案和编码码本,掀起了编码潮的序幕,越来越多的人(不论是专家还是普通的中国人)卷入到陈力为先生所形容的“史无前例的规模巨大的群众性科研活动”中。

1978年12月,张其浚、支秉彝等汉字编码先行者在青岛召开了我国的首次“汉字编码研究会”。会后,科技文献出版社出版了《汉字编码方案汇编》,这是第一本关于编码方案的专著。1979年夏,陈明远主持了第一个中文信息处理研讨班,进行了为时两个月的信息处理用汉字的基础理论和编码方案研究。张普等研究成果连续发辫在《语文现代化》杂志上,这是第一批研究汉字编码信息的论文。1981年以钱伟长为理事长的中国中文信息学会成立。中文信息学回及其所属的汉字编码专业委员会、《中文信息学报》、《中文信息》等杂志成为组织交流汉字编码的理论的场所和媒介。1981年至今(注:1993年)中文信息学会、汉字编码委员会召开国际性、全国性学术会议近十次。在上述学术会议和全国性杂志、报刊发表的国内外论文和公布编码方案约在500-600份以上,以上机运行的也超过百种(见表1-4)。

ZT: 上面的贴文只是想说明:

(1) 把中国带入信息社会不可能是某一个人,而要靠一代人的科学家共同的努力。老一代的科学家具有当代人所缺少的献身精神,王竹溪、支秉彝,以及贴文未提到的郑易里等无数的老科学家的功绩是不应该被抹杀的。
(2) 中国大陆的电脑汉字输入研究和海外相比起步较晚,但是自从“1978年7月9日上海《文匯報》在第一版以標題“漢字進入計算機”長篇文章,詳細報道了支秉彝先生完成“見字識碼”的小鍵盤輸入漢字的設計方案和編碼碼本,掀起了編碼潮的序幕,越來越多的人(不論是專家還是普通的中國人)卷入到陳力為先生所形容的“史無前例的規模巨大的群眾性科研活動”中。”汉字编码是简单实用技术,由于汉字本身的字形的复杂性,各种汉字编码的性能大同小异,没有本质的差别。但有一点是可以肯定的:目前国内取得商业成功或不幸失败的所有的编码都是在那个时候或后来加入到淘金者行列中的普通成员。
(3) 中国大陆的汉字编码潮从一开始就是以汉字字形拆分为主要研究对象的大规模的形码的“发明”研究,从来也不存在要把汉字拼音化来适应西文的计算机的主流错误思潮,因此也没有某个编码力排众议首先完成汉字字形研究的神话。

无论一个编码有多么的先进,无论一个人有多大的天才,无论一家公司创造了多么惊人的商业奇迹,历史是不能编造的。

汉字编码的中期

在笔画编码方案中,汉字基本笔画的划分种类很多,有4、5、6、8、10以至21、24、33种笔画的。在字根码方案中,不同的字根数有100、200以至400~500个的,而且拆分方法也难掌握。1958年我国推行了《汉语拼音方案》,每个字有规定的读音,这对编码十分有利。

周有光教授著的《电报拼音化》于1965年出版,其汉字拼音电码的构成为:一、拼音部分,与《新华字典》拼音相同;二、标调字母(加在音节后);阴平F、阳平X、上声V、去声H;三、定字字母:即将汉字部首分成20组,每组用1个字母代替,如:“力立老耒卤里鹿龙”为一组,由L代替,如“站”的拼音电码为ZHANHL(ZHAN—拼音;H—去声;L—“立”的定字字母)。定字字母多数是1个,少数是2个。这是全拼音方式的编码,有很好的可读性,在一万字内没有重码。

有一种全拼编码,只有声母和韵母两部分,而没有声调字母和定字字母,同码字多,需要显示选择输入,又把声母、韵母加以压缩,如现在通用的双拼码的压缩方案为:A-zh、B-ia/ua、C-uan、D-ao、F-an、G-ang、H-iang/uang、I-sh、J-ian、K-iao、L-in、M-ie、N-iu、O-uo、P-ou、Q-er、R-en、S-ai、T-eng、U-ch、V-zh/ü、W-ei、X-uai、Y-ong/iong、Z-un、;-ing。实例如:请Q;、您NL、欣XL、赏IG。这种编码将平均2.97字母,最多6字母的汉字音码全部统一为2字母,即双声母、复合韵母全用1个字母代替。因为汉语拼音的声母和韵母具有理想的数学结构,双拼替代后整齐划一,字母少输速快,受到了广泛的重视,目前装机使用面相当广。国内最早倡导此类双拼方案的是黎锦熙、唐艺等人,扶良文、郭淑珍、李金铠等设计的拼音码都是声韵双拼,曾经一鸣惊人的自然码也采用了类似的双拼方案。

汉语有400 多个音节,按6763个汉字计算,每个音节约有27个同音字;分出声调后有1200多个音节,每个音节约有6 个同音字,双拼方案的关键在于如何确定第三第四字母,以便妥善分化同音字,减少重码。郭淑珍等人较早设计的声韵部形码,将189个部首分为23类,每类对应1字母,同时将部首按意义分为五大类:自然、生物、生理、生活、余类。第三字母按部首定;第四字母按部首意类(五大类)和起笔交叉表确定。交叉表内,起笔分横竖撇点折,横排5行;部首意类竖排5列,表内有25个字母。实例如:怕PAXM(M是白的第一画与生理类交叉点的对应字母)。规则比较麻烦,以后改进为“声韵声声”,怕PAXB,X、B分别是竖心和白的读音字母。这已是典型的音形编码了。

汉字编码的盛期

由于科学大会的召开,改革开放的推行,微机技术的发展与普及,专利法的实施,汉字编码在80年代进入了盛期,新方案不断涌现,总数达700 多个。其中,优秀方案的综合指标比早期有很大提高,并投入实用。1986年3月,国家有关部门举办了全国汉字编码方案评测,有33个方案参评,评出11个A类方案,它们是:大众码、五十字元码、声数码、宏观字形码、层次四角码、前三末一码、部形编码、笔形编码、联合45-3码、CK码、JDL无间隔码。11个A类方案的平均输速为43.16字/分,这些方案主要是单字方式输入。1987年10月,中国中文信息学会等组织的“中华杯”汉字录入赛,操作员在规定字比赛中最高输速达70字/分,而在自选字比赛中均达100 字/分以上;1990年,在海峡两岸中文电脑表演赛上,专业操作员单字输入达147.8字/分,词语输入达203.3字/分。从这两次比赛上可以看出两大趋势:⑴第一次是形码夺魁,以后是音码领先;⑵词语输入成为主导方式。

词语输入是编码进入盛期的重要标志。对于二字词,形码方式取每字的一、二字根代码,音码方式取每字的声、韵代码;对于三字词,形码方式取一、二字的第一字根代码和第三字的一、二字根代码,音码方式取一、二字的读音首字母和第三字的声、韵代码;对于四字以上词,形码方式取一、二、三、末字的第一字根代码,音码方式取一、二、三、末字的读音首字母。词语输入使击键次数大大减少,输速上升许多。词语输入,对形码来说,仍然要掌握字根总表和全部拆分规则;对音码来说,只要掌握汉字的声韵即可,并能靠视读后的语音记忆成句输入,这大概是音码快过形码的原因。

在词语输入方式下,2字至20字或更多字,一般用4字母即可输入,如“国务院办公厅”GWYT(一二三末),这样,8字一句,平均每字0.5键次;16字一句,平均每字0.25键次。有人拉长句子编码选特定文章表演,说每分钟能输入500 字,这是可以做到的,但只能是特定文章,对于一般文章就不行。我们也不能根据这种特殊表演断定编码的好坏。

这一时期普遍采用标准键盘输入,多数用26字母键输入。此外,在程序设计上,还出现了高频先见、词语联想等功能,对于初学者来说,增加了易学性,对于熟练的操作员来说,这些功能则没有什么用处。

这一时期的汉字编码输入技术的长足进步,已在电脑打字、激光排版等领域大显身手。印刷业已经完全可以取代传统的铅字印刷,并且具有更好的质量、更高的效率、更舒适和更小型的工作环境。人们兴奋地赞扬说,印刷业开始告别铅与火而进入光与电的时代了。

从汉字编码研究的一些史实中,可以找出一些汉字编码发展的轨迹,其中有不少经验和教训。

1、音码的发展沿着拼音这条主线,万变不离其宗,而全拼和智能ABC已包含了所有音码的优势与缺点,所以音码再继续发展已经毫无意义了。

2、音形码、形音码,虽然有音码和形码的优势,但是音码和形码的缺点暴露无遗,所以继续发展要克服音码和形码的共同缺点,可以说希望非常渺茫。

3、数码(序码),即利用小键盘,因为键位少,所以只能增加击键数和重码率来弥补缺陷,得不偿失。

4、形码,其优势其它码无法取代。能克服其缺点,会有很好的发展前景。

能否找到键盘符号与汉字形状一一对应的方案,又不需要记忆字根,把汉字的形状与键盘符号的形状对应起来,将是输入法史上的一个里程碑。