计算机中的汉字(一、二、三)(TR)

计算机中的汉字(一)

发表于 2003-2-21 06:26:36 |只看该作者 李鐸|倒序浏览

[table=98%]
[tr][td] 一、几个基本概念
1、bit 与 byte
bite 是二进制的即0和1,译作比特。
Byte是指八个bit,代表一个Ansi或Ascii 代码,即一个英文字母,译作字节。由于汉字使用了16位(比特)代码,所以称为双字节。
其换算关系很简单,一byte等于八bit。
2,ANSI码,ANSI是(American National Standard Institude)的简写。ANCII是American Standard Code for Information Interchange的简写。
ANSI是以标准的八位来显示一个字符的,可以代表256字。基本上包括了拉丁语系中所需要的全部字符。起初美国人认为7位(比特)就足够了,因为2的7次方等于128,而英文字母只有26个,大小写加一起52个,再加上十个数字,几个标点和数学运算符号,也够了。所以就制定了ANCII七位的代码系统,这七位的代码系统的128位与ANSI的256中的前128完全一致,加之现在的计算机系统都能自动分别,所以,这两个概念也就不太分别了。
二、GB 2312 汉字编码字符集
GB2312码是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集•基本集》,标准号为GB 2312—80(GB是“国标”二字的汉语拼音缩写),由国家标准总局发布,1981年5月1 日实施。习惯上称国标码、GB码,或区位码。它是一个简化字汉字的编码,通行于中国大陆地区。新加坡等地也使用这一编码。
GB 2312—80收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445个图形字符。其中汉字以外的图形字符682个,汉字6763个。由于6763比那GB 2312-80要好记得多,尤其是在GBK也流行的时代,人们总是习惯用6763来代指那通行(同时也让我们痛苦了)若干年的字符系统。
GB 2312-80规定,“对任意一个图形字符都采用两个字节(Byte)表示。每个字节均采用GB 1988-80及GB 2311-80中的七位编码表示。两个字节中前面的字节为第一字节,后面的字节为第二字节。”习惯上称第一字节为“高字节”(Upper),第二字节为“低字节”(low)。
GB 2312-80将代码分为94个区(Section),对应第一字节,每个区94个位(Position),对应第二字节。两个字节的值,分别为区号值和位号值各加32(20H)。我们通常所说的区位便由此而来。
GB 2312-80规定,01~09区(原规定为1~9区,为表示区位码方便起见,现改称01~09区)为符号、数字区,16~87区为汉字区。而10~15区、88~94区是有待于“进一步标准化”的“空白位置”区域。便第10区推荐与第3区的94个图形字符(即GB1988-80中的94个图形字符)相同,字形宽度为其宽度的一半。)
GB 2312-80把收录的汉字分成两级。第一级汉字是常用汉字,计3755个,置于16~55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字,计3008个,置于56~87区,按部首/笔区顺序排列。字音以普通话审音委员会发表的《普通话导读词三次审音总表初稿》(1963年出版)为准,字形以中华人民共和国文化部、中国文字改革委员会公布的《印刷通用汉字字形表》(1964年出版)为准。
例:汉字“啊”,第一字节为0110000,第二字节为0100001,即16区、01位,用16。
这些字的来源我不知道是根据什么,但就我处理文献的情况看,有些是对很常用的字,如用于人名的“璟”字,一是明代著名戏曲理论家“沈璟”,一是南唐中主(同时又是文学家)“李璟”,出现频率比较高,但却汉有收有6763之中,而象“芏”“塄”“蓥”等近千字几乎用不上的字却占据着极紧张的资源。
以后的GBK更有这种情况。
三、GB/T12345 汉字编码字符集
GB/T12345和GB2312一样,是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集辅助集》,标准号为GB/T12345-90,中华人民共和国国家技术监督局1990年6月13日发布,1990年12月1日实施。
GB/T12345-90是一个关于繁体汉字的编码标准。所谓“辅助集”,是与“基本集”(GB2312-80)相对应而言。即:GB/T12345是“与GB2312相对应的图形字符集。原则上,本字符集是将GB2312中的简化字用相应的繁体字替换而成。因此,这些替代的繁体字具有与被替代的简化字相同的编码;未曾简化的汉字以及非汉字图形字符,仍是GB2312中的汉字及图形字符,并具有与之相同编码。”
关于繁体字替换简化字的原则,GB/T12345注明:“本标准原则是按照《简化字总表》中所列繁体字与简化字的对应关系进行替换。”《简化字总表》由中国文字改革委员会1964年5月发表,后经国家语言文字工作委员会作个别修订,国务院1986年6月4日批准重新发表。
除了以上的根本差异外,GB/T12345与GB2312的区别还有以下几点:1,增补了个别图形字符,共收录7583个图形字符:汉字以外的图形字符716个,汉字6866个(其中一级汉字3755个,二级汉字3008个,增补汉字103个。)
a,“根据排版需要,增补了竖排标点符号29个,这些字符增补于6区57位至85位。”
b,“根据GB5007.1(《信息交换用汉字24×24点阵字模集》),增加了6个汉语拼音用图形字符,这些字符增补于8区27位至32位。”
c,“GB2312中,由于60年代汉字简化被精简的字有103个,这些被精简的字根据繁体字处理系统的需要增补于88~89区。”所谓精简,即废除某个繁体字,而用另一个字代替,如废除“雲”字,而以“云”字代替。由此形成一个简化字对应两个或两个以上繁体字的现象。
2,GB/T12345规定的在七位环境中指明图形字符集的转义序列不同,同时规定了在八位环境中的转义序列。
GB/T12345没有指明其字符集字形依据,便它使用的繁体汉字,与《简化字总表》中所使用的字形一致。其绝大多数汉字,使用了“新字形”。例如,“产”的繁体字,它使用了新字形“產”,而不自旧字形“產”。因此,一些旧字形与新字形的差异,被视为字形的差异(异体字),而不是繁体与简体的差异。如:收录“奂”“换”“唤”,而不用“奐”“換”“喚”,即因为“奐”是旧字形,而非繁体字。但是其中极个别字又使用了旧字形,如“为”“伪”的繁体字,使用了旧字形“爲”“僞”,而上用新字形“為”“偽”。关于新旧字形,可参见中国社会科学院语言研究所编纂的《现代汉语词典》(商务印书馆1978年第一版)、《新华字典》(商务印书馆1979年修订版)所附的《新旧字形对照表》,以及辞海编辑委员会编纂的《辞海》(上海辞书出版社1979年出版)所附的《新旧字形对照举例》。
关于被精简的汉字:
1,88~89区所列的103个汉字,GB/T12345称为“60年代汉字简化时被精简的字。”,这一表达不完全准确。例如:,“丰”与“豐”,汉字简化时精简了“豐”字,以“丰”字替代,而GB/T12345将被精简的“豐”字,作为“丰”的繁体,置于23~65,而将“丰”字置于88~19。类似的情况占其103字的三分之一左右。
2,所谓103个“被精简的汉字”,只是被精简的“繁体字”,而未包括被精简(废除)的“异体字”。例如,“昇”和“陞”,作为“升”的异体字,被停止使用,GB/T12345亦未收录。相关的法定文件为中华人民共和国文化部、中国文字改革委员会1955年6月发布的《第一批异体字整理表》,该表列出异体字810组,1865字,并规定废除异体字1055个。一些异体字,习惯上也被看作是简化字,所以,《简化字总表》特地从《第一批异体字整理表》中选出39个异体字,列为附录。
3,按照汉字简化原则,在容易引起歧义时不简化。例如“余”和“餘”,《简化字总表》对“餘”字的脚注说;“在余和餘意义可能混淆时,仍用餘,如文言句“餘年无多”。同时,有些汉字只简化其字义的某一个或几个义项,如徵,在象徵等义项上被简化为征,而在音乐调值的义项上(即宫商角徵羽的徵,读作zhi[止]),并不简化。因此在GB2312中,保留了个别繁体(或异体)字,也就是说,同时收录了一个字的简体和繁体(或异体),这包括“干乾、后後、伙夥、么麽、于於、余餘、折摺、征徵”等。作为与GB2312对应的繁体编码,GB/T12345在这些字上处理较混乱。例如:GB/T12345将“伙”置于27-79,“夥”置于66-23,与GB2312編碼相同,即,以“伙”對應“伙”,以“夥”對應“夥”。另一種情況是,GB/T12345將“後”置于26-83,对应GB2312的“后”,将“後”置于65-65,对应GB2312的“後”;将“徵”置于53-87,对应GB2312的“征”,将“征”置于65-71,对应GB2312的“徵”,显然不当。
注:
1,以上代码表,除06、08区增补符号用GIF图形编制外,其他均使用GBK代码编制,只有在你的电脑能完全正确GBK汉字时,才能保证看到的上表与GB/T12345标准印刷件(中国标准出版社1991年10月版)相同的字形。
2,尽管满足查看GBK汉字的条件,仍有两个汉字的显示,与GB/T12345标准印刷件有所差异。两个字的代码为47-22、80-89。第一字的印刷件字形,未列入有关简化字的法定文件,但习惯上被视为“隙”的繁体,而GBK编码未收录此字,无法显示,故以“隙”替代。第二字的印刷件字形,系对应简体“瘞”,按照《简化字总表》第二表《可作简化偏旁的简化字和简化偏旁》,“夾”简化为“夹”,所以,“瘗”对应的繁体字,应该是“瘗”,同时,印刷件上的此字不见于字书,因此它可能是排版时错误,故上表使用了“瘗”字。
3,01~15区的符号和空白位置,除增补者以外,与GB2312的符号、编码位置完全相同。[/td][/tr]
[/table]

发表于 2003-2-26 20:41:54 |只看该作者 耕者

RE:计算机中的汉字(一)[table=98%]
[tr][td]GB2312-1980是中文信息处理用字的“基本集”,而GB/T12345则是其“第一辅助集”,即基本集的繁体字集。此后还有第2、3、4、5辅助集,其中3、5是2、4的繁体。这些据说都是当年华北计算所等单位研制的。在DOS系统下,实际只运用过基本级和第一辅助集,如高版本的WPS和UCDOS等中文系统。当时还有一些号称“大字库”的中文系统,但是似乎并没有按照上述标准执行。以后PC机换成视窗操作系统了,字库也变成GBK,国家标准也先后变成GB 13000.1、GB18030-2000了。当年是计算机界的人在搞中文系统,所以才会有斑竹所说的那些问题。但是正是他们使得中文在失去了打字机时代后,没有失去计算机时代(用周有光先生的说法)![/td][/tr]
[/table]

发表于 2003-3-3 05:04:07 |只看该作者 huaren

RE:计算机中的汉字(一)[table=98%]
[tr][td]李先生能否介绍一下UNICODE的情况?
另外,我有个问题要问李先生.汉字在互联网上非要通过汉字的数字编码来实现吗?如果
可以通过将汉字和汉语拼音文字定形(不就是不到七千个吗),是否可以以拉丁字母在网
际传输,而在本机上再做一对一的互译,使其成为汉字显示.这应该更容易吧?它的好处
是:

1.在本机上使用一个翻译软件,将所有输入的汉字都一对一的翻译成某种使用26个拉丁
字母的汉语拼音文字;

2.将所有的汉字文字数据都以这种拼音文字的形式在存储媒介上储存,它的好处是利于检
索和字处理处理;

3.将所有的汉字文字数据都以被翻译后的字母拼音文字的形式在网间传递(只使用26个
字母),然后再在两端的本机上通过翻译软件或叫界面翻译回汉字做显示(或不用汉字直接
显示拼音).

它的道理就汉字没有必要一定在计算机的传输和处理上也是汉字编码的,完全可以是间接字母
编码的.

汉字(通过翻译软件转变成汉语拼音文字)-->内部字母汉语拼音文字(使用26个拉丁
字母)-->ASCII的内码(和英文使用同一个编码区间),这会是个很有社会使用价值
的改变(如果可以我可要和你分享专利了).汉字只做显示,而内部以汉语拼音文字的形式存
在.

它可以解决:1.汉字处理的问题,2.汉字的传输问题(这可是汉字机器处理的两个最大问
题)同时它还可以解决汉字的最头疼的问题,这就是:3.可以一劳永逸的解决汉字的键盘输
入的问题(因为它即使一个编码也是一个输入法),现在百分之7-80%的人是通过某种
拼音输入法输入汉字的.

它要解决的问题是:1.定形出一套可以一对一互译的实现汉字与汉语拼音文字的字转换文
字系统;2.编制一个软件来是现这个互换(有现成的,所以关键是第一步).

是否可行?

[/td][/tr]
[/table]

发表于 2003-3-3 08:29:29 |只看该作者 sbsm

RE:计算机中的汉字(一)[table=98%]
[tr][td] “它要解决的问题是:1.定形出一套可以一对一互译的实现汉字与汉语拼音文字的字转换文
字系统;2.……”
不可能,也没必要,因为拼音文字无法做到 GBK 字符集 21003 个单字无重码(只搞 GB 字符集的 6763 个单字就没意义了),也就无法“一对一”。但是形码输入法的外码和系统的内码一对一,却能做到(我的“不知谁的输入法”由目前的码长 5 改为码长 6,实现UNICODE集 27532 个单字无重码),接受外码指令后,检索内码,输出汉字,是唯一的一个与外码匹配的汉字。作为过渡,作为交换的是内码,内码本身也是不重码的。高三学生填写的信息卡交给计算机认读,外码是 4 位数的数码,即区位码本身的编号,但只能处理 6763 个单字。要处理 21003 个单字或 27532 个单字,也只能是数码,最佳的码长是 6 。如果字母码可行的话,任何一个字母码都比不上内码本身的编号(序号),因为字母码最少 25 个码元(如五笔型),而内码是 16 个码元(0 ~ 9,A ~ F)。
[ 本帖由 sbsm 于 2003-3-3 08:31 最后编辑 ][/td][/tr]
[/table]

发表于 2003-3-5 00:50:37 |只看该作者 huaren

RE:计算机中的汉字(一)[table=98%]
[tr][td][indent]sbsm 于 2003-3-3 08:29 写道:
“它要解决的问题是:1.定形出一套可以一对一互译的实现汉字与汉语拼音文字的字转换文
字系统;2.……”
不可能,也没必要,因为拼音文字无法做到 GBK 字符集 21003 个单字无重码(只搞 GB 字符集的 6763 …[/indent]

你是说使用26个字母无法对21000个汉字进行编码,而必须使用16位的数字编码? 我不懂你的
说法. 使用数位编码才有GBK的问题,才有UNICODE的问题, 而使用字母编码就可以直接使用
原来的ASCII的标准编码空间. 这样可以把问题变成外部编码转换,而内部处理仍然使用ASCII
码,对吗?[/td][/tr]
[/table]

发表于 2003-3-5 03:07:06 |只看该作者 李鐸

RE:计算机中的汉字(一)[table=98%]
[tr][td]機器語言本來就是二進制的,在二進制的高級層面上,可以使用八位、十六位、三十二位、甚至六十四位,但它最終是以二制由計算機處理的。所以,八位、十六位仍是二進制的八位、十六位。漢字僅是顯示的結果,計算機的處理已經將它做爲八位的ASC碼。拉丁字母亦是如此,所以就沒有必要做漢字的拉丁轉換。[/td][/tr]
[/table]

发表于 2003-3-6 02:35:51 |只看该作者 sbsm

RE:计算机中的汉字(一)[table=98%]
[tr][td] 问问在校的任何一位大学生,他在高三毕业前填的那张“信息卡”是什么样子的,上面有多少格子是用 2B 铅笔填涂的。真正让机器认读的并不多,但每个汉字的下面是横四纵十的一个小格子方阵。横四,是 4 位数编码,纵十,即由 0 到 9 。学生须从“考生手册”后面查到自己姓名中的某个字,找到编码,比如:7864 ,这个编码是 GB2312 的区位码,在小格子方阵中填出这个编码:第一列 7,第二列 8,第三列 6,第四列 4;姓名三个字,就要并排的三个格子方阵。因为 GB2312 单字有限,所以一些学生在这之前要改名字,以免无法填“信息卡”。

现在升级,用 GBK 作内码,那么每个汉字需要 4 X 16 的方阵,填的编码即内码编码。用 26 个字母为码元的输入法,方阵为 4 X 26 了。如果用数码,如我的“三笔数码”,因是6位数编码,格子为 6 X 10。当填的是一般输入法的编码时,机器认读后,转化为内码,储存或输出汉字,整个过程没有人工干预。如果输入法有重码,机器只好停下等待指令。我的“不知谁的码”是字母码,25 键,虽然重码率很低,但很难进一步修改到 27532 个单字无重码。所以,输入法要做到无重码,最理想的当是数码。

我说的可能与你说的不同一回事。我说的是机器读“卡”,你说的是机器执行你的键盘指令。输入拼音,传到异地后,输出的是汉字还是拼音?仍然输出拼音,讨论就没意义了。要的是汉字,对不?我现在用键盘输入以上文字,传到北京,你们看到的是汉字,路途上走的是二进制机器码。如果我输入的是拼音,传过去,机器认读拼音,显示成汉字,拼音码如果有重码,机器就要你们择字了。拼音码能做到无重码?
[ 本帖由 sbsm 于 2003-3-6 07:18 最后编辑 ][/td][/tr]
[/table]

RE:计算机中的汉字(一)[table=98%]
[tr][td] 机器认读 6 位数数码,在邮政编码方面已经做到了。如果数码与 GBK 或 UNICODE 的内码一对一地对应,机器也就在没有人工介入的情况下输出汉字。
机器当然也可以认读字母串,这字母串能做到定长?拼音的最大码长为 12,如果字母串 不到 12 个字母,就有空格,可以用程序告诉机器,碰到第一个空格,既可输出。即使这样,所有的字母串必须无重码。
“使用字母编码就可以直接使用原来的ASCII的标准编码空间”。如果我现在用“三笔数码”输入,你们在屏幕上见到的不是汉字,而是定长的 6 位数编码,说明是用ASC传输的。你们要见到汉字,你们的打印机要能输出汉字,你们的机子上要有认读转换的程序方可。
对于电脑,我实在知道得很少。开始接触电脑不久就为汉字编码,业余时间都花在这上面,没有去钻其它的电脑知识。我只是从“信息卡”上得到启示,但设计“三笔数码”时,并没有考虑“信息卡”的事,那时 Win XP 还没出来,只为 GBK 的 21003 个单字编码。在编完 UNICODE 扩充的那 6582 个单字后,我发现要是码长增加 1,可以做到 27532 个单字无重码,并猜想字数再增加,65000个,92000个,可能不重码。
[ 本帖由 sbsm 于 2003-3-6 07:53 最后编辑 ][/td][/tr]
[/table]

发表于 2007-1-14 00:01:21 |只看该作者 biohuang

借助古漢語的語音[table=98%]
[tr][td]借助古漢語的語音加上適當的字形信息可以定形出一套可以一对一互译的实现汉字与汉语拼音文字的字转换文字系统。
中古漢語的同音字很少,上古的擬音更是(可能還有擬音者力避同音的心理),雖然還有少部分字得借助字形的信息。[/td][/tr]
[/table]

计算机中的汉字(二)

发表于 2003-2-21 06:37:31 |只看该作者 李鐸 |倒序浏览

[table=98%]
[tr][td](ZT)
四、BIG-5字符集
BIG-5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。它并不是一个法定的编码方案,存在着一些瑕疵,业界的评价也不高,但它广泛地被应用于电脑业,尤其是在国际互联网中,从而成为一种事实上的行业标准。
关于BIG-5码的背景,一直未见详细记载,简单介绍如下:
1983年10月,台湾国家科学委员会、教育部汉字推行委员会、中央标准局、行政院主计处电子资料处理中心共同制定了《通用汉字标准交换码》(chinese Ideographic standard code for information interchange ,简称CISCII码),经试用修订,1986年8月4日由台湾中央标准局公布为法定标准,标准编号为CNS 11643。这一标准于1992年5月21日重新修订公布,更名为《中文标准交换码》(chinese standard interchange code).1995mm 1 月4日,台湾中央标准局又公布了CNS 11643-1《中文标准交换码使用方法》。
BIG-5码是1984年台湾信息工业促进会根据《通用汉字标准交换码》制订的编码方案。至于为何称为“BIG-5”。
BIG-5码是一个双字节编码方案,其第一字节的值在16进制的AO~FE之间,第二字节在40~7E和A1~FE之间。因此,其第一字节的最高位是1,第二字节的最高位则可能是1,也可能是0。
BIG-5码的图形符号及汉字,基本与CNS 11643标准的第一、第二字面(Plane)一致,它收录13461个符号和汉字,包括:
1,符号408个,编码位置为A140~A3FE(实际止于A3BF,末尾有空白位置。)
2,汉字13053个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部首排列。其中:
a,常用字5401个,编码位置为A440~C67E。包括台湾教育部颁布的《常用汉字标准字体表》中的全部汉字4808个,台湾国中国小教科书常用字587个,异体字6个。
B,次常用字7652个,编码位置为C940~F9FE(实际止于F9D5,末尾有空白位置)。包括台湾教育部《次常用汉字标准字体表》的全部汉字6341个,《罕用汉字标准字体表》中使用频率较高的字1311个。
其余的A040~A0FE、C6A1`FEFE为空白区域。一些空白位置,经常被用于用户造字区,而且多存放香港常用字和粤语方言字。
现在流行的BIG-5码字库,在F9D6~F9DC位置大都有7个常用字,据说为倚天系统所增。若计此7字,则全数为13060个汉字,13468个汉字和符号。此外,一些BIG-5码字库,如Windows繁体中文版的True Type细明体(华康科技提供,2.0版),在F9DD~F9FE位置还有33个制表符和1个“■”符号。
五,BIG5+码
1,编订BIG5+码之缘起
台湾行政院协助解决众多使用BIG5码政府单位于进行公文电子传递时寓到自造字无法转换CNS问题,而于数次会商后决议成立专案委托中文电脑基金会办理[BIG5码字集扩编计划],86年7月扩编完成。
2,编码原则
BIG5+码系以CNS为蓝本,共增编标准字集4760个字符与推荐字集3250个字符;其标准字集即纳编CNS第3字面字集内之4145个,第4个字面字集内之219个字,均为一般文书常用之中文字,如推广应用于研究发新版中文软体,则估计可解决80%的BIG5自造字转换CNS交换码问题。
(一),长度仍为双字节,即高字节之第一位元(MSB)=1。
(二),保留原有之标准字集字区及使用者加字区,使与原有系统具相容性。
(三),以国家标准(CNS11643)及国际标准(ISO10646)字集为字源范围,并依CNS之序编入。
(四)包含于ISO10646或CNS11643字集内且市面已广为使用之倚天自造字及符号,编入标准字集并保留原码位。
(五),单独成字之部首不再重覆编码(如金、木、水、火、土)。
(六),有重复的字删除其后者,错字则依CNS修正之。
3,字码架构
(一),总码位:由原有之19782个扩大为23940个(高字节为81-FE,低位元组为40-7E、80-FE)。
(二)编码区间
a,第一标准字集:此区即原BIG-5码标准字集但删除22个重字,编码范围为A140-F9FE(高字节为A1-F9,低字节为40-7E、A1-FE)。共有13973个字符,包括常用汉字5401个(A440-C67E),次常用汉字7693个(C940-F9D5)及符号471个(A140-A3FE)、字符408个(C6A1-C8FE)。
b,第二标准字集:此区即扩编部分,编码范围为8180-FEA0(高字节为81-F9,低字节为80-A0)。共收编罕用汉字4158个。
c,CMEX推荐字集:因BIG-5码系统之编码位置有限,未能编入第一及第二标准字集之较常用罕用及异体汉字、简体字与日韩汉字3454个,经中推会(CMEX)建议集中收编于此区。编码范围为原造字区之8140-83FE、8E40-A0FE(高字节为81-83、8E-A0,低字节为40—7E、A1-FE)。
d,造字区:仅使用第二标准字集时,仍保留5809个码位供使用者造字,可编码区间不变;但同时使用推荐字集时,因BIG5+码之推荐字集系使用原造字区之8140-83FE及8E40-A0FE,供造字之码位仅余2355个,可编码区间为FA40-FEFE(785个码位)、8440-8DFE(1570个码位)。
e,使用者专用字集:为使各行业专用之字集亦能进行信息交换,向中推会申请登记ID后,将ID字形等依照 输规定传出供对方显示或列印。
使用者专用字集之编码区与CMEX推荐字集相同,亦使用到原造字区。
4,可用之工具
(一),24*24点阵字形档。
(二),注音符号、仓颉码属性档。
(三),CNS11643、ISO10646码对照档。
(四),BIG5+〈——〉ISO10646转码程序。
(五),BIG5+〈——〉CNS11643转码程序。
(六)BIG-5码自造字转BIG-5码管理程序。
(七)BIG-5自造字转码程序。
5,使用方法
因BIG5+码在标准字集外尚提供推荐字集,各单位可依自己原有造字情况选择适当之使用方法:
(一)字集之使用1.以下情可使用全字集(即第一、第二标准字集及推荐字集,共21585个字符)
(1),全无自造字者。
(2),原来已有自造字,其编码区间未与推荐字集重叠者,(即FA40—FEFE及8440-8DFE以外)
(3),原来已有自造初开球编码区间虽与推荐字集重叠,但可全部转换为新码者。
(4),原来已有自造字,但经转换为新码后剩余自造字未超过2355个,且可以或原意改置于FA40-FEFE及8440-8DFE以外者。2.以下情况仅使用标准字集(即第一与二标准字集,共13461个字符):
(1),有自造字,但转码后剩余自造字仍超过2355个者。
(2),原有自造字耸部或部分落于FA40-8440-8DFE两个造字区(推荐字集使用范围)内,不易或不愿转换为新码者。
(二)字形转输与交换规格之使用
BIG-5码虽已扩编,但其余未能纳入自造字及未来不断新增之自造字,依旧会产生交换及传送问题;为使这些自造字于网路传输及档案交换时,仍可作字形显示与列印,特订定以下几项规格:1,文件档案交换传输规格,依SGML(ISO8879)格式及CNS(ISO9541)字形资讯交换规格,订定SGML文件档案内字形应含之参数。2,中文周边装置字形下载规格:包括中文终端机、打印机及其他终端设备,系依CNS13479(ISO6429)规范订定字形下载之规格。
(三)用户需准备之工作
BIG-5码编扩编后纳入之自造字,如不作转码,将来交换时一定会发生一字两码的问题,因此在BIG5+码之新版中文系统软体推出前,用户必需先转换现在自造字之旧码,其程序如下:1,建立自造字之旧码与扩编后新码对照表:各单位之造字区管理者可利用第六项工具[BIG5自造字转标准字对照表管理程式]比对造字区内自造字后建立单位内新/旧码对照表。2,清查需要转码之资料档:各单位或集中或各自处理,均必需先清查所有用过原造字区字码之料档,以备进行转码。3,自造字旧码之转换:各项业务负责人或各使用者可利用第七项工具[BIG5自造字转标准字转换程式]及所建立之单位内新/旧码对照表,将所有的[文字档(.txt。)原用之自编旧码转换为BIG5+新码。4,单位内造字区之重整;为避免转码后发生一字两码之现象,各单位原有之造字区应作整理,删除已编入BIG5+码系统者,其余自造字则保留原编码或重新编码(重整造字区)。
6,应用现况
台湾厂商如:芙蓉坊、昌泰科枝、大同、倚天等公司已将BIG5+码应用于新产品中。[/td][/tr]
[/table]

计算机中的汉字(三)
发表于 2003-2-21 06:40:32 |只看该作者 李鐸|倒序浏览

[table=98%]
[tr][td](ZT)
六、台湾制定的CNS11643
1,编订中文标准交换码之缘起
72年10月由台湾科学委员会、教育部、中央标准局及本中心合编[通用汉字标准交换码]后决议试用二年;试用期满,经检讨修正重编并向中央标准局申请订为国家标准,75年8月4日获该局审定公布国家标准,编号[CNS11643];81年51 21日再由该局因应实际需要修订扩编,并更名为[中文标准交换码(chinese standard interchange code)]。
2,CNS11643之适用范围
本标准适用于中文信息之处理。
3,编码之各项考虑
中文信息标准交换码是否能普遍地推广使用,使一般使用者共同乐意接受,端视其是否具有实用性,因此本码之编码原则研订时,曾先就标准码的结构、编码需求等作多方面的周密考虑。
(一),以教育部所公布的四个字体表之字集为范围。
(二),根据使用的频率及范围,整理后分别编排于各个字面,以适应各个层次之使用者。
(三),符合国际信息传输上所使用之CNS5205[信息处理及交换用七位码字符集]及CNS7654[信息处理-七位及八位码字符集-延码技术]标准通信定则。
(四)涵盖常用之外语字母及工商界与学校所使用之文字及符号。
4,字集编排原则
(一),中文标准交换码分为十六个字面,每个字面可陈列94列*94行,即8836个字符。目前第一至第七字面列有字集,第八至第十一字面预留扩编之用;第十二至第十六字面则为使用者加字区,凡未收于本码系统之中文及符号,他用者可视需要自行编订于加字区使用。
总支持文字量达141376个。
(二)各字面字集排列大抵依使用频率为次序,每一字面以常用字为主,第二字面以次常用字为主,第三字面以部分罕用字及较常用异体字为主,第四字面以ISODIS10646第二版之汉字、各单位/信息业用字及户政用字为主,第五字面以罕用字为主,第六、第七字面以异体字为主。其中第一第二字面字集先于民国七十五年八月四日公布为国家标准。
5,字码编排原则
(一),文字之选择及字体悉依教育部[汉字标准字体表]为基准。说明:中国文字的困扰主要有两方面,一是文字的数量太大,二是异体字繁多。实际上一般人常用的不过七千字左右,新字又不断的增加,造成中文资料处理上的困难;而教育部的标准字体表之字集系经多年之搜集、考证、分析、选取,为较不偏颇,最具客观性之用字字集,应能符合一般使用者之需求。
(二),以2个字节(bytes)为中文码编码单位,并以十六进位制之文数字表示之。说明:[以2个字节为字码单位,于处理时可增加信息传输之速度],符合一般资料处理作业之需要。采用十六进位制数字编码,系因应资料处理人员惯用之进位法,用以表示两字节最为简明。
(三)符合CNS5205及CNS7654之通信定则。说明:本编码为符合CNS5305及CNS7654通信定则之规定,所有控制码均予避开,即字码中之00至20以及7F均予避开,则7BIT字码集共有94个编码位置,两个字节革命可编8836个中文字码,订为一字面。
(四),依字之使用频率而编排于各不同字面。说明:在做信息传输时,若欲传送出现在不同字面上的字,必须先送出转字面控制码。为提高传输效率,常会一起出现的字编在同一字面中,可减低字面转换的次数。
(五),使先笔画后部首的排列顺序来编订字码。说明:每一字面均按文字灭口笔画数为首序编订字码,使用者以笔画数即可查寻字码。
六、字集之说明
第一字面:本编码系统为减少字面转换次数,特编最常用之中文字及符号、字母、部首等于第一字面;所编字汇及码区分别说明如下:
1,符号区
符号区之编码位置规划于第一字面之2121至427E,有3102个编码位置,目前暂编符号684个,所余空位供尔后增添之用。
已编入之特殊符号及文字类别如下:
(1),间隔符号1个。
(2),标点符号28个。
(3)括号及制表符号89个。
(4),一般符号34个。
(5)、学术符号51个。
(6)、单位符号31个。
(7)数字符号42个,包括阿拉伯数字10个,罗马数字大小写共20个,中国数字12个。
(8)外文字母100个,包括大写英文字母,小字英文字母各26个,大写希腊字母、小写希腊字母各24个。
(9)汉字注音符号42个。
(10)数字序列符号20个。
(11)中国文字部首213个(夕,夕两部首同归于夕部首中,夕部首得于将来扩编时一并列入增订。)
(12)控制码符号33个。
2 中文字区
CNS第一字面之中文字区编码区间由4421至7D4B,所编字汇5401字,除包括教育部颁订之“常用汉字标准字体表”所列全部4808字外,并优收编国中、国小教科书中常用字587字及异体字6字。第二字面:本字集所编字汇7650字,除教育部所颁“次常用汉字标准字体表”外,并筛选编入罕用字表中使用频率较高之1320字。字码区间为2121至7244。第三字面:本字集即77年6月行政院主计处电子处理资料中心为搜集仍涵盖教育部罕用及异体字表中之较常用字,所编订之使用者加字区第14字面字集第一部分,字数6148字;原码序不变,字码区间仍为2121至6246。第四字面:本字集所编字汇7298字,除包括原第14字面第二部分171字外,并搜集户役政及其他使用单位,ISO10646第2版汉字集、信息业次常用字而成,字码区间为2121至6E5C。第五字面:本字集所编字汇共8603个字,系未包含于前4个字面之教育部罕用字。字码区间为2121至7C51。第六字面:本字集所编字汇共6388个字,为不包含于前5个字面且笔画在14画(含)以下之教育部异体字。字码区间为2121至647A。第七字面:本字集所编字汇6539个字,为不包含前6个字面之教育部异体字,字码区间为2121为6655。使用者得视自己的需求参考本标准之字集、字序编订内码表。
七,CNS11643之使用
(一)字面之指定与转换依据CNS7654(78年7月15日版)第5。3。9节之规定,中文码可置于多字节符号字库(MULTIPLE BYTE GRAPHIC REPERTOIRE)中,经由ESC2/4 2/9 F四个字节之逸出顺序码指定于G1字集,或经由ESC2/4 2/10 F 指定于G2字集,亦可经由ESC2/4 2/11 F指定于G3字集,其中F 可用3/0~3/15来指定相对之一至十六中文字面;至于英文之字集则可经由ESC2/8 F 指定于G0字面。在7个位元的环境下,对于各种字面的使用说明如下:1,利用SI使用G0字面,并为锁定方式。 2,利用SO使用G1字面,并为锁定方式。3,利用LS2使用G2字面,并为锁定方式。4,利用LS3使用G3字面,并为锁定方式。5,利用SS2使用G2字面,并为非锁定方式。6,利用 SS3使用G3字面,并为非锁定方式。
为求使用方便,终端设备在开机时可将G0、G1、G2等三个字集分别设定为ASCII、第一字面及第二字面,将G3字集设定为其他较常用的字面。有关这些控制码的使用,请参考CNS7654 。
(二)使用者加字区之使用:
为适应各种不同性质之中文资料处理作业,CNS11643特别订定自第十二字面起为使用者加字区;尚未收编于本系统之中文字或符号。由使用者视需要先编于此区内使用;字面之指定与转换方法与前七个字面相同。
八,CNS11643之推广应用
本交换码系统依国家标准法之规定,系由经济部中央标准局负责检讨增修之,但该局为加强推广该标准之应用,特将此系统及中文字型档委托本中心代为办理推广应用事宜;本中心为顾及标准字型档之完整性,以利此标准之推广,另再商得内政部及经济部工业局同意一并提供其他字型档。
CNS11643目前之应用情形如下:
(一)台湾之应用情形
1,公文电子交换之标准传递码,行政院“政府机关公文电子传递作业”决定,凡是经“交换中心”(交通部管资中心)之公文,一律须先转换为CNS后再传递。
2,EUC码援用CNS之字集及架构:UNIX系统上使用之EUC虽为4BYTE之内码,但却全部采用CNS之编码架构及字集;其2个低字节之HIGH均OFF后字码即与CNS完全相同,因此不需再以对照表方式转换;亦可视为CNS应用于内码之实例。
3,BIG5+码之字源:86年7月完成之“BIG5+”(即BIG-5码之扩编)系以CNS11643为蓝本,纳编CNS第3字面之4,145个、第4字面之219个一般文书常用之中文字。
(二)国外之应用情形
ISO10646及UNICODE汉字均收编CNS字集:ISO10646及UNICODE目前共收编20902个汉字,其中17011个字系来自CNS(第1第2字面及第3字面3895个,第4字面56个),现又增编CNS的5881个字。因此,不便台湾标准得与国际标准相容,国内电脑业者在国际市场之竞争力得以增强,将来ISO10646及UNICODE发展成熟后,使用者亦可得以顺利转换。
七,CCCII编码
CCCII编码是CHINESE CHARACTER CODE FOR INFORMATION INTERCHANGE 的缩写,是经台湾中研院中美会及国科会等单位支持,于1979年12月25日集合由台湾图书馆学者,文字学家及电脑专家组成“汉字整理小组”提出的汉字编码,已广泛用于港台图书馆及与美国网上数字化图书信息中心OCLC系统。该编写系统提供了94面(PLANE)×行(ROW)×94列(CELL)=830584字符空间;其中每六个面构成一个层(LAYER)提供6×94×94=53016编码空间,(最后一层只有四个面)。各层定义的汉字情况如下:
第1层,符号和繁体汉字。
第2层,大陆的简体汉字。
第3-12层,汉字异体字。
第13层,日本汉字。
第14层,朝鲜汉字。
第15层,保留字。
第16层,杂项字(日本与朝鲜)
第一至十二层的编码的编码存在关联含义,就是说同样的码在这些不同的层表示同一个汉字的不同变形。如第一层表示繁体字,第二层表示大陆简体字(如果有的话),第三至十二层表示其他的异体字,例如以下这个字的三种变形,编码的第二三字节是相同的:
字形类型编码点,层字样
繁体字 OX224E411
简体字 OX284E412
异体字 OX2E4E413
第一层所定义的字符集如下:第1面/第2行56数学符号第1面/第3行ASCII第1面/第11行35中文标点符号第1面/第12-14行214康熙字典偏旁部首第1面/第15行41中文数字,37拼音符号,4音调符号第1面/第16-67行4808备用字,字码213021-21637E第1面/第68行-第3面/第64行17032备用字,字码216421-23607E20583罕用字,字码为236121-262543第3面/第65行含教育部颁定之罕用字汇12924字,次常用字汇314字,第6面/第5行以及康煕字典、中文大辞典、财税资料考核中心字汇、电信传输码字汇、五大专题码字汇,与其他信息字汇7345字。
第二层收异体字共11517字,其中包含大陆简体字3625字,其它简体字7892字所有各层的第一行均为保留行,共收字53940个。
四交大资料-BBS95年1月中国文字资料库(CCDB)字型集的应用(1)中国文字资料库(CCDB)字型集的应用(2)中国文字资料库(CCDB)字型集的应用(3)中国文字资料库(CCDB)属性档介绍。三,ANSIZ39.64-1989 THIS NATIONAL STANDARD IS DESIGNATED as ANSIZ39.64-1989 and named “EAST ASIAN CHARACTER CODE”(EACC),but was origianlly known as REACC (RLIN EAST ASIAN CHARACTER CODE), THAT IS BEFORE IT BECAME A NATIONAL STANDARD RLIN STANDS FOR “RESEARCH LIBRARIES INFORMATION NETWORK “ which was developed by the
B ,浏览器:IE4。01(或更高的版本)中文版,或NETSGAPE NAVIGATOR 3。X
2,其他语种的WINDOWSS 95(或更高的版本)+微软简体中文支持或外挂中文平台。一般情况下,使用外挂中文平台时,需要将当前环境设置成为GBK码,并关闭汉字自动识别的功能。而且,许多外挂中文平台不支持全部GBK汉字。
3,已知的常见错误。
A,IE4。0无法显示GBK/4 AB-AF、F9-FD以及FE 中 FE40-FE4F各位置的汉字。
B,在简体WINDOWS95环境下,NETSGAPE NAVIGATOR4。X 无法显示GBK/3中XXA0位置的汉字,A040-AOFE位置显示错误。
C,在繁体WINDOWS95环境下,NETSGAPE NAVIGATOR4。X不能正确显示GBK/3-GBK/5之间的字符。
GBK代表码(按分类顺序排列)
GBK/1:GB2312非汉字符号A1-A9
B0-B7B8-BF C0-C7C8-CF D0-D7
GBK/2:GB2312汉字
D8-DFE0-E7E8-EFF0-F7
81-8384-87 88-8B8C-8F 90-93
GBK/3:扩充汉字
94-9798-9B 9C-A0
AA-AFB0-B7B8-BFC0-C7C8-CF
GBK/4:扩充汉字
D0-D7D8-DFE0-E7E8-EFF0-F7
F8-FE
GBK/5:扩充非汉字
A8-A9
(1)AA-AF (2)F8-FE
用户自定义区
(3)A1-A7
九、ISO10646及UNICODE
一,字码架构
ISO10646 及UNICODE均为多汉字文内码系统
ISO10646之汉字码长度:4 BYTE
UNICODE 之汉字码长度:2 BYTE
新版UNICODE 之汉字码长度:2-4 BYTE
二,与CNS11643之关系字集相容但字序不同
ISO10646及UNICODE之汉字集目前共收编20901个汉字,其中17011个系来自CNS字集(包括第1第2字面字集全部及第3字面字集3895字,第4字面字集56字),现已增编CNS的5881个字。
UNICODE即所谓的“统一码”,在16位的范围内,将世界各国的文字都放在同一平面上,这样就不会出现某一位置在这种语中是这个字,在那种语言版本中是另一个字。
11,GB13000。1收入的31个IBM OS/2专用符号。
二,码位亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除XX7F一条线。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。
全部编码分为三大部分:
三,字形
GBK对字形作为如下规定
1,原则上与GB13001。1G列(即源自中国大陆法定标准的汉字)下的字形/笔画保持一致。
2,在CJK汉字认同规则的总框架内,对所有的GBK编码汉字实施“无重正形”(“GB化”);即在不造成重码的前提下,尽量采用中国新字形。
3,对于超出CJK汉字认同规则的,或认同规则尚未明确规定的汉字,在GBK码位上暂安放旧字形。这样,在许多情况下,GBK收入了同一汉字的新旧两种字形。
4,非汉字符号的字形,凡GB2312已经包括的,与GB2312保持一致,超出GB2312的部分,与GB13000。保持一致。
5,带声调的拼音字母取半角形式。
四,目前应用
在基本事件环境方面,微软公司自WINDOWS95简体中文版始,系统采用GBK代码,它包括了TRUETYPE宋体、黑体两种GBK字库(北京中易电子公司提供),可以用于显示和打印,并提供了四种GBK汉字输入法。此外,浏览器IE4。0简体,繁体中文版内提供了一个GBK-BIG5代码双向转换的功能。
微软公司为INTERNET EXPLORER 提供的语言包中,简体中文支持(SIMPLIFIED CHINESE LANGUAGE SUPORT KIT)的两种字库宋体、黑体,也是GBK汉字(珠海四通电脑排版系统开发公司提供),其他一些中文字库生产厂商,也开始提供TRUE TYPE 或 POSTSCRIPT GBK字库。
许多外挂式的中文平台,如南极星、四通利方(RICHWIN)等,提供GBK码的支持,包括字库、输入法和GBK与其他中文代码的转换器。
在互联网方面,许多网站的网页使用了GBK代码,如《人民日报》等。
但是,多数搜索引擎,都不能很好的支持GBK汉字的搜索。大陆地区的搜索引擎,有些能够不完善地支持GBK汉字检索,比如,检索GBK汉字“鎔”,只有在网易等极个别的两三个搜索引擎中查能,而检索“朱鎔基”三个字,则能在搜索客(CSEEK)、天网等更多的几个搜索引擎中查到。而港台和国外的搜索引擎,基至是知名的,具有简体中文查询能力的搜索引擎,如YAHOO!、OPENFIND、 ALTAVISTA等,都不支持GBK搜索。
其他应用方面,微软公司的OFFICE 95简体中文版以上版本,提供GBK码的检索和排序。(按笔画和拼音两种方式)
五,显示GBK码表的要求
1,在满足下列环境要求时,才能保证全部字符显示准确,否则可能会出现缺字、显示错误或乱码。
A ,基础环境,WINDOW9X简体中文版,或WINDOWS95繁体中文版(或更高的版本)+微软简体中文支持。

[/td][/tr]
[/table]

发表于 2003-2-22 15:18:35 |只看该作者 67781530

RE:计算机中的汉字(三)[table=98%]
[tr][td]厉害~~~~~~~
现在有没有能输入越南喃字的?为什么香港增补字符不放到B5里面去?而是要单另增补。
还有GB18030应该是是GBK的更新换代吧???[/td][/tr]
[/table]

你果然成了输入法的版主!

YEAH!

歡迎多捧場!

呵呵,普及的很好,学习了,希望能多一些这种知识!另,恭贺楼主升任版主啊

长知识啊