中日韩统一表意文字

Date:2007-01-23 07:42:59| Term|Browse: 4772|Author:

Follow FontKe on Wechat to get Zcode
Scan the Qrcode to participate in the SVIP lottery

Introduction中日韩统一表意文字（英语：CJK Unified Ideographs），也称统汉字（Unihan），目的是要把分别来自中文、日文、韩文、越文中，本质相同、形状一样或稍异的表意文字（主要为汉字，但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃

中日韩统一表意文字（英语：CJK Unified Ideographs），也称统汉字（Unihan），目的是要把分别来自中文、日文、韩文、越文中，本质相同、形状一样或稍异的表意文字（主要为汉字，但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃字）于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划，所以亦有 CJKV （中日韩越统一表意文字）的称呼。Unicode亦开始收录越汉字——喃字。

版本

ISO 10646 版本	Unicode 版本	新增	置放平面	字数	累计字数
1993	1.0	中日韩统一表意文字	基本多文种平面（BMP, Basic Multilingual Plane）	20,902	20,914
1993	1.0	位于“相容表意文字区”中但实则独一的汉字（U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29）	基本多文种平面	12	20,914
2000	3.0	中日韩统一表意文字扩展A区	基本多文种平面	6,582	27,496
2001	3.1	中日韩统一表意文字扩展B区	第二辅助平面（SIP, Supplementary Ideographic Plane）	42,711	70,207
2003第一修订版	4.1	HKSCS-2004 和 GB 18030-2000 中仍未加入 ISO 10646 的汉字（分别为 U+9FA6－U+9FB3, U+9FB4－U+9FBB）	基本多文种平面	22	70,229
2003第四修订版	5.1	7个日语汉字（U+9FBC－U+9FC2），U+4039 拆分为 U+4039 和 U+9FC3	基本多文种平面	8	70,237
2003第五修订版[2]（预计）	5.2（预计）	中日韩统一表意文字扩展C区	第二辅助平面（预计）	4,149	74,388
2003第五修订版[2]（预计）	5.2（预计）	2个日语用汉字（U+9FC4－U+9FC5)（预计）	基本多文种平面（预计）	2	74,388

历史

于1990年代初ISO 10646制订时，来自台湾的代表提出相同形式的中日韩汉字给以统一编码（Unify, ISO术语称为认同），可以大量节省编码空间，获其他代表接纳。

最初期统一汉字

最初期的统一汉字（20,902字）字源来自以下字集：

中国大陆的G源
- G0：GB 2312-80：6,763字
- G1：GB 12345-90：2,352字（含58个香港字和92个吏读字，不包括和GB 2312重复的字）
- G3：GB 7589-87 繁体字：7,237字
- G5：GB 7590-87 繁体字：7,039字
- G7：现代汉语通用字表：642（G0, 1, 3, 5, 8未包括的字）
- G8：GB 8565-89：290字（G0, 1, 3, 5未包括的字）
台湾的T源
- T1：CNS 11643-1986 第一字面：5,401+9字（含9个计量用汉字）
- T2：CNS 11643-1986 第二字面：7,650字
- TE：CNS 11643-1986 第十四字面：6,319+239+10（含239个CCCII特字和10个XCCS特字
日本的J源
- J0：JIS X 0208-90：6,335+1字
- J1：JIS X 0212-90：5,801字
韩国的K源
- K0：KS C 5601-87：4,888字（含268个重见字）
- K1：KS C 5657-91：2,856字

以上的来源字集会实施字源分离原则。

另外还有：EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese等字集来源。

扩展A区

扩展A区包含有6,582个新的汉字，位置在 U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中取得：

中国大陆
- GE：GB 16500-95
- GS：新加坡汉字
台湾
- T3：CNS 11643-1992 第三字面（原本为CNS 11643-1986第十四字面）新加入字符
- T4：CNS 11643-1992 第四字面
- T5：CNS 11643-1992 第五字面
- T6：CNS 11643-1992 第六字面
- T7：CNS 11643-1992 第七字面
- TF：CNS 11643-1992 第十五字面
日本
- JA： Unified Japanese IT Vendors Contemporary Ideographs, 1993
韩国
- K2：PKS C 5700-1:1994
- K3：PKS C 5700-2:1994
越南
- V0：TCVN 5773:1993
- V1：TCVN 6056:1995

扩展B区

扩展B区包含有42,711个新的汉字，位置在 U+20000—U+2A6D6。根据IRG N777号文件，这四万多个汉字分别从以下字典或字集中取得：

《康熙字典》中出现的18,486个未收录汉字（包括一个在补遗篇出现的汉字）；
《汉语大字典》中出现的28,914个未收录汉字；
《辞源》中出现的66个未收录汉字；
《辞海》中出现的247个未收录汉字；
《汉语大词典》中出现的553个未收录汉字；
《中国大百科全书》中出现的86个未收录汉字；
北大方正排版系统中出现的65个未收录汉字；
《四库全书》中出现的522个未收录汉字；
香港增补字符集中出现的1,081个未收录汉字；
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字；
韩国 PKS 5700-3:1998 中出现的166个未收录汉字；
北朝鲜 KPS 9566-97 和 KPS 10721-2000 国家标准所收录的5,642个汉字；
台湾 CNS 11643 的第4至7和15平面所收录的30,177个汉字；
越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个字喃；

这堆汉字中重复的汉字有不少，所以经过整理之后，实际总数只有42,711个汉字。

另外，在 U+2F800—U+2FA1D 的位置，放了542个来自台湾的兼容汉字。

Unicode 4.1汉字

为使 Unicode 向下兼容 GB 18030 和香港增补字符集（HKSCS）的所有汉字，而扩展C区又迟迟未能出笼，在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。

另外，在 U+FA70—U+FAD9 的位置，放了106个来自北朝鲜的兼容汉字。

Unicode 5.1汉字

在2008年4月推出的 Unicode 5.1 版本，收录7个由日本 Adobe 公司递交的个日语汉字（U+9FBC－U+9FC2），和目字旁加㚒（大字加两个入字，就如陕西省的陝字换上目字旁）的字 U+9FC3。本来 Unicode 3.0 收录了目字旁加夾（大字加两个人字）字的“䀹”(U+4039)，目字旁加㚒字的字，与“䀹”无论在意义和发音均不相同，故 Andrew West 和 John Jenkins 申请追加此字。

扩展C区

按计划，中日韩统一表意文字扩展C区将收录4,149个汉字，包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中，位置在 U+2A6E0—U+2B734。根据IRG N1266号文件（另见 N3270），这四千多个汉字分别从以下字典或字集中取得：

中国大陆
- 《中国大百科全书》
- 北大方正排版系统
- 《汉语大字典》
- 《汉语大词典》
- 《古代汉语词典》
- 商务印书馆用字
- 《现代汉语词典》
- 《辞海》
- 《康熙字典》及补遗
- 中国测绘科学研究院用字
- 《汉语方言大辞典》
- 殷周金文集成引得
澳门
- 澳门资讯系统字集
台湾
- CNS 11643-1992 第12字面
- CNS 11643-1992 第13字面
- CNS 11643-1992 第14字面
日本
- 日本国字集（Japanese KOKUJI Collection）
韩国
- 韩国 IRG 汉字集第5版（Korean IRG Hanja Character Set 5th Edition: 2001）
北朝鲜
- KPS 10721:2003
越南
- 喃字词典（Từ điển chữ Nôm）, 阮光红（Nguyễn Quang Hồng), 2006
- Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
- Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
UTC来源
- ABC Chinese-English Dictionary, John DeFrancis（德范克）, et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
- 耶稣基督后期圣徒教会香港分会用字
- Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
- 宋本《广韵》
- 《中国鸟类系统检索》，郑作新等（2000），北京，科学出版社
- 段玉裁《说文解字注》

字源分离原则

字源分离原则（Source Separation Rule）是整理中日韩统一表意文字的基础。

由于CJK各地字型多有微妙的差异，如“户”字的第一笔，台湾作撇“戶”、香港及中国大陆作点“户”、日本作横“戸”，这种程度的差异，理想上是整并为一个字为佳。然而，从之前各种受挫之文字整并计划的经验得知，整合字集与现行通用字集（Big5或国标码）等无法一一对应，是推行整合字集的最大阻碍。

例如，日本的JIS标准同时收录了“剣”字与“劍”字，原本JIS文件里这两个字可以并存，但采用整合字集后反而变成同一个字，会造成使用上的困扰。而且，如果将多个不同地区字形合并会影响阅读者，令使用者不习惯并非以往所见字至；更有可能引致阅读者因习惯而书写不属于自己地区的字形（或地区性的异体字）、学习错误的字形。于是，字源分离原则因而诞生。

而在不同地区而有不同写法的部首，如“⻌（中）、⻍（港台旧字体）、辶（港台）”、“⺾（新字体）、卝䒑（旧字体）”、“⺥（中）、爫（港台）”等就会交由字体处理，例如使用依中国汉字标准《印刷通用汉字字形表》的字体下（如中易宋体、微软雅黑体）便会出现“⻌、⺥”；使用港台字体标准字体下（如微软正黑体，但非旧版细明体）就会出现“辶、爫”等字形。大大解决了因地区而异之部首写法。

字源分离原则是指，在上述所列出之各种字源里，若有任何字集同时收了两种以上的文字字形，则在Unicode中日韩统一表意文字中，也同时收录这些字。这样一来，现行的各种原有字集与Unicode汉字可以一一对应。

由于Unicode中日韩统一表意文字的主要诉求，就是能大幅减少Unicode收录汉字字数，同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字，而不对字形”编码之原则，亦遭受不少批评。

已统一的汉字

原则上ISO 10646只对字（Character），而非字形（Glyph）编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法（但只是读者电脑提供的字型，未必代表该地区的标准写法）。

例子：

Unicode	中文			日文	韓文
Unicode	中國大陸	台灣	香港	日文	韓文
U+6D2A	港	港	港	港	港
U+6F22	漢	漢	漢	漢	漢
U+76F4	直	直	直	直	直
U+7A97	窗	窗	窗	窗	窗
U+89D2	角	角	角	角	角
U+8D77	起	起	起	起	起
U+9AA8	骨	骨	骨	骨	骨

注：不是所有浏览器均可分辨“中文－香港”（zh-hk）此一HTML的语言代码（Language Code）并使用不同的字形。如非某一地区的使用者看到的字形和当地通用的字形一样，表示该用户的浏览器不能分辨此标签，或设定两者以同一种字形显示。

截至2007年7月，只有Internet Explorer 7能够完整正确地支持此标记，而Internet Explorer 6和Mozilla Firefox也能同样完整支持，但表现不同(部分中文标记被当作日文)。Opera仅部分支持。具体情况请参考Test results: Automatic font assignment for CJK text。

没有统一的汉字

有些字只是同一字在不同地区的写法，理应统一，但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“Unicode联盟决定把不正统的编入位于基本多文种平面的‘相容表意文字区’（Compatibility Ideographs）”时起废弃，原因是CNS中有太多字形非常接近，按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集（包括扩展A、B、C区）中，不正统的编入位于“第二辅助平面”的“相容表意文字补充区”（Compatibility Ideographs Supplement）中。

以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。

Unicode	字	Unicode	字	Unicode	字
U+4E1F	丟	U+4E22	丢
U+4E48	么	U+5E7A	幺
U+4E89	争	U+722D	爭
U+4EDE	仞	U+4EED	仭
U+4F75	併	U+5002	倂
U+4FA3	侣	U+4FB6	侶
U+4FC1	俁	U+4FE3	俣
U+4FDE	俞	U+516A	兪
U+4FF1	俱	U+5036	倶
U+5024	値	U+503C	值
U+5077	偷	U+5078	偸
U+507D	偽	U+50DE	僞
U+514C	兌	U+5151	兑
U+514E	兎	U+5154	兔
U+5156	兖	U+5157	兗
U+518A	冊	U+518C	册
U+51C0	净	U+51C8	凈
U+51E2	凢	U+51E3	凣
U+5203	刃	U+5204	刄
U+520A	刊	U+520B	刋
U+5220	删	U+522A	刪
U+5225	別	U+522B	别
U+5238	券	U+52B5	劵
U+5239	刹	U+524E	剎
U+524F	剏	U+5259	剙
U+525D	剝	U+5265	剥
U+5292	劒	U+5294	劔
U+52FB	勻	U+5300	匀
U+5355	单	U+5358	単
U+5373	即	U+537D	卽
U+5377	卷	U+5DFB	巻
U+53C1	叁	U+53C2	参
U+53C3	參	U+53C4	叄
U+5415	吕	U+5442	呂
U+541E	吞	U+5451	呑
U+5433	吳	U+5434	吴	U+5449	呉
U+5436	吶	U+5450	呐
U+543F	吿	U+544A	告
U+5527	唧	U+559E	喞
U+55A9	喩	U+55BB	喻
U+5618	嘘	U+5653	噓
U+568F	嚏	U+5694	嚔
U+56EF	囯	U+56FD	国
U+5708	圈	U+570F	圏
U+570E	圎	U+5713	圓
U+5716	圖	U+5717	圗
U+5759	坙	U+5DE0	巠
U+57D2	埒	U+57D3	埓
U+5848	塈	U+588D	墍
U+5861	塡	U+586B	填
U+5897	増	U+589E	增
U+58EE	壮	U+58EF	壯
U+58FD	壽	U+5900	夀
U+5910	夐	U+657B	敻
U+5932	夲	U+672C	本
U+5965	奥	U+5967	奧
U+5968	奨	U+596C	奬	U+734E	獎
U+5986	妆	U+599D	妝
U+598D	妍	U+59F8	姸
U+59CD	姍	U+59D7	姗
U+59EB	姫	U+59EC	姬
U+5A1B	娛	U+5A2F	娯	U+5A31	娱
U+5A55	婕	U+5AAB	媫
U+5A7E	婾	U+5AAE	媮
U+5AAA	媪	U+5ABC	媼
U+5AAF	媯	U+5B00	嬀
U+5B0E	嬎	U+5B14	嬔
U+5B24	嬤	U+5B37	嬷
U+5B73	孳	U+5B76	孶
U+5BAB	宫	U+5BAE	宮
U+5BDB	寛	U+5BEC	寬
U+5BDC	寜	U+5BE7	寧
U+5BDD	寝	U+5BE2	寢
U+5C02	専	U+5C08	專
U+5C06	将	U+5C07	將
U+5C13	尓	U+5C14	尔
U+5C19	尙	U+5C1A	尚
U+5C2A	尪	U+5C2B	尫
U+5C36	尶	U+5C37	尷
U+5C4F	屏	U+5C5B	屛
U+5CE5	峥	U+5D22	崢
U+5DD3	巓	U+5DD4	巔
U+5E21	帡	U+5E32	帲
U+5E2F	帯	U+5E36	帶
U+5E76	并	U+5E77	幷
U+5EC4	廄	U+5ECF	廏
U+5F11	弑	U+5F12	弒
U+5F37	強	U+5F3A	强
U+5F39	弹	U+5F3E	弾
U+5F50	彐	U+5F51	彑
U+5F54	彔	U+5F55	录
U+5F59	彙	U+5F5A	彚
U+5F5B	彛	U+5F5C	彜
U+5F5D	彝	U+5F5E	彞
U+5F65	彥	U+5F66	彦