中日韩统一表意文字
中日韩统一表意文字(英语:CJK Unified Ideographs),也称统汉字(Unihan),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。
越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录越汉字——喃字。
版本
ISO 10646 版本 |
Unicode 版本 |
新增 |
置放平面 |
字数 |
累计字数 |
---|---|---|---|---|---|
1993 |
1.0 |
中日韩统一表意文字 |
基本多文种平面(BMP, Basic Multilingual Plane) |
20,902 |
20,914 |
位于“相容表意文字区”中但实则独一的汉字(U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29) |
基本多文种平面 |
12 |
|||
2000 |
3.0 |
中日韩统一表意文字扩展A区 |
基本多文种平面 |
6,582 |
27,496 |
2001 |
3.1 |
中日韩统一表意文字扩展B区 |
第二辅助平面(SIP, Supplementary Ideographic Plane) |
42,711 |
70,207 |
2003第一修订版 |
4.1 |
HKSCS-2004 和 GB 18030-2000 中仍未加入 ISO 10646 的汉字(分别为 U+9FA6-U+9FB3, U+9FB4-U+9FBB) |
基本多文种平面 |
22 |
70,229 |
2003第四修订版 |
5.1 |
7个日语汉字(U+9FBC-U+9FC2),U+4039 拆分为 U+4039 和 U+9FC3 |
基本多文种平面 |
8 |
70,237 |
2003第五修订版[2](预计) |
5.2(预计) |
中日韩统一表意文字扩展C区 |
第二辅助平面(预计) |
4,149 |
74,388 |
2个日语用汉字(U+9FC4-U+9FC5)(预计) |
基本多文种平面(预计) |
2 |
历史
于1990年代初ISO 10646制订时,来自台湾的代表提出相同形式的中日韩汉字给以统一编码(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。
最初期统一汉字
最初期的统一汉字(20,902字)字源来自以下字集:
-
中国大陆的G源
- G0:GB 2312-80:6,763字
- G1:GB 12345-90:2,352字(含58个香港字和92个吏读字,不包括和GB 2312重复的字)
- G3:GB 7589-87 繁体字:7,237字
- G5:GB 7590-87 繁体字:7,039字
- G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
- G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
-
台湾的T源
- T1:CNS 11643-1986 第一字面:5,401+9字(含9个计量用汉字)
- T2:CNS 11643-1986 第二字面:7,650字
- TE:CNS 11643-1986 第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字
-
日本的J源
- J0:JIS X 0208-90:6,335+1字
- J1:JIS X 0212-90:5,801字
-
韩国的K源
- K0:KS C 5601-87:4,888字(含268个重见字)
- K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。
另外还有:EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese等字集来源。
扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中取得:
-
中国大陆
- GE:GB 16500-95
- GS:新加坡汉字
-
台湾
- T3:CNS 11643-1992 第三字面(原本为CNS 11643-1986第十四字面)新加入字符
- T4:CNS 11643-1992 第四字面
- T5:CNS 11643-1992 第五字面
- T6:CNS 11643-1992 第六字面
- T7:CNS 11643-1992 第七字面
- TF:CNS 11643-1992 第十五字面
-
日本
- JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
-
韩国
- K2:PKS C 5700-1:1994
- K3:PKS C 5700-2:1994
-
越南
- V0:TCVN 5773:1993
- V1:TCVN 6056:1995
扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:
- 《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现的汉字);
- 《汉语大字典》中出现的28,914个未收录汉字;
- 《辞源》中出现的66个未收录汉字;
- 《辞海》中出现的247个未收录汉字;
- 《汉语大词典》中出现的553个未收录汉字;
- 《中国大百科全书》中出现的86个未收录汉字;
- 北大方正排版系统中出现的65个未收录汉字;
- 《四库全书》中出现的522个未收录汉字;
- 香港增补字符集中出现的1,081个未收录汉字;
- 日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
- 韩国 PKS 5700-3:1998 中出现的166个未收录汉字;
- 北朝鲜 KPS 9566-97 和 KPS 10721-2000 国家标准所收录的5,642个汉字;
- 台湾 CNS 11643 的第4至7和15平面所收录的30,177个汉字;
- 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个字喃;
这堆汉字中重复的汉字有不少,所以经过整理之后,实际总数只有42,711个汉字。
另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。
Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。
Unicode 5.1汉字
在2008年4月推出的 Unicode 5.1 版本,收录7个由日本 Adobe 公司递交的个日语汉字(U+9FBC-U+9FC2),和目字旁加㚒(大字加两个入字,就如陕西省的陝字换上目字旁)的字 U+9FC3。本来 Unicode 3.0 收录了目字旁加夾(大字加两个人字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论在意义和发音均不相同,故 Andrew West 和 John Jenkins 申请追加此字。
扩展C区
按计划,中日韩统一表意文字扩展C区将收录4,149个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B734。根据IRG N1266号文件(另见 N3270),这四千多个汉字分别从以下字典或字集中取得:
-
中国大陆
- 《中国大百科全书》
- 北大方正排版系统
- 《汉语大字典》
- 《汉语大词典》
- 《古代汉语词典》
- 商务印书馆用字
- 《现代汉语词典》
- 《辞海》
- 《康熙字典》及补遗
- 中国测绘科学研究院用字
- 《汉语方言大辞典》
- 殷周金文集成引得
-
澳门
- 澳门资讯系统字集
-
台湾
- CNS 11643-1992 第12字面
- CNS 11643-1992 第13字面
- CNS 11643-1992 第14字面
-
日本
- 日本国字集(Japanese KOKUJI Collection)
-
韩国
- 韩国 IRG 汉字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)
-
北朝鲜
- KPS 10721:2003
-
越南
- 喃字词典(Từ điển chữ Nôm), 阮光红(Nguyễn Quang Hồng), 2006
- Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
- Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
-
UTC来源
- ABC Chinese-English Dictionary, John DeFrancis(德范克), et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
- 耶稣基督后期圣徒教会香港分会用字
- Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
- 宋本《广韵》
- 《中国鸟类系统检索》,郑作新等(2000),北京,科学出版社
- 段玉裁《说文解字注》
字源分离原则
字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇“戶”、香港及中国大陆作点“户”、日本作横“戸”,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。而且,如果将多个不同地区字形合并会影响阅读者,令使用者不习惯并非以往所见字至;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)、学习错误的字形。于是,字源分离原则因而诞生。
而在不同地区而有不同写法的部首,如“⻌(中)、⻍(港台旧字体)、辶(港台)”、“⺾(新字体)、卝䒑(旧字体)”、“⺥(中)、爫(港台)”等就会交由字体处理,例如使用依中国汉字标准《印刷通用汉字字形表》的字体下(如中易宋体、微软雅黑体)便会出现“⻌、⺥”;使用港台字体标准字体下(如微软正黑体,但非旧版细明体)就会出现“辶、爫”等字形。大大解决了因地区而异之部首写法。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
已统一的汉字
原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是读者电脑提供的字型,未必代表该地区的标准写法)。
例子:
Unicode |
中文 |
日文 |
韓文 |
||
---|---|---|---|---|---|
中國大陸 |
台灣 |
香港 |
|||
U+6D2A |
港 |
港 |
港 |
港 |
港 |
U+6F22 |
漢 |
漢 |
漢 |
漢 |
漢 |
U+76F4 |
直 |
直 |
直 |
直 |
直 |
U+7A97 |
窗 |
窗 |
窗 |
窗 |
窗 |
U+89D2 |
角 |
角 |
角 |
角 |
角 |
U+8D77 |
起 |
起 |
起 |
起 |
起 |
U+9AA8 |
骨 |
骨 |
骨 |
骨 |
骨 |
注:不是所有浏览器均可分辨“中文-香港”(zh-hk)此一HTML的语言代码(Language Code)并使用不同的字形。如非某一地区的使用者看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设定两者以同一种字形显示。
截至2007年7月,只有Internet Explorer 7能够完整正确地支持此标记,而Internet Explorer 6和Mozilla Firefox也能同样完整支持,但表现不同(部分中文标记被当作日文)。Opera仅部分支持。具体情况请参考Test results: Automatic font assignment for CJK text。
没有统一的汉字
有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“Unicode联盟决定把不正统的编入位于基本多文种平面的‘相容表意文字区’(Compatibility Ideographs)”时起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“相容表意文字补充区”(Compatibility Ideographs Supplement)中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。
Unicode |
字 |
Unicode |
字 |
Unicode |
字 |
---|---|---|---|---|---|
U+4E1F |
丟 |
U+4E22 |
丢 |
||
U+4E48 |
么 |
U+5E7A |
幺 |
||
U+4E89 |
争 |
U+722D |
爭 |
||
U+4EDE |
仞 |
U+4EED |
仭 |
||
U+4F75 |
併 |
U+5002 |
倂 |
||
U+4FA3 |
侣 |
U+4FB6 |
侶 |
||
U+4FC1 |
俁 |
U+4FE3 |
俣 |
||
U+4FDE |
俞 |
U+516A |
兪 |
||
U+4FF1 |
俱 |
U+5036 |
倶 |
||
U+5024 |
値 |
U+503C |
值 |
||
U+5077 |
偷 |
U+5078 |
偸 |
||
U+507D |
偽 |
U+50DE |
僞 |
||
U+514C |
兌 |
U+5151 |
兑 |
||
U+514E |
兎 |
U+5154 |
兔 |
||
U+5156 |
兖 |
U+5157 |
兗 |
||
U+518A |
冊 |
U+518C |
册 |
||
U+51C0 |
净 |
U+51C8 |
凈 |
||
U+51E2 |
凢 |
U+51E3 |
凣 |
||
U+5203 |
刃 |
U+5204 |
刄 |
||
U+520A |
刊 |
U+520B |
刋 |
||
U+5220 |
删 |
U+522A |
刪 |
||
U+5225 |
別 |
U+522B |
别 |
||
U+5238 |
券 |
U+52B5 |
劵 |
||
U+5239 |
刹 |
U+524E |
剎 |
||
U+524F |
剏 |
U+5259 |
剙 |
||
U+525D |
剝 |
U+5265 |
剥 |
||
U+5292 |
劒 |
U+5294 |
劔 |
||
U+52FB |
勻 |
U+5300 |
匀 |
||
U+5355 |
单 |
U+5358 |
単 |
||
U+5373 |
即 |
U+537D |
卽 |
||
U+5377 |
卷 |
U+5DFB |
巻 |
||
U+53C1 |
叁 |
U+53C2 |
参 |
||
U+53C3 |
參 |
U+53C4 |
叄 |
||
U+5415 |
吕 |
U+5442 |
呂 |
||
U+541E |
吞 |
U+5451 |
呑 |
||
U+5433 |
吳 |
U+5434 |
吴 |
U+5449 |
呉 |
U+5436 |
吶 |
U+5450 |
呐 |
||
U+543F |
吿 |
U+544A |
告 |
||
U+5527 |
唧 |
U+559E |
喞 |
||
U+55A9 |
喩 |
U+55BB |
喻 |
||
U+5618 |
嘘 |
U+5653 |
噓 |
||
U+568F |
嚏 |
U+5694 |
嚔 |
||
U+56EF |
囯 |
U+56FD |
国 |
||
U+5708 |
圈 |
U+570F |
圏 |
||
U+570E |
圎 |
U+5713 |
圓 |
||
U+5716 |
圖 |
U+5717 |
圗 |
||
U+5759 |
坙 |
U+5DE0 |
巠 |
||
U+57D2 |
埒 |
U+57D3 |
埓 |
||
U+5848 |
塈 |
U+588D |
墍 |
||
U+5861 |
塡 |
U+586B |
填 |
||
U+5897 |
増 |
U+589E |
增 |
||
U+58EE |
壮 |
U+58EF |
壯 |
||
U+58FD |
壽 |
U+5900 |
夀 |
||
U+5910 |
夐 |
U+657B |
敻 |
||
U+5932 |
夲 |
U+672C |
本 |
||
U+5965 |
奥 |
U+5967 |
奧 |
||
U+5968 |
奨 |
U+596C |
奬 |
U+734E |
獎 |
U+5986 |
妆 |
U+599D |
妝 |
||
U+598D |
妍 |
U+59F8 |
姸 |
||
U+59CD |
姍 |
U+59D7 |
姗 |
||
U+59EB |
姫 |
U+59EC |
姬 |
||
U+5A1B |
娛 |
U+5A2F |
娯 |
U+5A31 |
娱 |
U+5A55 |
婕 |
U+5AAB |
媫 |
||
U+5A7E |
婾 |
U+5AAE |
媮 |
||
U+5AAA |
媪 |
U+5ABC |
媼 |
||
U+5AAF |
媯 |
U+5B00 |
嬀 |
||
U+5B0E |
嬎 |
U+5B14 |
嬔 |
||
U+5B24 |
嬤 |
U+5B37 |
嬷 |
||
U+5B73 |
孳 |
U+5B76 |
孶 |
||
U+5BAB |
宫 |
U+5BAE |
宮 |
||
U+5BDB |
寛 |
U+5BEC |
寬 |
||
U+5BDC |
寜 |
U+5BE7 |
寧 |
||
U+5BDD |
寝 |
U+5BE2 |
寢 |
||
U+5C02 |
専 |
U+5C08 |
專 |
||
U+5C06 |
将 |
U+5C07 |
將 |
||
U+5C13 |
尓 |
U+5C14 |
尔 |
||
U+5C19 |
尙 |
U+5C1A |
尚 |
||
U+5C2A |
尪 |
U+5C2B |
尫 |
||
U+5C36 |
尶 |
U+5C37 |
尷 |
||
U+5C4F |
屏 |
U+5C5B |
屛 |
||
U+5CE5 |
峥 |
U+5D22 |
崢 |
||
U+5DD3 |
巓 |
U+5DD4 |
巔 |
||
U+5E21 |
帡 |
U+5E32 |
帲 |
||
U+5E2F |
帯 |
U+5E36 |
帶 |
||
U+5E76 |
并 |
U+5E77 |
幷 |
||
U+5EC4 |
廄 |
U+5ECF |
廏 |
||
U+5F11 |
弑 |
U+5F12 |
弒 |
||
U+5F37 |
強 |
U+5F3A |
强 |
||
U+5F39 |
弹 |
U+5F3E |
弾 |
||
U+5F50 |
彐 |
U+5F51 |
彑 |
||
U+5F54 |
彔 |
U+5F55 |
录 |
||
U+5F59 |
彙 |
U+5F5A |
彚 |
||
U+5F5B |
彛 |
U+5F5C |
彜 |
||
U+5F5D |
彝 |
U+5F5E |
彞 |
||
U+5F65 |
彥 |
U+5F66 |
彦 |
-
Cangji Fonts
Brand: 仓迹字库
Area: China
-
JT Foundry
Brand: 翰字铸造
Area: Taiwan, China
-
Handmadefont
Brand:
Area: Estonia
-
·千图字体
-
HyFont Studio
Brand: 新美字库
Area: China
-
Minrui Type
Brand: 敏锐字库
Area: China
- ·Brother Moto Flat-Trackin' Tee
- ·"Jesus Music" ad for Myrrh Records
- ·"Die Alpen – Vielfalt in Europa" stamp
- ·Statement and Counter-Statement, Automatically Arranged Alphabets, and Arts/Rats/Star
- ·MC5 – Back in the USA album cover
- ·Hollywood Star Matt Damon Wrote Better Chinese than Chinese Stars
- ·20 Houses. A New Residential Landscape exhibition, Wallpaper* Architects Directory
- ·Iconic Transport for London logo undergoes subtle redesign
- ·How to sell your typefaces
- ·Top 100 Fonts.com Web Fonts for May 2016