中日韩越统一表意文字的字源

最初期统一汉字

最初期的统一汉字（20,902字）字源来自以下字集： G0：GB 2312-80：6,763字

G1：GB 12345-90：2,352字（含58个香港字和2个吏读字，不包括和G0重覆的字）

G3：GB 7589-87：7,237字

G5：GB 7590-87：7,039字

G7：现代汉语通用字表：642（G0, 1, 3, 5, 8未包括的字）

G8：GB 8565-89：290字（G0, 1, 3, 5未包括的字） T1：CNS 11643-1986第一字面：5,401+9字（含9个计量用汉字）

T2：CNS 11643-1986第二字面：7,650字

TE：CNS 11643-1986第十四字面：6,319+239+10（含239个CCCII特字和10个XCCS特字） J1：JIS X 0208-90：6,335+1字

J2：JIS X 0212-90：5,801字 K0：KS C 5601-87：4,888字（含268个重见字）

K1：KS C 5657-91：2,856字

以上的来源字集会实施字源分离原则。

另外还有：ANSI Z39.64-1989（EACC）、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。

很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字，其实不然. 这6千多个汉字分别从以下字典或字集中取得：中国大陆《康熙字典》5357字(独有1892字)

《汉语大字典》5888字(独有339字)

G3：GB 7589-87 繁体字：2391字

G5：GB 7590-87 繁体字：1226字

G7：120字 GS：新加坡汉字226字台湾 T3：CNS 11643-1992 第三字面（原本为CNS 11643-1986第十四字面）新加入字元

T4：CNS 11643-1992 第四字面

T5：CNS 11643-1992 第五字面

T6：CNS 11643-1992 第六字面

T7：CNS 11643-1992 第七字面

TF：CNS 11643-1992 第十五字面

日本 JA： Unified Japanese IT Vendors Contemporary Ideographs, 1993

南韩 K2：PKS C 5700-1:1994 K3：PKS C 5700-2:1994

越南 V0：TCVN 5773:1993 V1：TCVN 6056:1995

扩展B区包含有42,711个新的汉字，位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件，这四万多个汉字分别从以下字典或字集中取得：

CNS 11643的第4平面到第15平面所收录的30,177个汉字；

在《汉语大字典》中出现的28,914个未收录汉字；

在《康熙字典》中出现的18,486个未收录汉字（包括一个在补遗篇出现汉字）；

在北朝鲜的国家标准所收录的5,642个汉字；

在越南的国家标准所收录的4,232个字喃；

HKSCS中出现的1,081个未收录汉字；

《汉语大词典》中出现的553个未收录汉字；

《四库全书》中出现的522个未收录汉字；

日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字；

1980年代版本的《辞海》中出现的247个未收录汉字；

大韩民国PKS 5700-3:1998中出现的166个未收录汉字；

《中国大百科全书》中出现的86个未收录汉字；

《辞源》中出现的66个未收录汉字；

北大方正排版系统中出现的65个未收录汉字；

这堆汉字中重复的汉字有不少，所以经过整理之后，总数实际上只有42,711个汉字。

另外，在 U+2F800—U+2FA1D 的位置，放了542个来自台湾的兼容汉字。为使 Unicode 向下兼容 GB 18030 和香港增补字符集（HKSCS）的所有汉字，而扩展C区又迟迟未能出笼，在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。

另外，在 U+FA70—U+FAD9 的位置，放了106个来自北朝鲜的兼容汉字。

扩展C区按计划，中日韩统一表意文字扩展C区将收录4,251个汉字，包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中，位置在 U+2A6E0—U+2B77A。字源分离原则

字源分离原则字源分离原则（Source Separation Rule）是整理中日韩统一表意文字的基础。

由于CJK各地字型多有微妙的差异，如“户”字的第一笔，台湾作撇、中国大陆作点、日本作横，这种程度的差异，理想上是整并为一个字为佳。然而，从之前各种受挫之文字整并计划的经验得知，整合字集与现行通用字集（Big5或国标码）等无法一一对应，是推行整合字集的最大阻碍。

例如，日本的JIS标准同时收录了“剣”字与“剑”字，原本JIS文件里这两个字可以并存，但采用整合字集后反而变成同一个字，会造成使用上的困扰。于是，字源分离原则因而诞生。

字源分离原则是指，在上述所列出之各种字源里，若有任何字集同时收了两种以上的文字字形，则在Unicode中日韩统一表意文字中，也同时收录这些字。这样一来，现行的各种原有字集与Unicode汉字可以一一对应。

由于Unicode中日韩统一表意文字的主要诉求，就是能大幅减少Unicode收录汉字字数，同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字，而不对字形”编码之原则，亦遭受不少批评。

已统一的汉字原则上ISO 10646只对字（Character），而非字形（Glyph）编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法（但只是我的电脑提供的字型，未必代表该地区的标准写法）。扩充区D包含的都是所谓的「急用汉字」，合***222个新汉字，于2010年下旬发布的Unicode6.0中，编码范围为 U+2B740 至 U+2B81F（实际有字符为 U+2B740 至 U+2B81D）。

扩展D区原本计划放置扩展C区未收录的16,000多个汉字，但在2007年5月，台湾撤消了6,545个第二部分字集内私用汉字，不再使用字，原因是那些人名用字的拥有人或已去世或已移居外地，此后扩展D区缩减到大约10,000字左右。，由于各种阻碍，协议先把数量较少，又急切要收录的汉字提交出来，就是「急用汉字」，以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字（本来有二百二十三字，但中国大陆撤回其中一字）。现在文字小组把第二部分字集延后到扩充E区。