目前,已制定的CJK汉字标准中,基本集收录汉字20940个,扩展A收录汉字6582个,扩展B收录汉字42711个,扩展C收录汉字4149个,扩展D收录汉字222个,以上合共收录汉字74600多个。且已有花园明朝、华康明体、中易宋体三款大字符集完整收录了以上这些汉字,并应用于实践中。
方正宋体S-超大字符集完整收录了CJK汉字基本集、扩展A、扩展B。方正楷体的超大字符集,收录了CJK汉字基本集、扩展A、扩展B,以及扩展B之外的10000多字,共八万多字。顺便说一下,方正宋体S-超大字符集中,CJK_A部分漏编了一个代码为39FB的汉字“㧻”。在字表中,它应在“㧺”的后面,“㧼”的前面。可在制作时丢掉了,使其失去了合法的身份。
人们的用字量因其兴趣、爱好,职业、工作等不同,差异很大。就较为熟练地从形、音、义方面掌握汉字而言,三五千足矣,六到八千就难得了。当年,张元济先生节本《康熙字典》,删去大量疑难字、生僻字,也是这个意思。
由于历史文化、汉字文化研究,古籍整理以及出版工作的需要,人们特别渴望字库都大一点,收录文字多一点,用起来毕竟方便。
历史上,很多字只是存在于字书中,与人们的生活实际相去甚远。直到今天,《康熙字典》中依然有145个字无法标出读音,可见汉字确实太多,太复杂。一个突出特点就是异体字太多。
汉字的总量到底有多少,谁都难以准确回答。七万之外,早期公布的CJK-C的草案中,有汉字19000多个,现在的C和D才4500多个,差距很大。E中还有6000多个。光这些就近十万了。
汉喃有8000多个(少量已收到七万中),韩国人自造的字还有10000多个,宋元以来,异体字尚有35000未予整理,俗字之类亦不少。加上古文字的隶定字,楷写汉字的总量在十五六万是明显的。
方正的字库,从其早期各款(以GBK编码系列为代表),到现在的方正宋体S-超大字符集,字形美观,主要采用新字形,适应了国家的语文政策,普遍用于当今汉语文出版物的印刷,市场占有份额极大。
现在,出版物的正文一般主要采用宋体字,因此,一套宋体字库的收字量的多少,在汉语文出版物的印刷、出版工作中,就显得特别重要。
一个最为基本的,也是最为人们忽视的问题是:方正字库的基线与中易宋体的基线不同(笔画粗细亦不同),当两者混用时,方正的字与中易宋体的字不在一个基线上,会有下沉的感觉,再加上笔画粗细之别,你会一眼就能从页面上认出哪些字是方正的,哪些字是中易的。这对追求出版物美观的人而言,是不易接受的。因此,出版物正文的用字量在七万字以内的,应尽量保持使用同一系列的字库。
超出七万的,在此提出三个建议,仅供参考。
一是用方正楷体的超大字符集(如果你不介意出版物的正文采用楷体的话),直接可排八万多字;如果你会借用TW-KAI的PLUS和HZCDP中的一些字,排版能力就会达到九万多了。在此说一下,方正楷体超大字符集与TW-KAI的基线基本一致。而与HZCDP的不同。
二是用中易的宋体及其扩展B、扩展C、扩展D。再借用文字镜、GT等的一部分字,排版能力就会达到12万以上。这样的配合,整体上其基线较为一致,就美观多了。
三是用花园明朝的基本字集和扩展A、B、C、D。这样的配合,整体上其基线一致。排版能力可达八万五千多汉字。
在现实中,许多人除了不注意以上的区别外,还在正文中用“图片字”代替现有字库中已收录的字,这是没有掌握正确的录入方法所致,是不足取的。对于基线不甚一致的处理,方法很多,比如修改字库,或者在编辑软件中加以控制等。
扩展D之外的汉字依然很多。它们在汉字研究、文献整理和平面出版中无疑会被使用。
大汉字工作室全面致力于扩展D之后汉字的收集、整理和配套字库的制作,力求对汉字研究、文献整理和平面出版提供参考。大汉字工作室依据IRG公布的ExtE汉字收录草案V7.0,参考有关资料和笔画部件,于2012年2月29日全面完成了CJK-E汉字V1.0字库的制作,并投入试用。2012年4月21日已在几个大的论坛发布。可以作为CJK-E汉字正式商用字库问世之前供交流、讨论、打印的代用品。
1.收字:完整收录IRG公布的ExtE汉字草案V7.0中的5961字。并附中国方面提议删除的134字。
2.编码:IRG公布的ExtE汉字V7.0为草案,每个汉字均无编码。大汉字工作室CJK-E汉字V1.0字库暂将5961个汉字分别映射在Supplementary Private Use Area-B的100000—101748共5961个码位中;中国方面提议删除的134字分别映射在Supplementary Private Use Area-B的101749—1017CE共134个码位中,以期正常使用。待正式方案公布后,再增减汉字、更改编码。
3.格式:True Type (公开)和Open Type。
4.字形:IRG公布的ExtE汉字收录草案V7.0新旧字形兼有,大汉字工作室CJK-E汉字V1.0字库亦同。
5.禁则:禁止商业利用。禁止移植、修改、编译到其他字库中。
6.录入:大汉字工作室发布时提供编码以及全部汉字资料,供参考。同时选择个别公益性输入法授权编入,并提供字库支持。
7.修改:根据IRG未来修订稿及正式版,大汉字工作室及时修订CJK-E汉字库V1.0字库。
8.鸣谢:制作中参考、使用了IRG的CJK E V7.0 M Set,GlyphWiki的PNG图像资料,以及有关字库的笔画部件。一并深表谢意。
9.免责:大汉字工作室CJK-E汉字V1.0字库属自用品、非卖品。它不保证适用于各种操作系统和文字处理软件,制作者不对任何因使用它而产生的损失承担责任。
10.资料:提供资料及编码。
(1)CJK-E汉字库V1.0收录汉字.ceb:由方正书版2008专业版生成,可用方正Apabi Reader 4.0简体中文版阅读。
(2)CJK-E汉字库V1.0收录汉字.PDF:由方正PDF Creator V3.0生成,可用方正Apabi Reader 4.0简体中文版,或者其他各种PDF阅读器阅读。
(3)CJK-E汉字库V1.0收录汉字.PNG:由DjvuToy V1.20生成,可用Windows图片观查器,或其他图形处理器查看。
(4)CJK-E汉字库V1.0收录汉字.djvu:由DjvuToy V1.20生成,可用各种Djvu阅读器阅读。
(5)CJK-E汉字库V1.0收录汉字.doc:安装CJK-E汉字库V1.0目录中的字库后,可用WORD查看,复制。
(6)CJK-E汉字库V1.0收录汉字.txt:安装CJK-E汉字库V1.0目录中的字库后,可用写字板查看,复制。