好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

汉字简繁转换的复杂性和陷阱.doc

25页
  • 卖家[上传人]:宝路
  • 文档编号:3973021
  • 上传时间:2017-08-13
  • 文档格式:DOC
  • 文档大小:255KB
  • / 25 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1 -The Pitfalls and Complexities of Chinese to Chinese Conversion汉字简繁转换的复杂性和陷阱漢字簡繁轉換的複雜性和陷阱春遍雀来 (Jack Halpern)日中韓辭典研究所 所长華留萬陽貳 (Jouni Kerman)日中韓辭典刊行會软件开发总工程师目录0. 摘要1. 序2. 转换的四级3. 讨论和分析4. 转换的新技术鸣谢参考材料附录作者介绍日中韓辭典研究所( 株 ) 日 中 韓 辭 典 研 究 所The CJK Dictionary Institute, Inc.〒352-0001   日本国埼玉県新座市東北 2-34-14 小峰ビル 3・4F:048-473-3508 Fax:048-486-5032E-mail:jack@cjk.org 网址 :http://www.kanji.org- 2 -汉字简繁转换的复杂性和陷阱春遍雀来,日中韓辭典研究所 所长華留萬陽貳,日中韓辭典刊行會软件开发总工程师0. 摘要汉语有两种书面形式:中华人民共和国和新加坡使用的简体中文,和台湾、香港、澳门以及大多数海外华人使用的繁体中文。

      但是存在一种常见的误解,认为这两个体系之间具有直接的对应关系,相互转换只需要从一个字符集对应到另一个字符集就可以了,例如从国标码(GB2312-80)转换到大五码(Big5)虽然很多代码转换工具实现了这种转换,但事实却是截然相反的这两种体系在不同级别上都存在重要的差异,不论是字符集,编码,拼写法(字的选择),词汇(词的选择),还是语义(词义),都有着显著的差别随着东亚在世界经济里的地位日益重要,地方化公司和翻译公司都有着对中文简繁体转换的迫切需求,但也必须克服以下障碍:(1)现有的转换工具产生的结果不能令人满意;(2)缺乏发展好的转换工具所需的知识;(3)无法得到高质量数据的字典;(4)手工转换费用太高1996年, 日中韓辭典研究所(The CJK Dictionary Institute, Inc.)开始深入调查这些问题,并建立了一个总括了中文简繁互转的数据库(300万条,且仍在发展中),其目的是要使转换软件的准确性接近百分之百.这篇论文解释了涉及的复杂问题,并展示这项基于Unicode的新技术将如何大大减少中文地方化和翻译项目的时间和费用1. 序1.1 历史背景汉字在它几千年的历史中经历了许多变迁。

      很多书法风格,异体字,和字体设计都有逐步的演变有些完整的,复杂的字体被提升为“正字”,而那些令人眼花缭乱、泛滥成灾的变体则往往被降级为“俗字”在中华人民共和国于1949年成立后不久,新政权就发起了一场积极的运动,贯彻大规模的书面语改革在五十年代,毛泽东和周恩来提出了简化汉字是一项应该优先完成的任务1952年成立的语言改革委员会开始深入研究这一问题,并从事编纂简化字表的任务这些行动导致了许多书面语的改革,最重要的有:建立了一套标准化的罗马字系统(拼音),限制日常用字的数量,以及大大地简化了数以千计的字形一度,这项运动的目的是完全废除汉字,以罗马字母表代之,但后来还是倾向于使用简化字形而放弃了这项政策随后几年出版了几种简化字表,其中最著名的是1964年出版的“权威”简化字总表,之后又重新发行了几次并作了次要的修改最新版本是1986年出版的,收录了2244个简体字[简体字总表 1986] 3 -台湾、香港和多数海外华人没有实行简化尤其是台湾,还在严格地遵循着繁体的形式台湾教育部出版了几种字符表,例如有4808个字的“常用國字標準字體表”,作为正确字形的标准1.2 简体与繁体中文虽然简体与繁体中文的最大区别在于字形,我们将会看到两者之间还有字符集、编码方式和词汇选择方面的差异。

      从实用角度来说,简体中文一词通常指满足以下条件的中文文本:1.字形:简体中文必须是用简体的字形书写的(除非不存在简体的形式)2.字符集:简体中文通常使用国标码字符集,或其扩充版本,国家标准扩展码(GBK)3.编码:简体中文通常将国标码编为EUC-CN或用于互联网传送数据的HZ的文本4.词汇用法:词汇的选择采用中国大陆的用法与此类似,繁体中文一词一般指满足以下条件的中文文本:1.字形:繁体中文必须是用繁体的字形书写的2.字符集:繁体中文通常使用大五码字符集3.编码:繁体中文通常编为大五码4.词汇用法:词汇的选择采用台湾或香港的用法以上只有第一条是必要条件简体”中文的定义决定它不能用繁体的字形书写,除非一个繁体字形不存在对应的简体形式同样,“繁体”中文除了某些次要的例外情况(如某些专有名词)之外必须不能以简体字形书写字符集和编码方式的限制要小一些,下面1.4节会讨论这一点词汇的用法上也有一些变化例如台湾文本可能会包括某些中华人民共和国式的词汇,而新加坡的文本可能会采用台湾而不是大陆的计算机术语尽管如此,总的来说简体中文和繁体中文两词的用法如上文所述1.3 问题本质中华人民共和国的语言改革对书面汉语产生了重大影响。

      从处理中文数据的角度出发,最相关的问题有以下几个:1. 许多字形经过了较大的简化,以至无法辨认它们的繁体形式例如,繁体中文中的徵变为简体中文中的征2. 在很多情况下,一个简体字与多个繁体字对应(相反的情况较为少见),例如简体中文的征与繁体中文的徵和征对应根据上下文意思,通常只有一个是对的3. 有时一个简体字与多个繁体字对应,根据上下文意思, 每个 对应的繁体都可能是对的4. 简体中文使用的国标码标准与繁体中文使用的大五码标准互不相容,因此双方都- 4 -产生了无数的漏字上述的第二条是中文简繁转换的关键问题,也是这篇文章的重点在对此的讨论中采用的“经典”例子是繁体字發和髮从词源学来看它们是两个不同的字,被合并成了一个简体字发下表展示了这个以及其它一个简体字对应到多个繁体字的例子表1:简繁一对多的对应简体源字 繁体标字 语义 繁体例子发 fā 發 Emit 出發 start off发 fà 髮 Hair 頭髮 hair干 gān 乾 Dry 乾燥 dry干 gàn 幹 Trunk 精幹 able, strong干 gān 干 Intervene 干渉 interfere with干 gàn 榦 tree trunk 楨榦 central figure面 miàn 麵 Noodles 湯麵 noodle soup面 miàn 面 Face 面具 mask后 hòu 後 After 後天 day after tomorrow后 hòu 后 Queen 王后 queen如上所示,成功地把这些简体字转换为对应的繁体字取决于它们的上下文,尤其是它们所在的词。

      转换往往不能仅从一个码点对应到另一个码点,而是必须建立在更大的语言单位上,比如词除上表之外,数以百计的其它简体字也与多个繁体字对应,产生了语义不清的以一对多的对应,只有上下文能决定它们的关系在这篇文章里,这些对应被称为多字体的对应,因为一个简体字——或 书写单位 ——可能会与多个的繁体字对应,而相反情况也成立1.4 字符集和编码这篇文章主旨不是对中文字符集和编码方法进行深入的讨论小林剑(Ken Lunde)的重要著作 CJKV Information Processing 有对此的讨论[Lunde 1999]这一节只简单地概括一些重要问题,因为我们的主要目的是论述更高一级的语言学问题简体中文通常使用国标码字符集,或其扩充版本国家标准扩展码,并通常被编为EUC-CN在互联网上传送数据时,它常常被编为HZ,或是更早的zW繁体中文通常被编为大五码,有时也被编为基于台湾家标准(Chinese National Standard) CNS 11643-1992字符集上的EUC-TW在日本,有些文字处理系统通过JIS X 0208:1997字符集及其附加部分处理中文字符同样,也可以把中文编为韩国的KS X 1001:1992字符集。

      但是,这两种情况都没有足够的简体或繁体中文字供日常中文之用此外还有用来编辑中文的字符集CCCII(仍在使用的台湾早期标准),可见情况的复杂程度从简繁码转换的角度出发,一个重要问题是国标码和大五码互不相容前者包括了6763个- 5 -字,而后者有13053个字国标码大约三分之一的字是大五码里没有的简体字这一点导致了双方的许多漏字现象,如下表所示表2:国标码和大五码的不相容性汉字 国标码(EUC) 大五码 Unicode頭 * C059 982D發 * B56F 767C計 * AD70 8A08头 CDB7 * 5934发 B7A2 * 53D1计 BCC6 * 8BA1干 B8C9 A47A 5E72里 C0EF A8BD 91CC简繁互转中的困难并不仅限于国标码和大五码字符集其实,大五码只包括了繁体字的一个子集出乎意料的是,国标码也不包括某些简体字,如下表所示表3:国标码和大五码中没有的简繁对应 简体Unicode 简体源字 繁体标字 繁体Unicode7EBB 纻 紵 7D358BEA 诪 譸 8B788D51 赑 贔 8D1494D4 铔 錏 930F9613 阓 闠 95E098CF 飏 颺 98BA9978 饸 餄 99049A89 骉 驫 9A6B9C97 鲗 鰂 9C029E40 鹀 鵐 9D50国际标准ISO-2022:1994[ISO 1994]试图建立一个紧缩字编码系统来处理这些不相容的问题,用逸出顺序机构表示字符集之间的转换,但这并没有完全解决这一问题。

      国际标准字符集Unicode/ISO 10646解决了许多与简繁码互转有关的问题[Unicode 1996] 因为Unicode是这两种标准的超大集,在允许Unicode的系统里可以表现所有的大五码和国标码的码点,并在同一个文件中展示它们这大大简化了简繁在码点一级的互转尽管还有一些问题需要处理(例如现有版本排除了许多字[Meyer 1998]),Unicode有效地解决了大五码和国标码字符集之间不相容而导致的问题 6 -2. 转换的四级自动把简体中文转换为繁体中文的过程(在一定程度上,从繁体中文到简体中文也是如此)潜在着许多复杂问题和常见错误这个转换是从容易引起无数错误的一级码对转换开始,直到会参考语义和句法的四级语境转换,通过这从浅入深的四级转换方法进行处理,以期达到近乎完美的效果下表描述了每一级表4:转换的四级 一级 码对的 字对字, 码 基础上的替换 二级 字对的 词对词, 词 基础上的转换 三级 词对的 词对词, 词汇 基础上的转换 四级 语境的 词对词, 语境 基础上的翻译 2.1 一级:码对转换2.1.1 基本概念最简单但也是最不可靠的简繁或繁简转换的方法是在码点对码点的基础上进行转换;就是说,在硬编码的,一对一的对应表里找到源点,然后用另一个字符集(例如大五码0xB0EA的繁体國)的标码点取代这个字符集的一个源码点(例如国标码(EUC)0xB9FA的简体国),进行简单的替换。

      这种转换可被描述为字对字, 码 基础上的替换,又称码对转换,因为参与转换过程的单位仅限于单个码点也就是说,文本没有被分解为更高级的语言单位,而是作为互不相关的多字节字的一序列编码值被进行处理以下是一个一对一的编码对应例表表5:编码对应表 简体源字 国标码(EUC) 繁体标字 大五码 省略的候选项出 B3F6 出 A558 齣发 B7A2 發 B56F 髮干 B8C9 幹 A47A 乾 干 榦暗 B0B5 暗 B774 闇里 C0EF 裡 B8CC 里 裏征 D5F7 徵 BC78 征门 C3C5 門 AAF9汤 CCC0 湯 B4F6- 7 -由于这种表把每个源字只对应到一个标字,其它有可能的候选项就被忽略了(见“省略的候选项”一栏),经常导致错误的转换例如,一个简体的字符串“头发”不是作为一个单位处理,而是被逐字转换。

      点击阅读更多内容
      相关文档
      高一历史上学期期末考前必刷卷统编版03考试版A4含答案.docx 高中英语考试各题型突破攻略听力篇高一高二高三的都要看.docx 高一历史上学期期末考前必刷卷统编版01考试版A3含答案.docx 高中英语考试各题型突破攻略语法填空篇高一高二高三的都要看.docx 高一历史上学期期末考前必刷卷统编版02考试版A3含答案.docx 高中英语考试各题型突破攻略完形填空篇高一高二高三的都要看.docx 高中英语考试各题型突破攻略作文篇高一高二高三的都要看.docx 高考政治如何规范化答题?.docx 高一历史上学期期末考前必刷卷统编版03考试版A3含答案.docx 高一历史上学期期末考前必刷卷统编版02考试版A4含答案.docx 高一历史上学期期末测试卷01统编版中外历史纲要上129课含答案.docx 日历表2028年日历中文版纵向排版周一开始带周数带农历带节假日调休安排1.docx 日历表2028年日历中文版横向排版周一开始带农历带节假日调休安排1.docx 八年级数学北师大版上册课时练第7章《3 平行线的判定》含答案解析.docx 日历表2029年日历中文版横向排版周一开始带周数带农历带节假日调休安排1.docx 日历表2028年日历中文版纵向排版周一开始带周数带农历.docx 人教版二年级数学下册同步测试-有余数的除法含答案解析3含答案.docx 日历表2028年日历中文版横向排版周一开始带农历1.docx 人教版二年级数学下册同步测试-总复习含答案解析-人教新课标含答案.docx 日历表2028年日历中文版横向排版周一开始带周数带农历1.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.