
语料预处理对蒙古文-汉文统计机器翻译的影响.doc
17页语料预处理对蒙古文-汉文统计机器翻译的影响 李金廷 侯宏旭 武静 王洪彬 樊文婷 内蒙古大学计算机学院 摘 要: 传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法, 该方法会丢掉蒙古文词缀所包含的大量语义信息蒙古文词缀中包含大量格的附加成分, 主要表征句子的结构特征, 对其进行切分并不会影响词汇的语义特征, 若不进行预处理则会造成严重的数据稀疏问题, 从而影响翻译质量因此, 基于现有理论对语料预处理方法进行总结研究, 重点研究了蒙古文格处理对翻译结果的影响, 目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量通过优化预处理方法, 使机器翻译结果的 BLEU 得分相比基线系统 1 提高了 3.22 个点关键词: 统计机器翻译; 语料预处理; 蒙古文形态分析; 格处理; 拉丁转写; 中文分词; 作者简介:李金廷 (1994-) , 男, 硕士生, 主要研究方向为自然语言处理;E-mail:justin_63@;作者简介:侯宏旭 (1972-) , 男, 博士, 教授, 主要研究方向为自然语言处理、信息检索;E-mail:cshhx@ (通信作者) ;作者简介:武静 (1989-) , 女, 博士生, 主要研究方向为自然语言处理;E-mail:wu-jingyaya@;作者简介:王洪彬 (1989-) , 男, 硕士生, 主要研究方向为自然语言处理;E-mail:whongbin@;作者简介:樊文婷 (1992-) , 女, 硕士生, 主要研究方向为自然语言处理, E-mail:1583679655@.com。
基金:国家自然科学基金项目:跨汉斯拉夫蒙古文的信息检索关键技术研究 (61362028) Effect of Preprocessing on Corpus of Mongolian-Chinese Statistical Machine TranslationLI Jin-ting HOU Hong-xu WU Jing WANG Hong-bin FAN Wen-ting College of Computer Science, Inner Mongolia University; Abstract: The traditional methods of morphology preprocessing use Mongolian suffix segmentation and stemming, which leads to semantic loss of the words.The additional components of Case is a special additional component of the Mongolian word suffix which only represents the syntactic information of the sentence but not the semantic information of the words.Inappropriate preprocessing of the Case causes data sparsity to the machine translation training.Therefore, we summarized and researched the existing corpus preprocessing method of Mongolian morphology to compare the results.Our methods mainly focus on the effect of Case processing and improve the performance of Mongolian-Chinese SMT system of 3.22 relative BLEU score compared to the baseline system.Keyword: Statistical machine translation; Corpus preprocessing; Mongolian morphological analysis; Case processing; Latinization; Chinese word segmentation; 自 21 世纪以来, 人工智能领域不断取得新进展, 自然语言处理作为人工智能领域的重要研究方向, 也取得了较大突破。
二十世纪七八十年代学者们开始研究蒙古文-汉文统计机器翻译, 并不断提出新的理论和方法, 使得蒙古文-汉文翻译的准确率得到不断的提升, 其中对语料的预处理是蒙古文-汉文统计机器翻译的基础, 也是能否取得高质量翻译结果的关键世界上许多语言的词存在多种变化形式, 词型的变化是一个语法过程, 对语义的影响[1]较小蒙古文是粘着性语言, 它的构词和构形都是以词根、词干上连接不同词尾来完成的[2], 因此蒙古文词较丰富, 形态构成复杂, 蒙古文形态分析是预处理的关键在蒙古文语料形态分析方面的现有技术主要有词缀的切分以及词干的提取, 但蒙古文中存在大量格的附加成分, 对其进行处理可以缓解数据稀疏问题, 提高翻译质量本文采用并进行分析的蒙古文预处理方法有:词缀切分、词干提取、格的附加成分的切分和去除以及拉丁转写在词缀切分方面, 对蒙古文切掉词缀之后, 采用只提取词干、提取词干并保留一个词缀和提取词干并保留两个词缀 3 种不同处理方法来进行比较分析 b 在格的附加成分处理方面, 采用切分但保留格的附加成分、切分不保留格的附加成分两种方法来进行比较分析为了便于处理蒙古文, 一般采用拉丁文转写的蒙古文语料本文采用的转拉丁方法还对蒙古文编码的错误进行了简单的校对;在中文处理方面采用了基于字和基于词两种粒度的切分方式。
我们对双语语料分别进行预处理, 组合出具有代表性的 20 组语料, 分别使用 Moses 进行蒙古文-汉文统计机器翻译实验, 最终将各组语料的翻译结果进行对比本文将蒙古文原始语料 (未经过任何处理的蒙古文语料) 与按词切分的汉文语料作为基线系统 1, 将蒙古文原始语料与按字切分的汉文语料作为基线系统 2将蒙古文进行处理后分别与按词和按字两种不同粒度切分的汉文组成的两组平行双语语料的实验结果分别比基线系统 1 和基线系统 2 的实验结果提高了 0.78 和 0.38 个 BLEU 点;将蒙古文进行格处理再进行拉丁转写之后分别与按词和按字两种不同粒度切分的汉文组成的两组平行双语语料的实验结果分别比基线系统 1 和基线系统 2 提高了 2.5 和 2.04 个 BLEU点;此外, 由于语料规模较小, 词缀切分方法中对格处理的不完善等因素导致词干的提取造成了严重的数据稀疏问题采用蒙古文词干与按词和按字两种不同粒度切分的汉文组成的两组平行双语语料的实验结果比基线系统 1 和基线系统2 分别提高了 0.4 和 0.17 个 BLEU 点;经过格处理和拉丁转写之后的蒙古文词干语料与按词和按字两种不同粒度切分的汉文组成的两组平行双语语料的实验结果分别比基线系统 1 和基线系统 2 提高了 0.5 和 0.43 个 BLEU 点。
其中进行格处理再进行拉丁转写的蒙古文与按字切分的汉文组成的语料的实验结果比基线系统 1 提高了 3.22 个 BLEU 点, 是蒙古文汉文统计机器翻译语料预处理最为有效的处理方法本文第 1 节主要介绍蒙古文语料方面的形态分析, 包括词缀的切分、词干的提取、格处理与拉丁转写;第 2 节将介绍汉文语料预处理的相关工作;第 3 节主要分析对比实验结果, 通过实验数据验证所提理论的优越性, 并对实验中的问题进行分析和解决;最后总结全文1 蒙古文形态分析1.1 蒙古文词切分蒙古文是粘着性语言, 它的构词和构形均是通过在词根、词干上连接不同词尾来完成的每个词的构成和其语法意义的表示都依赖于不同词尾的缀接, 因此只有正确切分词根、词干和词尾才能揭示其词类属性和语法关系[2]图 1 所示为中文中“油”在蒙古文中通过连接不同的词缀来表达不同的词性图 1 蒙古文词干和构词附加成分 下载原图1.2 词干的提取词干提取是一种将变体词形式映射到其基本形式的过程它是在语言建模、自然语言处理和信息检索应用程序中使用的基本文本预处理方法之一[3]蒙古文词形态丰富, 其中包含很多变体词, 对语料进行词干提取是蒙古文语料预处理的关键技术之一[4]。
通过对前人工作的总结 (其中包括那顺乌日图等人[2]提出的蒙古文词根、词干、词尾的自动切分;侯宏旭等人[5]提出的基于统计语言模型的蒙古文词切分;赵伟等人[6]提出的基于条件随机场的蒙古文词切分;明玉等人[7]提出的基于词典、规则与统计的词切分等方法) 以及对实验结果的分析, 最终选择基于词典、规则与统计的词切分的方法对本研究领域的语料进行词切分, 之后将切分后的语料进行词干的提取图 2 给出了处理的蒙古文句子图 2 对蒙古文句子进行词缀的切分和词干的提取的示例 下载原图明玉等人提出的方法在词干提取的过程中并未对格的附加成分进行处理由于统计机器翻译的过程中蒙古文空格被识别为空格, 使得格的附加成分与词干分离, 单独形成了一个或多个词, 从而造成了严重的数据稀疏问题我们对语料中的词和词干进行频率分析, 由于拉丁转写可以纠正一定的语料错误, 因此本文均是在蒙古文语料拉丁转写的基础上进行蒙古文语料的词频分析蒙古文语料库中词和词干的频率分布如表 1 所列表 1 蒙古文词和词干的频率分布 下载原表 表 1 中的数据显示, 蒙古文词干语料中仅出现一次的词干的频率比蒙古文词语料中仅出现一次的词的频率高 11%, 数据证明经过词干提取之后的蒙古文语料存在严重的数据稀疏问题。
虽然词干的提取可以使蒙古文-汉文统计机器翻译的过程中的词对齐效果得到提升, 但是蒙古文-汉文统计机器翻译的语料规模较小, 数据稀疏问题较严重, 且词缀的去除势必会造成信息的丢失, 因此我们假设在蒙古文-汉文统计机器翻译过程中由词干的提取带来的问题将影响最终的翻译质量1.3 格处理蒙古文控制符有 7 种, 本文处理的控制符主要包括图 3 中所列举的 4 种, 我们通过编码方式来识别这 4 种控制符, 并对其进行频率的统计其中第 4 种窄宽度无间断空格又称为蒙古文空格在蒙古文语料中蒙古文空格与普通空格之间的成分被标注为格的附加成分蒙古文的词与词之间需要格的附加成分, 格的附加成分本身仅有语法意义而无语义意义蒙古文加上格的附加成分之后, 蒙古文句子才能变得通顺[1]蒙古文名词在句子中的语法成分由其后跟随的格的附加成分来决定由于主格就是名词本身, 无格的附加成分, 因此格的附加成分共有 7 类, 图 4 给出了蒙古文中的 7 类格的附加成分, 共计 13 个蒙古文名词与不同的格的附加成分之间由蒙古文空格连接充当不同的句子成分但是在统计机器翻译的过程中如果不对格的附加成分进行预处理, Moses 会将蒙古文空格识别为普通空格进行处理, 从而容易使一个蒙古文词从中间被切分开来而被识别成两个词甚至多个词。
此情况一方面会造成数据稀疏并严重影响蒙古文-汉文统计机器翻译过程中的词对齐效果, 另一方面会使蒙古文句子长度明显增长, 影响翻译质量和最终的 BLEU 测评因此, 我们认为格的附加成分预处理 (简称格处理) 是十分必要的对蒙古文语料进行格处理是本文的研究重点在包含 571075 个蒙古文词干的语料中, 4 种控制符共计出现 50518 次, 其中窄宽度无间断空格出现 49921 次, 出现频率非常高, 说明格的附加成分对实验的影响较大本文处理格的附加成分的方法主要有两种:1) 将控制符去除, 然后将。
