
中科院自动化所评测技术报告(SYSTEMII).ppt
17页CASIA中科院自动化所评测技术报 告(SYSTEM II)魏玮 于东 王韦华 宗成庆 徐波内容概要v技术说明与参评系统 § 短语系统 § 分层短语系统 § 基于依存树到串系统 § 前后处理 § 系统融合 § CASIA_SYSTEM II英中翻译系统 v评测环境概要 v数据 v总结技术说明-短语系统v典型的短语系统[2] v非单调解码,任意跳转 v对数线性模型 v10个特征 § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 扭曲概率 § 句子长度惩罚 § 短语惩罚 § 方向概率[3] § IBM扭曲模型[4]技术说明-分层短语系统v主要借鉴了Wei[5]的基本思想,引入分层短语 的概念 v有效地结合了短语模型和同步上下文无关文法 v分层短语模型将语序信息包含在模型之中,克 服了传统短语翻译的调序问题 v沿用了统计线性对数方法进行概率计算,使用 了如下6个特征: § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 句子长度惩罚技术说明-依存树到串系统v 在源语言端运用依存结构进行统计翻译的新模型: Dependency-String Structure Model (DSS模型) v 由于计算资源和时间的限制,参加本次评测的系统仍然 沿用和分层短语相同的文法 v DSS解码算法的输入是一棵树,而不是一个串,所以线 图是按照树节点来索引的,而不是按照串中的跨距 (span)来建立索引的 v 解码时使用了8个特征,最后两个为依存子树的惩罚 § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 句子长度惩罚 § 符合依存子树惩罚 § 不符合依存子树惩罚技术说明-前后处理v前处理 § 时间,数字处理模块 § 地名,人名,机构名处理模块 § 英文转化为小写 § 预处理 • 乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的 句子) • 标点符号及数字变换(中文中的部分标点符号、英文中的双 字节符号及数字) • 英文缩写处理 • 中文分词、英文Tokenization v后处理 § 大小写转换:未翻译词保留其原始格式 § 格式转换:去除中文中的空格 § 未登录词技术说明-系统融合[6][7]技术说明-外部技术v汉语分词工具:计算所开发的ICTCLAS3.0v双语词对齐工具:GIZA++v语言模型训练工具:SRILM工具包v英文词性标注工具:Stanford Log-linear Part-Of-Speech Taggerv英文依存树分析工具:Minimum-Spanning Tree Parser (MSTparser)参评系统-CASIA_SYSTEM II评测环境概要v软硬件环境v运行时间(约4000句测试集)运行平台操作系统数量CPURAM PC机Windows 20032Pentium 4, 3.0G2.0G服务器Linux (Ubuntu)1Xeon 2.0×216.0G系统新闻领域 (小时)科技领域 (小时)短语系统16分层短语2018依存树到串1816数据v开发数据: § 新闻-2007 SSMT英中翻译测试集 § 科技-CWMT08提供的Special语料中随机挑选200句 v翻译模型训练数据: § 新闻-CWMT08提供的Common,约85万句对和; NIST MT08评测提供语料,大约670万句对 § 科技- CWMT08提供的Special部分语料,约52万句 对; NIST MT08评测提供语料,大约670万句对 v语言模型训练数据: § LDC2007T38提供的Chinese Gigaword Third Edition,约3900万句数据过滤v过滤的原则:根据LDC语料中的当前句对中的 所有词汇是否在发布的训练语料词汇集合中(周 玉) v新闻领域 § 将NIST语料根据新闻任务发布的训练语料进行过滤 § 翻译模型最后使用的语料为538万句对 v科技领域 § 将NIST语料根据科技任务发布的训练语料进行过滤 的 § 翻译模型最后使用的语料为468万句对 § 语言模型也同样使用了过滤技术,最后过滤剩余1000 万句测试结果v新闻领域§ 采用基于MBR解码和混淆网络解码的多系统 融合策略,融合6个结果 § 3个来自于基于分层短语的翻译系统(HPB) § 3个来自于基于依存树到串的翻译系统 (DHPB)测试结果v科技领域§ 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6 个结果 § 2个来自于基于分层短语的翻译系统(HPB) § 2个来自于基于依存树到串的翻译系统(DHPB) § 2个来自于基于短语的系统 (PB)总结v新闻领域 § 借鉴了汉英评测的经验,加入了英文命名实体翻译及 前后处理模块; § 并且针对英文的特点,在解码中融入句法分析树,在 不增加时空复杂度的前提下提高了翻译质量 v科技领域 § 由于缺乏这方面的语料资源,我们只能借用新闻领域 的语料,利用数据过滤技术得到相关资源 § 但由于在选取开发集时,其规模和相关性受到制约, 所以最后的参数训练并不能有效得收敛到最优 § 如何能够充分利用有限的资源,开发出更加鲁棒的训 练及解码算法,是我们下一步要思考的问题参考文献[1] 中科院自动化所评测技术报告(SYSTEM II),第四届机器翻译研 讨会,2008 [2] Wei Wei, Wei Pang, Zhendong Yang, Zhenbiao Chen, Chengqing Zong, Bo Xu. CASIA SMT System for TC-STAR Evaluation Campaign 2006. In: TC-STAR workshop, 2006. [3] Yaser Al-Onaizan, Kishore Papineni. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL ACL '06 [4] Philipp Koehn, et al. Edinburgh System Description for the 2005 IWSLT Speech Translation Evaluation, International Workshop on Spoken Language Translation 2005. [5] 魏玮,杜金华,徐波,基于组块分析的分层短语系统,第九届计 算语言学年会,2007 [6] K.C. Sim, W. Byrne, M. Gales, H. Sahbi and P. Woodland. Consensus Network Decoding For Statistical Machine Translation System [A]. In: ICASSP, 2007. [7] 杜金华,魏玮,杨振东,徐波. 基于混淆网络的统计机器翻译多系统 融合技术研究. 第三届统计机器翻译研讨会, 2007.CASIA谢 谢。












