好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

中科院自动化所评测技术报告(SYSTEMII).ppt

17页
  • 卖家[上传人]:宝路
  • 文档编号:48245327
  • 上传时间:2018-07-12
  • 文档格式:PPT
  • 文档大小:290.86KB
  • / 17 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • CASIA中科院自动化所评测技术报 告(SYSTEM II)魏玮 于东 王韦华 宗成庆 徐波内容概要v技术说明与参评系统 § 短语系统 § 分层短语系统 § 基于依存树到串系统 § 前后处理 § 系统融合 § CASIA_SYSTEM II英中翻译系统 v评测环境概要 v数据 v总结技术说明-短语系统v典型的短语系统[2] v非单调解码,任意跳转 v对数线性模型 v10个特征 § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 扭曲概率 § 句子长度惩罚 § 短语惩罚 § 方向概率[3] § IBM扭曲模型[4]技术说明-分层短语系统v主要借鉴了Wei[5]的基本思想,引入分层短语 的概念 v有效地结合了短语模型和同步上下文无关文法 v分层短语模型将语序信息包含在模型之中,克 服了传统短语翻译的调序问题 v沿用了统计线性对数方法进行概率计算,使用 了如下6个特征: § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 句子长度惩罚技术说明-依存树到串系统v 在源语言端运用依存结构进行统计翻译的新模型: Dependency-String Structure Model (DSS模型) v 由于计算资源和时间的限制,参加本次评测的系统仍然 沿用和分层短语相同的文法 v DSS解码算法的输入是一棵树,而不是一个串,所以线 图是按照树节点来索引的,而不是按照串中的跨距 (span)来建立索引的 v 解码时使用了8个特征,最后两个为依存子树的惩罚 § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 句子长度惩罚 § 符合依存子树惩罚 § 不符合依存子树惩罚技术说明-前后处理v前处理 § 时间,数字处理模块 § 地名,人名,机构名处理模块 § 英文转化为小写 § 预处理 • 乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的 句子) • 标点符号及数字变换(中文中的部分标点符号、英文中的双 字节符号及数字) • 英文缩写处理 • 中文分词、英文Tokenization v后处理 § 大小写转换:未翻译词保留其原始格式 § 格式转换:去除中文中的空格 § 未登录词技术说明-系统融合[6][7]技术说明-外部技术v汉语分词工具:计算所开发的ICTCLAS3.0v双语词对齐工具:GIZA++v语言模型训练工具:SRILM工具包v英文词性标注工具:Stanford Log-linear Part-Of-Speech Taggerv英文依存树分析工具:Minimum-Spanning Tree Parser (MSTparser)参评系统-CASIA_SYSTEM II评测环境概要v软硬件环境v运行时间(约4000句测试集)运行平台操作系统数量CPURAM PC机Windows 20032Pentium 4, 3.0G2.0G服务器Linux (Ubuntu)1Xeon 2.0×216.0G系统新闻领域 (小时)科技领域 (小时)短语系统16分层短语2018依存树到串1816数据v开发数据: § 新闻-2007 SSMT英中翻译测试集 § 科技-CWMT08提供的Special语料中随机挑选200句 v翻译模型训练数据: § 新闻-CWMT08提供的Common,约85万句对和; NIST MT08评测提供语料,大约670万句对 § 科技- CWMT08提供的Special部分语料,约52万句 对; NIST MT08评测提供语料,大约670万句对 v语言模型训练数据: § LDC2007T38提供的Chinese Gigaword Third Edition,约3900万句数据过滤v过滤的原则:根据LDC语料中的当前句对中的 所有词汇是否在发布的训练语料词汇集合中(周 玉) v新闻领域 § 将NIST语料根据新闻任务发布的训练语料进行过滤 § 翻译模型最后使用的语料为538万句对 v科技领域 § 将NIST语料根据科技任务发布的训练语料进行过滤 的 § 翻译模型最后使用的语料为468万句对 § 语言模型也同样使用了过滤技术,最后过滤剩余1000 万句测试结果v新闻领域§ 采用基于MBR解码和混淆网络解码的多系统 融合策略,融合6个结果 § 3个来自于基于分层短语的翻译系统(HPB) § 3个来自于基于依存树到串的翻译系统 (DHPB)测试结果v科技领域§ 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6 个结果 § 2个来自于基于分层短语的翻译系统(HPB) § 2个来自于基于依存树到串的翻译系统(DHPB) § 2个来自于基于短语的系统 (PB)总结v新闻领域 § 借鉴了汉英评测的经验,加入了英文命名实体翻译及 前后处理模块; § 并且针对英文的特点,在解码中融入句法分析树,在 不增加时空复杂度的前提下提高了翻译质量 v科技领域 § 由于缺乏这方面的语料资源,我们只能借用新闻领域 的语料,利用数据过滤技术得到相关资源 § 但由于在选取开发集时,其规模和相关性受到制约, 所以最后的参数训练并不能有效得收敛到最优 § 如何能够充分利用有限的资源,开发出更加鲁棒的训 练及解码算法,是我们下一步要思考的问题参考文献[1] 中科院自动化所评测技术报告(SYSTEM II),第四届机器翻译研 讨会,2008 [2] Wei Wei, Wei Pang, Zhendong Yang, Zhenbiao Chen, Chengqing Zong, Bo Xu. CASIA SMT System for TC-STAR Evaluation Campaign 2006. In: TC-STAR workshop, 2006. [3] Yaser Al-Onaizan, Kishore Papineni. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL ACL '06 [4] Philipp Koehn, et al. Edinburgh System Description for the 2005 IWSLT Speech Translation Evaluation, International Workshop on Spoken Language Translation 2005. [5] 魏玮,杜金华,徐波,基于组块分析的分层短语系统,第九届计 算语言学年会,2007 [6] K.C. Sim, W. Byrne, M. Gales, H. Sahbi and P. Woodland. Consensus Network Decoding For Statistical Machine Translation System [A]. In: ICASSP, 2007. [7] 杜金华,魏玮,杨振东,徐波. 基于混淆网络的统计机器翻译多系统 融合技术研究. 第三届统计机器翻译研讨会, 2007.CASIA谢 谢。

      点击阅读更多内容
      相关文档
      精彩瞬间课件 2024——2025学年人教版(2024)初中美术七年级下册.pptx 【课件】垂线—.垂线段与点到直线的距离 课件湘教版数学七年级下册.pptx 【公开课】《数轴、相反数和绝对值》+第2课时++相反数课件沪科版数学七年级上册.pptx 2024—2025学年统编版高一语文写作素材整理:议论文写作素材+.pptx 2024秋新华师大版数学7年级上册教学课件 4.1 相交线 4.1.1 对顶角.pptx 2024秋新华师大版数学7年级上册课件 2.3 整式 2.3.3 升幂排列和降幂排列.pptx 2024秋新北师大版数学7年级上册教学课件 2 有理数的加减运算 第5课时 有理数的加减混合运算的应用.pptx 2024秋新北师大版数学7年级上册课件 3 1元1次方程的应用 第2课时 盈不足问题.pptx 2024秋新北师大版数学7年级上册教学课件 3.1 第2课时 代数式.pptx 2024秋新华师大版数学7年级上册教学课件 4.2 平行线 4.2.1 平行线.pptx 2024秋新北师大版数学7年级上册课件 3 多边形和圆的初步认识.pptx 2024秋新北师大版数学7年级上册课件 2 1元1次方程的解法 第4课时 1元1次方程的解法——去分母.pptx 2024秋新北师大版数学7年级上册课件 2 有理数的加减运算 第1课时 有理数的加法法则.pptx 2024秋新外研版英语1年级上册教学课件 Module 5 Unit 1.pptx 2024秋新北师大版物理8年级上册课件 第5章 透镜及其应用 整理与复习.pptx 2024秋新华师大版数学7年级上册课件 1.10 有理数的除法.pptx 2024秋新北师大版数学7年级上册课件 2 1元1次方程的解法 第3课时 1元1次方程的解法——去括号.pptx 2024秋新北师大版生物7年级上册课件 3.1 细胞的基本结构和功能(第1课时 光学显微镜的使用).pptx 2024秋新华师大版数学7年级上册课件 1.4 绝对值.pptx 2024秋新华师大版数学7年级上册课件 3.1 生活中的立体图形.pptx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.