您所在位置：网站首页 > 中学教育 > 教学课件 > 中科院自动化所评测技术报告(SYSTEMII)

中科院自动化所评测技术报告(SYSTEMII).ppt

17页

卖家[上传人]：宝路

文档编号：48245327

上传时间：2018-07-12

文档格式：PPT

文档大小：290.86KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5金贝

下载

/ 17 举报版权申诉马上下载

文本预览

下载提示

常见问题

CASIA中科院自动化所评测技术报告(SYSTEM II)魏玮于东王韦华宗成庆徐波内容概要v技术说明与参评系统 § 短语系统 § 分层短语系统 § 基于依存树到串系统 § 前后处理 § 系统融合 § CASIA_SYSTEM II英中翻译系统 v评测环境概要 v数据 v总结技术说明-短语系统v典型的短语系统[2] v非单调解码，任意跳转 v对数线性模型 v10个特征 § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 扭曲概率 § 句子长度惩罚 § 短语惩罚 § 方向概率[3] § IBM扭曲模型[4]技术说明-分层短语系统v主要借鉴了Wei[5]的基本思想，引入分层短语的概念 v有效地结合了短语模型和同步上下文无关文法 v分层短语模型将语序信息包含在模型之中，克服了传统短语翻译的调序问题 v沿用了统计线性对数方法进行概率计算，使用了如下6个特征： § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 句子长度惩罚技术说明-依存树到串系统v 在源语言端运用依存结构进行统计翻译的新模型： Dependency-String Structure Model (DSS模型) v 由于计算资源和时间的限制，参加本次评测的系统仍然沿用和分层短语相同的文法 v DSS解码算法的输入是一棵树，而不是一个串，所以线图是按照树节点来索引的，而不是按照串中的跨距 (span)来建立索引的 v 解码时使用了8个特征，最后两个为依存子树的惩罚 § 双向短语翻译概率p(e/f)和p(f/e) § 双向词汇化概率l(e/f)和l(f/e) § 4gram语言模型 § 句子长度惩罚 § 符合依存子树惩罚 § 不符合依存子树惩罚技术说明-前后处理v前处理 § 时间，数字处理模块 § 地名，人名，机构名处理模块 § 英文转化为小写 § 预处理 • 乱码过滤（中文中的乱码、英文中的乱码以及包含中文词的句子） • 标点符号及数字变换（中文中的部分标点符号、英文中的双字节符号及数字） • 英文缩写处理 • 中文分词、英文Tokenization v后处理 § 大小写转换：未翻译词保留其原始格式 § 格式转换：去除中文中的空格 § 未登录词技术说明-系统融合[6][7]技术说明-外部技术v汉语分词工具：计算所开发的ICTCLAS3.0v双语词对齐工具：GIZA++v语言模型训练工具：SRILM工具包v英文词性标注工具：Stanford Log-linear Part-Of-Speech Taggerv英文依存树分析工具：Minimum-Spanning Tree Parser (MSTparser)参评系统-CASIA_SYSTEM II评测环境概要v软硬件环境v运行时间(约4000句测试集)运行平台操作系统数量CPURAM PC机Windows 20032Pentium 4, 3.0G2.0G服务器Linux (Ubuntu)1Xeon 2.0×216.0G系统新闻领域（小时）科技领域（小时）短语系统16分层短语2018依存树到串1816数据v开发数据： § 新闻-2007 SSMT英中翻译测试集 § 科技-CWMT08提供的Special语料中随机挑选200句 v翻译模型训练数据： § 新闻-CWMT08提供的Common，约85万句对和； NIST MT08评测提供语料，大约670万句对 § 科技- CWMT08提供的Special部分语料，约52万句对； NIST MT08评测提供语料，大约670万句对 v语言模型训练数据： § LDC2007T38提供的Chinese Gigaword Third Edition，约3900万句数据过滤v过滤的原则：根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉) v新闻领域 § 将NIST语料根据新闻任务发布的训练语料进行过滤 § 翻译模型最后使用的语料为538万句对 v科技领域 § 将NIST语料根据科技任务发布的训练语料进行过滤的 § 翻译模型最后使用的语料为468万句对 § 语言模型也同样使用了过滤技术,最后过滤剩余1000 万句测试结果v新闻领域§ 采用基于MBR解码和混淆网络解码的多系统融合策略，融合6个结果 § 3个来自于基于分层短语的翻译系统(HPB) § 3个来自于基于依存树到串的翻译系统 (DHPB)测试结果v科技领域§ 采用基于MBR解码和混淆网络解码的多系统融合策略，融合6 个结果 § 2个来自于基于分层短语的翻译系统(HPB) § 2个来自于基于依存树到串的翻译系统(DHPB) § 2个来自于基于短语的系统 (PB)总结v新闻领域 § 借鉴了汉英评测的经验，加入了英文命名实体翻译及前后处理模块； § 并且针对英文的特点，在解码中融入句法分析树，在不增加时空复杂度的前提下提高了翻译质量 v科技领域 § 由于缺乏这方面的语料资源，我们只能借用新闻领域的语料，利用数据过滤技术得到相关资源 § 但由于在选取开发集时，其规模和相关性受到制约，所以最后的参数训练并不能有效得收敛到最优 § 如何能够充分利用有限的资源，开发出更加鲁棒的训练及解码算法，是我们下一步要思考的问题参考文献[1] 中科院自动化所评测技术报告(SYSTEM II)，第四届机器翻译研讨会，2008 [2] Wei Wei, Wei Pang, Zhendong Yang, Zhenbiao Chen, Chengqing Zong, Bo Xu. CASIA SMT System for TC-STAR Evaluation Campaign 2006. In: TC-STAR workshop, 2006. [3] Yaser Al-Onaizan, Kishore Papineni. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL ACL '06 [4] Philipp Koehn, et al. Edinburgh System Description for the 2005 IWSLT Speech Translation Evaluation, International Workshop on Spoken Language Translation 2005. [5] 魏玮，杜金华，徐波，基于组块分析的分层短语系统，第九届计算语言学年会，2007 [6] K.C. Sim, W. Byrne, M. Gales, H. Sahbi and P. Woodland. Consensus Network Decoding For Statistical Machine Translation System [A]. In: ICASSP, 2007. [7] 杜金华,魏玮,杨振东,徐波. 基于混淆网络的统计机器翻译多系统融合技术研究. 第三届统计机器翻译研讨会, 2007.CASIA谢谢。

点击阅读更多内容

猜您喜欢

姓氏名号礼俗古代用品.ppt 小学写字课《田字底雨字头》课件[1].ppt G系列机械隔膜计量泵.ppt 2013人教版必修1《古代希腊民主政治》课件.ppt 20妇科病史及体查.ppt 德润定期图表放送第三季狂潮来袭(我们承若,的和收费的一样好).ppt 经济危机英语演讲pro_PPT.pptx 罗兰贝格平衡计分卡简介.ppt 人类对宇宙的新探索.ppt 学生资料搜集天津历史名人.ppt 宁先雄机构的组成和结构 (2).ppt 我国氮肥生产与施用存在问题以及对提高氮肥利用率的思考.ppt 手机使用情况调查分析.ppt 人教版小学语文六年级上册教材培训第六组综合性学习《轻叩诗歌的大门》课件.ppt 宁为战死鬼不做亡国奴 (2).ppt 小细胞肺癌概况及治疗进展.ppt 手机游戏常见问题解答.pptx 2013人教版必修1第二课《多变的价格》课件2.ppt 2013人教版必修1《市场配置资源》公开课课件.ppt 安徽省北师大版新课标高中英语总复习第一轮语法复习考点9定语从句.ppt

进入店铺

收藏店铺

相似文档更多>

正为您匹配相似的精品文档