好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

汉语盲文翻译原理.doc

19页
  • 卖家[上传人]:hs****ma
  • 文档编号:473569565
  • 上传时间:2023-03-13
  • 文档格式:DOC
  • 文档大小:59KB
  • / 19 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • [修订]汉语盲文翻译原理汉语盲文翻译原理汉语盲文翻译的研究*江铭虎1, 2朱小燕2夏莹2包塔2谭刚21清华大学中文系计算语言学研究所北京1000842清华大学计算机系智能技术与系统国家重点实验室北京100084一、盲文到汉字的翻译原理在汉语盲文到汉字的转换中,由于盲文扫描识别或盲文码输入不可能达到100, 正确,汉字的一字多音、一音多字和自然语言的歧义现象,在将扫描盲文或盲文码 输入与拼音的转换、拼音与汉字转换的每一个环节,均可能发生歧义或转换错误, 因此需利用知识库、统讣信息库和相应的理解后处理进行多层次的歧义校正和纠错 处理在将盲文转换为拼音、拼音转换为汉字时,利用汉语的拼音知识、词知识、 语法知识和语义等知识、统计信息和相应的理解后处理进行多层次的歧义校正和纠 错处理,并通过信息反馈来纠正前端的扫描盲文或盲文码输入的错误,实现山盲文 到汉字的相互转换一)汉语盲文综合知识库的组成:1盲文电子字典,包括词类标注、短语分析词典,盲文至拼音、音字和字音转 换字典等1规则库,包括词法规则、短语规则、句法规则和汉语盲文分词连写规则盲 文到拼音的转换规则较多,包括声韵母相拼规则,音调、标点符号、缩写字、重复 记号、哑音等规则;常用缩写词,盲文数字)字母符号、整体认读音节,同音分化 法,哑音定字法等规则。

      分词连写是汉语盲文独有的重要规则,它包括一般规则、各类词和词组规则, 盲文的构词知识、词法知识和语料库统计知识,H的是处理歧义切分、一字多音和 一音多字的现象1统计信息库,包括建立在1700万字真实语料基础上的词、邻接词同现概率 统计、标注吊及词类间联接依存关系统计知识二) 盲文到拼音转换中的歧义由于盲文字符是基于6点制的,可以利用盲文ASCII码与盲文字符的对应关系,以这6个圆点为盲文字符进行编码,建立一个记录所有合法的汉语拼音组合的 信息表即音码表它记录在一个合法的汉语拼音下,可查询哪些调是与实际汉字对 应的引入音码表后,可以解决大部分盲文到拼音转换中的歧义问题但仍有一些 特殊的歧义无法排除,只能采用综合知识库中的规则进行特殊的排歧,这样可使盲 文到拼音的转换率儿乎达100, o(三) Markov模型及平滑[6[假设自然语言服从Markov源,从而把语言中的某个语法单位(单音节字)词)词 性或其它语法类)看成是Markov 程的状态间的一个“转移”,利用这些单位间的 同现概率或互信息概率等作为状态间的转移概率来处理各种自然语言对于二元模 型,由于存在矩阵稀疏问题,其平滑计算公式为:(1)其中:,是经平滑后的Ci在Ci-1后的条件概率;是训练模型中Ci在Ci-1后的条件概率。

      是训练模型中Ci的单概率可以用Markov插值从语料中迭代来求我们从工程角度,根据经验来选择的值二 元模型中,,四)词级别二元模型中平滑算法的改进在一个词级别的二元模型中,一个一字词Ci在二字词Ci-2 Ci-l后的条件概 率平滑公式为:(2)(2) 式再加入一项P(Ci Ci-1)进行平滑以便引入更多的信息2)式可变为(3)令二9:3:1,且另外,在求一个二字词Ci-lCi在一字词Ci-2后的条件概率 P(Ci-lCi|Ci-2)时,若因为数据稀疏问题而造成此概率在模型中为零概率,用其它 概率来推导一个近似公式:(4)从(4)式,P(Ci-lCi|Ci-2)可以用 P(Ci-l Ci-2)P(Ci Ci-l)来近似同理,可 证:(5)(五) 拼音到汉字转换中的转换多部图图1拼音到汉字转换的多部图假设某一个拼音句子Y由T个字构成,Y二yly2,,yT在这个句子的前后各加上 分界符,构成#yl, y2, ”, yT#设拼音yi对应的汉字候选为对与yi对应的每一个汉字候选都构造一个结点,所有与yi对应的结点 构成一级级与级之间是全连接的关系,即第i级的每一个结点与第i+1级的每一 个结点之间都有一条边。

      边上的权为后一级汉字在前一级汉字后出现的条件概率 所形成的带权多部图如图1所示图中,每一条边都是带权边例如,C11与C21 之间边上的权为P(C21 C11),表示C11后出现C21的条件概率六) Viterbi算法Viterbi算法是一种动态规划算法它适于在一个带权的多部图中快速搜索一 条最佳路径它分为向前和向后两个过程在向前过程中,用它计算由初始结点到 每一个结点的最佳路径,并且保存这条路径在向后过程中,用它根据保存的结果 反向得出整个图的最佳路径采用Viterbi算法在图1所示的拼音到汉字的转换多 部图中搜索一条最佳路径,其递推公式为:,j-1, 2, ”, ul;,j-1, 2,,,, ui ;,j二 1, 2, ”, uTo图2 — N-Best树,已找出前四选式中Gl(Clj), Gi(Cij), GT+1 (#)分别为第1步、第I步和第T, 1步的最佳路 径累积概率记录通过计算,可得到,C*就是拼音串对应的汉字串t)N-Best搜索算法用N-Best搜索算法可在图中找出具有头X大似然度的汉语句子当图中有多 条路径进入同一个结点时,Viterbi算法只对最佳路径进行扩展由于Viterbi算 法只求整个图的最佳路径,进入同一个结点的其余的路径便被舍弃,不再考虑。

      假 设最佳路径已III Viterbi算法找到,那么次优路径应该与最佳路径共享某一段路 径因此,为了寻找次优路径,应该考虑那些与最佳路径共享某一段的所有可能的 路径,即应对最佳路径的所有结点进行扩展,在扩展后的路径中寻找次优N-Best 搜索算法分为前向和后向两个过程在前向过程中,对图中每一个结点,计算由初 始结点到此结点的最佳路径,并且记录此最佳路径的累讣分值和指向路径上前一个 结点的指针在后向过程中,通过比较进入终止结点的路径就可以得到最优路径 然后,为了使求次优路径时不会乂选到最佳路径,把最佳路径整个复制到一个所谓 N-Best树的结构中对N-Best树中的每一个结点计算后向累计分值后向累计分 值与前向累汁分值相结合,使之能够快速方便地汁算出某一条路径的总分值对 N-Best树上的所有结点进行扩展,比较扩展后所有路径的分值,最大的那个就是 次优路径然后把次优路径与最优路径不同的部分复制到N-Best树中接着计算 新加入结点的后向累讣分值假设前'选路径已经求出,那么笫\+1选路径可以通 过比较从当前N-Best树中扩展出的路径来求得二、系统实现系统实现需要把盲文图像的识别,盲文到拼音的转换,以及拼音到汉字的转换 这3大模块进行系统的集成,并且生成一个可视化的界面。

      整个集成程序是使用 Visual C++文档-视结构的程序为了使转换具有较好的封装性,分别对盲文到拼 音和拼音到汉字的转换编了两个过程类加入集成程序,实现这两个转换系统一)实验实验是从国家教委中等专业学校“八五”规划教材《语文》第一册中节选岀来的一共选了 51页此测试集中的文档类型包括说明文、散文、相 声等测试盲文到汉字转换正确率,步骤如下:1、 把书面盲文扫描成图像,使用盲文识别模块把图像识别成盲文码文件,手 丄改正识别中的错误,把盲文码文件转换成拼音码文件,继而转换成汉字文件2、 在标准文本中摘出与之相应的汉字段,形成标准汉字文件,转换而得的汉 字文件和标准汉字文件送入比较程序,得到比较结果,并把结果记录下来对于盲文到汉字转换系统的性能,做了含专有名词以及不含专有名词测试,N- Best测试部分测试集测试的结果如表1所示表1盲文到汉字转换率和N-Best搜索算法测试(\二5)盲文文件名Pinyin总字数转换正确字数转换正确率/ %五选正确字数五选正确率1128127597. 8627999. 291227926594. 9827598. 571328527897. 5428399. 301425625499. 2225599. 611526726398. 50267100. 005526724692. 1325899. 635628426392.6127295. 775722419486.6193. 755825522387. 4524294. 905924423094. 2623696. 729527424990. 8825492. 709626425797. 3597. 739729027795. 5227895. 869821819589. 4520091.749925223191.6723693. 6511026923894. 8011128525388. 7726592. 9811228825488. 1926592.0111327022482. 9623888. 1511416416098. 78合计5216482992. 58498895. 63使用完全测试集对系统进行了测试(含和不含专有名词(人名,地名等)),测试结果见表3。

      表2:转换系统完全测试集测试结果(含专有名词和不含专有名词)盲文文件名Pinyin总页数总字数正确字数(含)正确率(含)%正确字数(不含)正确率(不含)%1-10101950 191298. 05191898. 3611-20102714260996. 13261596. 3540 -494102296594.4296994.8155 -6481935178091.99184090 -9992295214093. 24222196. 78110 -119102604241092. 55248195. 28合计51125201181694. 381204496. 20以上是使用Viterbi搜索算法进行1选搜索时的转换正确率,或N-Best搜索算法进行的测试其中,对每一个拼音句子进行前五选的搜索并且,测试中只对那些系统认为有错误的1选句子才进行N-Best搜索,即使用了 1选到'选转换判 据二)实验分析1、 盲文到汉字转换系统的转换正确率高一方面,盲文到拼音模块的转换, 解决了许多特殊字符无法转换的问题列一方面,拼音到汉字模块的转换山于引入 了统汁模型,考虑了局部相关性,转换率有明显的提高。

      2、 盲文到汉字转换系统(含专有名词)测试结果为:94. 38%o这个结果应该是一 个比较客观的结果测试的文档包括各种类型:Pinyinl-10, Pinyinll-20是说明 文;p40-49, pllO-119是散文;p55-64是一段相声(口语味很浓);p90-99是介绍产 品的一篇说明文3、 在完全测试集中剔除专有名词后,转换正确率由94. 38%提高到96. 20%,提 高了约两个百分点部分测试集上的结果显示,1选正确率为92. 58%, 5选正确率 为95. 63%,提高了 3个百分点这表明N-Best搜索算法用于盲文到汉字的转换是 合理的,能提高系统的性能。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.