好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

语音辨认所有语言及用语音输入单字的方法.docx

3页
  • 卖家[上传人]:ting****789
  • 文档编号:310090875
  • 上传时间:2022-06-14
  • 文档格式:DOCX
  • 文档大小:19.15KB
  • / 3 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 语音辨认所有语言及用语音输入单字的方法专利名称:语音辨认所有语言及用语音输入单字的方法语音辨认所有语言及用语音输入单字的方法技术领域中文有408个单音,再加上四声,现代语音方法不能辨认408X4个单音,英文更 多本发明将常用字分成m ( = 500)个左右不同的相似音群(类),每一类相似音的文字由 一个未知相似音代表使用者对一个单字发音,本发明用贝氏分类法在m类未知单音中找 出几个与该单字发音最相似的未知单音,再从这几个相似的未知单音所代表的类中的单字 去找所要的单字及句子本发明用12个弹性框(窗),等长,无滤波器,不重叠,将长短不一的一个单音的音 波转换成12X12的线性预估编码倒频谱(LPCC)矩阵本发明包含贝氏比对法,在m个未知单音中为发音者找F个与所需要单字发音最 相似的未知单音因仅在固定的m类中辨认F个最相似的未知单音,本发明最重要的功能 是可以很快辨认单字,句子及输入大量单字同样单字发不同单音或不同语言,分别放在不 同类中,因此单字或句子用不同发音或不同语言均可辨认,本发明不需样本背景技术:现代用打字输入中英文单字,每个单字必须知道它的正确发音(或注音符号),必 须练习打字,极不方便,所以一般人均不会文字输入。

      语音辨认及语音输入文字是今后趋势 及发展的目标,不用打字,发音不准,有重音及其它语言均可输入文字发一个单音时,它的发音是用音波表示音波是一种随时间作非线性变化的系统, 一个单音音波内含有一种动态特性,也随时间作非线性连续变化相同单音发音时,有一连 串相同的动态特性,随时间作非线性伸展及收缩,但相同的动态特性依时间排列秩序,但时 间不同相同单音发音时,将相同的动态特性排列在同一时间位置上非常困难更因相似 单音特多,造成辨认更难一个计算机化语言辨认系统,首先要抽取声波有关的语言信息,也即动态特性,过 滤和语言无关的杂音,如人的音色、音调,说话时心理、生理及情绪和语音辨认无关先删去 然后再将相同单音的相同特征排列在相同的时间位置上此一连串的特征用一等长系列特 征向量表示,称为一个单音的特征模型目前语音辨认系统要产生大小一致的特征模型太 复杂,且费时,因为相同单音的相同特征很难排列在同一时间位置上,尤其是英语,导致比 对辨认困难—般语音辨认方法有下列一连串3个主要工作抽取特征、特征正常化(特征模型 大小一致,且相同单音的相同特征排列在同一时间位置)、未知单音辨认一个连续声波的 常用特征有下列几种能量(energy),零横过点数(zero crossings),极值数目(extreme count),颠峰(formants),线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC),其中线 性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC)是最有效的,并普遍使用。

      线性预估 编码倒频谱(LPCC)是代表一个连续音最可靠,稳定又准确的语言特征它用线性回归模 式代表连续音音波,以最小平方估计法计算回归系数,其估计值再转换成倒频谱,就成为线 性预估编码倒频谱(LPCC)而梅尔频率倒频谱(MFCC)是将音波用傅氏转换法转换成频率再根据梅尔频率比例去估计听觉系统根据学者S. B. Davis and P. Mermelstein于 1980 年出版在 IEEE Transactions on Acoustics, Speech Signal Processing, Vol. 28, No. 4 发表的论文 Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 中用云力态时间扭曲法(DTW),梅尔频率 倒频谱(MFCC)特征比线性预估编码倒频谱(LPCC)特征辨认率要高但经过多次语音辨认 实验(包含本人前发明),用贝氏分类法,线性预估编码倒频谱(LPCC)特征辨认率比梅尔频 率倒频谱(MFCC)特征要高,且省时。

      至于语言辨认,已有很多方法采用有动态时间扭曲法(dynamic time-warping), 向量量化法(vector quantization)及隐藏式马可夫模式法(HMM)如果相同的发音在 时间上的变化有差异,一面比对,一面将相同特征拉到同一时间位置辨认率会很好,但将 相同特征拉到同一位置很困难并扭曲时间太长,不能应用向量量化法如辨认大量单音, 不但不准确,且费时最近隐藏式马可夫模式法(HMM)辨认方法不错,但方法繁杂,太多未 知参数需估计,计算估计值及辨认费时以T.F.Li (黎自奋)于2003年出版在I^ttern Recognition,vol. 36 发表的论文 Speech recognition of mandarin monosyllables 中用 贝氏分类法,以相同资料库,将各种长短不同的一系列LPCC向量压缩成相同大小的特征模 型,辨认结果比 γ· κ. Chen,C. Y. Liu, G. H. Chiang,Μ. Τ. Lin 于 1990 年出版在 Proceedings of Telecommunication Symposium, Taiwan 发表的论文 The recognition of mandarin monosyllables based on the discrete hidden Markov model 中用隐藏式马可夫模式法 HMM方法要好。

      但压缩过程复杂费时,且很难将相同单音的相同特征压缩到相同时间位置, 对于相似单音,很难辨认至于语音输入文字目前还没有方法,因为目前计算机语音辨认不 是很好本发明语音辨认方法针对上述缺点,从学理方面,根据音波有一种语音特征,随时 间作非线性变化,自然导出一套抽取语音特征方法将一个单音(中英文单字)音波先正常 化再转换成一个足以代表该单音的大小相等的特征模型,并且相同单音在它们特征模型内 的相同时间位置有相同特征不需要人为或实验调节本发明内的未知参数及门槛用简化 贝氏分类法,即可将单字所发的音的特征模型和m个未知单音(代表m类不同相似音)的 特征模型比对,不需要再压缩,扭曲或寻找相同的特征来比对所以本发明语音辨认方法, 能快速完成特征抽取,特征正常化及辨认,并能正确快速找到所要的单字发明内容本发明为了克服上述现有技术的缺陷,提供了一种使用简单,不需样本,不需注 音,不需打字,准确率高的任何人都可胜任的语音辨认所有语言及用语音输入单字的方法本发明的目的是提供一种语音辨认所有语言及用语音输入单字的方法,包含以下 步骤(1) 一个单字是英文,中文或其它文字,一个单字的发音叫单音,本方法有m个未 知(或已知)单音及一个常用单字资料库,每个未知单音有样本;(2) 一个先前处理器(pre-processor)删去不具语音音波的信号点(sampled points)或杂音;(3) 一种单音音波正常化及抽取特征的方法用E个弹性框将音波正常化,并转换成大小相等的线性预估编码倒频谱(LPCC)EXP特征的矩阵;(4)求每个未知单音线性预估编码倒频谱(LPCC)样本的平均值及变异数,一个 EXP样本的平均值及变异数矩阵代表一个未知单音,每个未知单音代表一类有相似音的常 用字,一共有m类; (5) 一个发音清晰标准的发音人,对每一常用单字发音一次,如使用者发音不准, 或用其它方言及语言发音,则由使用者发音;(6)每一常用单字发音的音波正常化及抽取特征的方法将音波正常化并转换成 一个EXP线性预估编码倒频谱(LPCC)矩阵;(7) 一种简化贝氏(Bayesian)分类法比较一个常用单字的EXP线性预估编码 倒频谱(LPCC)矩阵及每个未知单音的EXP样本的平均值及变异数矩阵,用贝氏距离(相 似度)找和该常用字的发音最相似的未知单音,再将该常用单字放在该最相似的未知单音 所代表的类的常用字中;(8)使用者对所要的单字发音,该单音转换成一个EXP的线性预估编码倒频谱 (LPCC)矩阵;(9)用简化贝氏(Bayesian)分类法比较使用者所要单字的EXP线性预估编码倒 频谱(LPCC)矩阵及每个未知单音的EXP样本的平均值及变异数矩阵,用贝氏距离(相似 度)找和所要单字发音最相似的F个未知单音;(10)在最相似的F个未知单音所代表的F个类的常用字中,求所有常用字的EXP 线性预估编码倒频谱(LPCC)矩阵和所要单字的EXP线性预估编码倒频谱(LPCC)矩阵之 间的(绝对)距离(相似度)来排列F类所有的常用字,排列后,使用者所要的单字应当排 在最前面,或排列后,所有的常用字分成数等段,每等段常用字以字母(或笔划数)排列,也 即F类所有常用字依和所要单字发音的(绝对)距离(相似度)及常用字的字母(或笔划 数)排列成一个矩阵,使用者发音后,依所要单字的字母(或笔划数)在该F类所有常用字 的矩阵中由上向下找,很容易在矩阵中找到所要单字;(11) 一种辨认句子及名称的方法;(12) 一种修正辨认不成功的单字及句子及名称、及输入不成功的单字、及加入新 单字的方法。

      其中,步骤O)中删去不具语音音波的信号点或杂音是计算一小时时段内相邻 两信号点的距离总和和一般杂音相邻两信号点的距离总和,如前者小于后者则删去该时 段其中,步骤(3)中包含一个单音音波正常化及抽取大小一致的特征矩阵,步骤如 下(a) 一种均等分一个单音音波的信号点的方法,为了用线性变化的回归模式密切 估计非线性变化的音波,将音波全长分成E个等时段,每时段形成一个弹性框,一个单音共 有E个等长弹性框,没有滤波器(Filter),不重叠,可以自由伸缩涵盖全长音波,不是固定 长度的汉明(Hamming)窗;(b)每框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音 波;(c)用 Durbin' s 循环公式权利要求1.一种语音辨认所有语言及用语音输入单字的方法,其特征在于,所述方法包括以下 步骤(1)一个单字是英文、中文或其它文字,一个单字的发音为单音,本方法具有m个未知 或已知单音及一个常用单字资料库,每个未知单音有样本;(2)一个先前处理器删去不具语音音波的信号点或杂音;(3)一种单音音波正常化及抽取特征的方法,是用E个弹性框将音波正常化,并转换成 大小相等的线性预估编码倒频谱EXP特征的矩阵;(4)求每个未知单音线性预估编码倒频谱样本的平均值及变异数,一个EXP样本的平 均值及变异数矩阵代表一个未知单音,每个未知单音代表一类有相似音的常用字,一共有m 类;(5)一个发音清晰标准的发音人,对每一常用单字发音一次,如使用者发音不准,或用 其它方言及语言发音,则由使用者发音;(6)每一常用单字发音的音波正常化及抽取特征的方法,是将音波正常化并转换成一 个EXP线性预估编码倒频谱的矩阵;(7)一种简化贝氏分类法,是比较一个常用单字的EXP线性预估编码倒频谱的矩阵及 每个未知单音的EXP样本的平均值及变异数矩阵,用贝氏距离找和该常用字的发音最相 似的未知单音,再将该常用单字放在该最相似的未知单音所代表的类的常用字中;(8)使用者对所要的单字发音,该单音转换成一个EXP的线性预估编码倒频谱的矩阵;(9)用简化贝氏分类法比较使用者所要单字的EXP线性预估编码倒频谱的矩阵及每 个未知单音的EXP样本的平均值及变异数矩阵,用贝氏距离找和所要单字发音最相似的F 个未知单音;(10)在最相似的F个未知单音所代表的F个类的常用字中,求所有常用字的EXP线性 预估编码倒频谱的矩阵和所要单字的EXP线性预估编码倒频谱的矩阵之间的距离来排列 F类所有的常用字,排列后,使用者所要的单字应当排在最前面,或排列后,所有的常用字分 成数等段,每等段常用字以字母或笔划数排列,F类所有常用字依和所要单字发音的距离及 常用字的字母或笔划数排列成一个矩阵,使用者发音后。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.