
第8章 自然语言理解.ppt
53页Artificial Intelligence Principles and Applications第第 8 章章 自然语言理解及其应用自然语言理解及其应用 第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别2第8章 自然语言理解及其应用ü8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别38.1.1 自然语言理解的概念微观角度:从自然语言到机器内部的一个映射微观角度:从自然语言到机器内部的一个映射宏观角度:使机器能够执行人类所期望的某种语言宏观角度:使机器能够执行人类所期望的某种语言功能。
功能 ((1)回答问题:计算机正确地回答用自然语言输入的有关问)回答问题:计算机正确地回答用自然语言输入的有关问题2)文摘生成:机器能产生输入文本的摘要文摘生成:机器能产生输入文本的摘要 ((3)释义:机器能用不同的词语和句型来复述输入的自然语)释义:机器能用不同的词语和句型来复述输入的自然语言信息言信息4)翻译:机器能)翻译:机器能把一种语言翻译成另外一种语言把一种语言翻译成另外一种语言 48.1.2 自然语言理解研究的产生与发展 1. 萌芽时期萌芽时期((20世纪世纪40年代末年代末50年代初)年代初)2. 以关键词匹配技术为主的时期以关键词匹配技术为主的时期 ((20世纪世纪60年代始年代始))A. Donald Booth & W. Weaver M. Chomsky 形式语言和文法形式语言和文法3. 以句法语义分析技术为主的时期以句法语义分析技术为主的时期 (( 20世纪世纪70年代后)年代后)4. 基于知识的自然语言理解发展时期基于知识的自然语言理解发展时期 5. 基于大规模语料库的自然语言理解发展时期基于大规模语料库的自然语言理解发展时期 68年B. Raphael:语义检索系统SIRJ. Weizenbaum:心理医疗ELIZA 72年W. Woods:语音接口LUNART. Winograd :英语对话SHEDLU5第8章 自然语言理解及其应用8.1自然语言理解的概念与发展历史自然语言理解的概念与发展历史 ü8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别6文字表达句子的层次:词素→词或词形→词组或句子。
声音表达句子的层次:音素→音节→音词→音句 语言处理过程分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析 语用分析:研究语言所存在的外界环境对语言使用产语用分析:研究语言所存在的外界环境对语言使用产生的影响生的影响构成单词发音的独立单元是音素上下文不同而发音不同 语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词8.2 语音分析7第8章 自然语言理解及其应用8.1自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析ü8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别88.3 词法分析 定义定义:从句子中切分出单词,找出词汇的各个词素 ,并确定其词义例:例:unchangeable:: un-change-able 英语词法分析英语词法分析 特点:切分单词容易,找出词素复杂特点:切分单词容易,找出词素复杂。
例:例:importable分为分为 import-able或或 im-port-able词法分析算法举例:词法分析算法举例:repeatlook for word in dictionary if not found then modify the wordUntil word is found or no further modification possible 98.3 词法分析例如例如:对于单词对于单词catches、、ladies可以做如下的分析可以做如下的分析 catches ladies, 词典中查不到词典中查不到 catche ladie 修改修改1:去掉:去掉s catch ladi 修改修改2:去掉:去掉e lady 修改修改3:把:把i变成变成y这样,在修改这样,在修改2的时候,就可以找到的时候,就可以找到catch,,在修改在修改3的时候就可以找到的时候就可以找到lady。
例如:优秀人才学人才学例如:优秀人才学人才学1. 优秀人-才学人才学优秀人-才学人才学2. 优秀人才-学人才学优秀人才-学人才学 汉语词法分析汉语词法分析 特点:找出词素简单,切分出词困难ly副词后辍;ed动词过去分词10第8章 自然语言理解及其应用8.1自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析ü8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别118.4 句法分析8.4.1 乔姆斯基的形式文法乔姆斯基的形式文法 8.4.2 句法分析树句法分析树8.4.3 转移网络转移网络8.4.4 扩充转移网络扩充转移网络128.4.1 乔姆斯基的形式文法1950年提出,表示形式:年提出,表示形式:G = (T,,N,,S,,P) T::终结符集合终结符集合 N::非终结符集合非终结符集合 S::起始符起始符 P::产生式规则集产生式规则集§ T =((the,man,killed,a,deer,likes)§N =((S,NP,VP,N,ART,V,Prep,PP)§ S = S§ P::(1) S→NP+VP (2) NP→N (3) NP→ART+N (4) VP→V (5) VP→V+NP (6) ART→the|a (7)N→man|deer (8) V→killed|likes例例 1 G=((T,,N,,S,,P))13n 1型文法型文法: 上下文有关文法上下文有关文法n 2型文法:上下文无关文法型文法:上下文无关文法 n 3型文法:正则文法型文法:正则文法 § 左左线性文法:线性文法:A→Bt 或或 A→t(A→Bt→Ct*t)§右线性文法右线性文法 :: A→tB或或A→t§产生式规则产生式规则: x→y§ 产生式规则产生式规则: x→y§例:例:AB→CDE √ ABC→DE × XaY→XbY§ 产生式规则:产生式规则:A→xn 0型文法:无约束短语结构文法型文法:无约束短语结构文法8.4.1 乔姆斯基的形式文法148.4.2 句法分析树 例如例如:The man killed a deer. S →NP + VP →ART + N + VP →The man + VP →The man + V + NP →The man killed + NP →The man killed + ART + N →The man killed a deer. 在对一个句子进行分析的过程中,如果把分析句子各在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来,那么这种图成分间关系的推导过程用树形图表示出来,那么这种图称为句法分析树。
称为句法分析树 158.4.2 句法分析树句法分析树举例句法分析树举例168.4.3 转移网络例:例: 转移网络的一般结构转移网络的一般结构由结点和带有标记的弧构成,其中结点表示状态,弧对由结点和带有标记的弧构成,其中结点表示状态,弧对应于符号,实现从一个状态转移到另一个状态应于符号,实现从一个状态转移到另一个状态开始状态中间状态终止状态NPVP开始状态开始状态中间状态中间状态终止状态终止状态ARTNVNPVNS→NP + VPNP→ART + NNP→NNP→V + NPNP→V178.4.3 转移网络例例 The man laughed.188.4.4 扩充转移网络ATN((augmented transition network ) ATN由由一一组组转转移移网网络络组组成成::每每个个TN都都有有一一个个网网络络名名,,弧上的条件扩充为条件加上操作由寄存器的方式实现弧上的条件扩充为条件加上操作由寄存器的方式实现数:单数和复数,缺省为空数:单数和复数,缺省为空 ATN的寄存器构成:句法特征寄存器和句法功能寄存器的寄存器构成:句法特征寄存器和句法功能寄存器。
n 特特征征寄寄存存器器::每每一一维维特特征征都都由由一一个个特特征征名名和和一一组组特特征征值以及一个缺省值来表示值以及一个缺省值来表示 n 功能寄存器:反映了句法成分之间的关系和功能功能寄存器:反映了句法成分之间的关系和功能198.4.4 扩充转移网络短语(短语(NP))的扩充转移网络的扩充转移网络 ::①① f→g A:Number←*.Number②② g→h C:Number←*.Number or Фq 应用:检查应用:检查NP中数的一致问题,其中特征是中数的一致问题,其中特征是“数数”,值,值为单数和复数为单数和复数C是弧上的条件,是弧上的条件,A是弧上的操作是弧上的操作是是当前值q this book,,the book,,the books,,these books 可以顺利可以顺利通过,而通过,而this books或或these book就无法通过就无法通过 20第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析ü8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别218.5 语义分析§ 语义分析是将句法成分与应用领域中的目标表示语义分析是将句法成分与应用领域中的目标表示相关联。
相关联 简单做法:依次使用独立的句法分析程序和语义解释程序缺点:使句法分析、语义分析分离语义文法格文法228.5.1 语义文法§ 语义文法是将文法知识和语义知识组合起来,以统语义文法是将文法知识和语义知识组合起来,以统一的方式定义为文法规则集一的方式定义为文法规则集 舰船信息:S→PRESENT the ATTRIBUTE OF SHIPPRESENT→What is|Can you tell meATTRIBUTE→length|classSHIP→the SHIPNAME|CLASSNAMESHIPNAME→HUANGHE|CHANGJIANGCLASSNAME→carrier|submarine238.5.2 格文法§ 目目的的::为为了了找找出出动动词词和和跟跟动动词词处处在在结结构构关关系系中中的的名名词词的的语语义义关关系系,,同同时时也也涉涉及及动动词词或或动动词词短短语语与与其其他他的的各各种种名名词词短语之间的关系短语之间的关系 § 特特点点::允允许许以以动动词词为为中中心心构构造造分分析析结结果果,,尽尽管管文文法法规规则则只只描描述述句句法法,,但但分分析析结结果果产产生生的的结结构构却却对对应应于于语语义义关关系系,,而非严格的句法关系。
而非严格的句法关系例:例:Mary hit Bill Bill was hit by Mary (Hit(Agent Mary) (Dative Bill))2425第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 ü8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译8.8 语音识别语音识别268.6.1 语料库及其特征1990年l 3届国际计算机语言学大会提出大规模真实文本目标基于规则方法的缺点:自然语言理解的复杂性,各种基于规则方法的缺点:自然语言理解的复杂性,各种知识的知识的“数量数量”繁多,高度的不确定性和模糊性繁多,高度的不确定性和模糊性 传统词典特征及不足:传统词典特征及不足: l 特特征征::把把各各类类不不同同的的信信息息放放入入一一个个词词汇汇单单元元中中,,包包括括拼拼音音、、读读音音、、词词形形变变化化及及派派生生词词、、词词根根、、短短语语、、时时态态变变换换的的定定义义及及说说明明、、同同义义词词、、反反义义词词、、特特殊殊用用法法注注释释,,偶尔还有图示或插图。
偶尔还有图示或插图l 不不足足::以以“树树”为为例例,,解解释释为为一一种种大大型型的的、、木木制制的的、、多年生长的、具有明显树干的植物多年生长的、具有明显树干的植物 缺失了很多构造性信息278.6.1 语料库及其特征9090年代,自然语言理解的研究在基于规则的技术中引年代,自然语言理解的研究在基于规则的技术中引入语料库,包括统计方法、基于实例的方法和通过语入语料库,包括统计方法、基于实例的方法和通过语料加工手段使语料库转化为语言知识库的方法等料加工手段使语料库转化为语言知识库的方法等l WordNet语语料料库库::1990年年由由Princeton大大学学的的Miller等等人人设计和构造的设计和构造的l包包含含将将近近95 600个个词词形形(51 500单单词词和和44100搭搭配配词词)和和70 100个词义,分为名词、动词、形容词、副词和虚词个词义,分为名词、动词、形容词、副词和虚词5类lWordNet中中,,按按语语义义而而不不是是按按词词性性来来组组织织词词汇汇信信息息,,名名词词有有57 000个个,,含含有有48 800个个同同义义词词集集,,分分成成25类类文文件件,,平平均深度均深度12层。
最高层为根概念,不含有固有名词最高层为根概念,不含有固有名词288.6.2 汉语自动分词方法 ((1))最最大大匹匹配配法法::在在计计算算机机中中存存放放一一个个分分词词用用词词典典,,从从待待切切分分的的文文本本中中按按自自左左到到右右的的顺顺序序截截取取一一个个定定长长的的汉汉字字串串,,与与词词典典中中的的词词进进行行匹匹配配,,若若匹匹配配不不成成功功,,则则把把该该字字符符串串从从右右边边逐逐次次减减去去一一个个汉汉字字,,再再与与词词典典中中的的词词进行匹配,直到成功为止进行匹配,直到成功为止 ((2))逆逆向向最最大大匹匹配配法法 ::从从待待切切分分文文本本中中截截取取字字符符串串的的方方向向是是从从右右到到左左匹匹配配不不成成功功时时,,将将所所截截取取的的汉汉字字串串从从左左至至右右逐逐次次减减去去一一个个汉汉字字,,再再与与词词典典中中的的词词进进行行匹匹配,直到匹配成功为止配,直到匹配成功为止 ((3))逐逐词词遍遍历历匹匹配配法法 :逐逐词词遍遍历历匹匹配配法法中中存存放放的的词词按按由由长长到到短短的的顺顺序序,,逐逐个个与与待待切切分分的的语语料料文文本本进进行行匹匹配配,,直到把文本中的所有词都切分出来为止。
直到把文本中的所有词都切分出来为止 298.6.2 汉语自动分词方法 汉语自动分词汉语自动分词难点:难点:(1)词的概念(2)岐义问题(3)未登录词的识别 各类名字、缩略语、派生词、专业术语 308.6.3 汉语词性的标注方法§ 难点:难点:兼类词的词类歧义排除兼类词的词类歧义排除 §意义意义((1)对文本进行文法分析或句法分析等更高层次的文本加)对文本进行文法分析或句法分析等更高层次的文本加 工提供基础工提供基础 ((2)通过对标注过的语料进行统计分析等处理通过对标注过的语料进行统计分析等处理具有两个或两个以上词性的词具有两个或两个以上词性的词 318.6.4 汉语词义的标注方法§ 难点:多义词的歧义排除难点:多义词的歧义排除 §意义意义((1)对文本中的每个词根据其所属上下文给出它的语义编码对文本中的每个词根据其所属上下文给出它的语义编码 ((2)语音合成、情报检索、机器翻译、自动校对等语音合成、情报检索、机器翻译、自动校对等 32第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 ü8.7 机器翻译机器翻译8.8 语音识别语音识别338.7 机器翻译8.7.1 机器翻译方法概述机器翻译方法概述 8.7.2 范例式机器翻译系统范例式机器翻译系统8.7.3 翻译记忆翻译记忆 348.7.1 机器翻译方法概述发展历程:发展历程:直接型直接型间接型间接型中间语言型中间语言型转换型转换型35§ 1. 直译式翻译系统直译式翻译系统(direct translation MT systems) 通过快速的分析和双语词典,将原文译出。
通过快速的分析和双语词典,将原文译出§ 2. 规则式翻译系统规则式翻译系统(rule-based MT systems) 先分析原文内容,产生原文的句法结构,再转换成译先分析原文内容,产生原文的句法结构,再转换成译 文的句法结构,最后再生成译文文的句法结构,最后再生成译文 8.7.1 机器翻译方法概述36§ 3. 中介语式翻译系统中介语式翻译系统(inter-lingual MT systems) 先生成一种中介的表达方式,而非特定语言的结构;先生成一种中介的表达方式,而非特定语言的结构; 再由中介的表达式,转换成译文再由中介的表达式,转换成译文 基于规则的翻译基于规则的翻译中介语式的翻译中介语式的翻译8.7.1 机器翻译方法概述37§ 4. 知识库式翻译系统知识库式翻译系统(knowledge-based MT systems) 翻译经常需要除了词汇之外的各种知识,使用知识获取工翻译经常需要除了词汇之外的各种知识,使用知识获取工具具(knowledge acquisition),,以充实知识库的内容以充实知识库的内容 § 6. 范例式翻译系统范例式翻译系统(example-based MT systems ) 将过去的翻译结果,当成范例,产生一个范例库。
将过去的翻译结果,当成范例,产生一个范例库 § 5. 统计式翻译系统统计式翻译系统(Statistics-based MT systems ) 源语言中任一句子都可能是目标语言中某些句子相似源语言中任一句子都可能是目标语言中某些句子相似§ 7. 混合式翻译系统混合式翻译系统(Statistics-based MT systems ) 同时采用多种策略,以达成翻译的目标同时采用多种策略,以达成翻译的目标 8.7.1 机器翻译方法概述38§ 范例式翻译系统(范例式翻译系统(example-based MT systems )) 对被翻译的源语句通过翻译实例数据库检索出要翻译的对被翻译的源语句通过翻译实例数据库检索出要翻译的 目标语句目标语句 § 范例式机器翻译系统主要包括两部分工作:范例式机器翻译系统主要包括两部分工作:((1)) 建立翻译实例数据库建立翻译实例数据库2)翻译的操作检索算法翻译的操作检索算法8.7.2 范例式机器翻译系统39§ 基本原理:用户利用已有的原文和译文,建立起一个或基本原理:用户利用已有的原文和译文,建立起一个或多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源忆库中相同或相似的翻译资源(如句子、段落等),给出(如句子、段落等),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。
翻译记忆库同时在后台不断学习和自动储存新容的翻译翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越的译文,变得越来越“聪明聪明”§ 德国塔多思(德国塔多思(TRADOS))公司的翻译记忆软件基于公司的翻译记忆软件基于UNICODE((统一字符编码),支持统一字符编码),支持55种语言,覆盖种语言,覆盖了几乎所有语言版本的了几乎所有语言版本的 Windows95//98//NT 8.7.3 翻译记忆40第8章 自然语言理解及其应用8.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 8.2 语音分析语音分析8.3 词法分析词法分析8.4 句法分析句法分析8.5 语义分析语义分析 8.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 8.7 机器翻译机器翻译ü8.8 语音识别语音识别418.8.1 引言§语语音音识识别别用用语语音音作作为为输输入入,,口口语语对对话话与与语语音音信信号号中中语言提取的不同:语言提取的不同: ((1)上下文猜测)上下文猜测 ((2)肢体语言传达信息)肢体语言传达信息 § 机机器器翻翻译译用用印印刷刷文文本本作作为为输输入入,,能能清清楚楚地地区区分分单单个个单词和单词串单词和单词串 。
fare | fairmale | mail428.8.2 语音信号采集与预处理 语音信号采集系统语音信号采集系统l 基于单片机,基于单片机,DSP芯片芯片l 基于基于PC机机 语音信号预处理语音信号预处理l预滤波预滤波((1))抑抑制制输输入入信信号号各各频频域域分分量量中中频频率率超超出出采采样样频频率率的的一半的所有分量,以防止混叠干扰一半的所有分量,以防止混叠干扰2)抑制)抑制50Hz的电源工频干扰的电源工频干扰 438.8.2 语音信号采集与预处理 语音信号预处理语音信号预处理l 采采样样::对对信信号号进进行行量量化化,,量量化化不不可可避避免免地地会会产产生生误误差差量量化化后后的的信信号号值值与与原原信信号号值值之之间间的的差差值值为为量量化化误误差,又称为量化噪声差,又称为量化噪声l 预预加加重重::是是提提升升高高频频部部分分,,使使信信号号的的频频谱谱变变得得平平坦坦,,保保持持在在低低频频到到高高频频的的整整个个频频带带中中,,能能用用同同样样的的信信噪噪比比求频谱,以便于频谱分析或声道参数分析求频谱,以便于频谱分析或声道参数分析 l端端点点检检测测::包包含含语语音音的的一一段段信信号号中中确确定定出出语语音音的的起起点点以及终点。
以及终点448.8.2 语音信号采集与预处理Ø过零率:信号中波形穿越零电平的次数来描述幅度变化的剧烈程度ZCR(i) =∑|sgn(xi(n))--sgn(xi(n+1))|45468.8.4 矢量量化矢量量化(矢量量化(vector quantization,,VQ))技术是七十技术是七十年代后期发展起来的一种数据压缩和编码技术年代后期发展起来的一种数据压缩和编码技术在标量量化中整个动态范围被分成若干个小区间,在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标题信每个小区间有一个代表值,对于一个输入的标题信号,量化时落入小区间的值就用这个代表值代替号,量化时落入小区间的值就用这个代表值代替矢量量化的基本原理:将若干个标量数据组成一个矢量量化的基本原理:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量损失较小的情况下压缩数据量478.8.5 识别识别系统的输入是从语音信号中提出的特征参数识别系统的输入是从语音信号中提出的特征参数语音识别所采用的方法一般有:语音识别所采用的方法一般有:模板匹配法。
在训练阶段,用户将词汇表中的每一个词依模板匹配法在训练阶段,用户将词汇表中的每一个词依次说一遍,将其特征矢量作为模板存入模板库在识别阶次说一遍,将其特征矢量作为模板存入模板库在识别阶段,将输入语音的特征矢量序列依次与模板库中的每个模段,将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出板进行相似度比较,将相似度最高者作为识别结果输出 随机模型法如隐马尔可夫模型随机模型法如隐马尔可夫模型(HMM)用HMM的概率的概率参数来对似然函数进行估计与判决,从而得到识别结果参数来对似然函数进行估计与判决,从而得到识别结果 概率语法分析法不同的人说同一些语音时,相应的语谱概率语法分析法不同的人说同一些语音时,相应的语谱总有一些共同的特点以区分于其他语音将区别性特征与总有一些共同的特点以区分于其他语音将区别性特征与来自构词、句法、语义等语用约束相互结合,构成由底向来自构词、句法、语义等语用约束相互结合,构成由底向上或自顶向下的交互作用知识系统上或自顶向下的交互作用知识系统 488.8.6基于隐马尔可夫模型的语音识别方法隐马尔可夫模型:隐马尔可夫模型: 表示序列可能出现的一种方法。
表示序列可能出现的一种方法 y跟在ph后面出现的概率>跟在t后面出现的概率例例 序列:1 2 3 3 4则概率0.9×0.5×0.4×0.6=0.108 49§状态隐含,观察可测状态隐含,观察可测8.8.6 基于隐马尔可夫模型的语音识别方法(1)观察符号是一帧帧的语音参数(2)状态序列是具体的语音内容LPC或MFCC前进,后退例:例:50§解决三个基本问题:解决三个基本问题:(1)输出概率计算问题:给定观察序列 和HMM模型,计算输出概率 2)状态序列解码问题:给定观察序列 和HMM模型,确定最优的转移序列3)模型参数估计问题:调整模型 的参数,以使 最大8.8.6 基于隐马尔可夫模型的语音识别方法51输入语音输入语音比较结果比较结果语音分析语音分析矢量量化矢量量化语音模型语音模型比较判断比较判断HMM训练训练概率计算概率计算特征提取特征提取8.8.6 基于隐马尔可夫模型的语音识别方法基于HMM的孤立字(词)识别52THE ENDArtificial Intelligence Principles and Applications53。
