
语音信号处理第2章.ppt
32页概述概述语音和语言语音和语言汉语语音学汉语语音学语音生成系统和语音感知系统语音生成系统和语音感知系统语音信号生成的数学模型语音信号生成的数学模型语音信号的特性分析语音信号的特性分析第第2 2章章 语音信号处理的基础知识语音信号处理的基础知识2.1 2.1 概述概述v语音信号处理语音信号处理 是研究用数字信号处理技术对语音信号进是研究用数字信号处理技术对语音信号进行处理的一门学科行处理的一门学科v目的目的:v一、通过处理得到一些反映语音信号重要特征的语音参数以一、通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;便高效的传输或储存语音信号信息;v二、通过处理的某种运算以达到某种用途的要求,例如人工二、通过处理的某种运算以达到某种用途的要求,例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等合成出语音、辨识出讲话者、识别出讲话的内容等等2.2 2.2 语音和语言语音和语言v人们讲话时发出的话语叫人们讲话时发出的话语叫语音语音,它是一种声音,具有称为声,它是一种声音,具有称为声学特征的物理特性学特征的物理特性语音(语音(SpeechSpeech))是是声音(声音(AcousticAcoustic))和和语言(语言(LanguageLanguage))的组合体。
可以这样定义语音:语音是由的组合体可以这样定义语音:语音是由一连串的音组成语言的声音一连串的音组成语言的声音 v人的说话过程人的说话过程可以分为五个阶段:可以分为五个阶段:v((1 1)想说阶段)想说阶段v((2 2)说出阶段)说出阶段v((3 3)传送阶段)传送阶段v((4 4)理解阶段)理解阶段v((5 5)接收阶段)接收阶段2.2 2.2 语音和语言语音和语言v人的说话的过程人的说话的过程: 2.2 2.2 语音和语言语音和语言v语言语言是从人们的话语中概括总结出来的规律性的符是从人们的话语中概括总结出来的规律性的符号系统包括构成语言的语素、词、短语和句子等号系统包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法、文脉等语法的不同层次的单位,以及词法、句法、文脉等语法和语义内容等和语义内容等语言学是语音信号处理的基础语言学是语音信号处理的基础 v语音学语音学(Phonetics)(Phonetics)是研究言语过程的一门科学它是研究言语过程的一门科学它考虑的是语音产生、语音感知等的过程以及语音中考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。
各个音的特征和分类等问题现代语音学发展成为现代语音学发展成为三个主要分支:发音语音学、声学语音学、听觉语三个主要分支:发音语音学、声学语音学、听觉语音学 2.2 2.2 语音和语言语音和语言v语音语音是人的发声器官发出的一种声波,它具有一定的是人的发声器官发出的一种声波,它具有一定的音色,音色,音调,音强和音长音调,音强和音长其中,音色也叫音质,是一种声音区别其中,音色也叫音质,是一种声音区别于另一种声音的基本特征音调是指声音的高低,它取决于于另一种声音的基本特征音调是指声音的高低,它取决于声波的频率声音的强弱叫音强,它由声波的振动幅度决定声波的频率声音的强弱叫音强,它由声波的振动幅度决定声音的长短叫音长,它取决于发音时间的长短声音的长短叫音长,它取决于发音时间的长短v说话时一次发出的,具有一个响亮的中心,并被明显感觉到说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫的语音片段叫音节(音节(SyllableSyllable))一个音节可以由一个一个音节可以由一个音素音素((PhonemePhoneme))构成,也可以由几个音素构成音素是语音发构成,也可以由几个音素构成。
音素是语音发音的最小单位音的最小单位 2.2 2.2 语音和语言语音和语言 v任何语言都有语音的任何语言都有语音的元音(元音(VowelVowel))和和辅音(辅音(ConsonantConsonant))两两种音素v元音:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为为元音元音 v辅音:辅音:呼出的声流,由于通路的某一部分封闭起来或受到阻呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为的音素称为辅音辅音v发辅音时由声带是否振动引起浊音和清音的区别,声带振动发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是的是浊音浊音,声带不振动的是,声带不振动的是清音清音 2.2 2.2 语音和语言语音和语言v决定元音音色的主要因素是舌头的形状及其在口腔中的位置决定元音音色的主要因素是舌头的形状及其在口腔中的位置( (简称简称舌位舌位) )、嘴唇的形状、嘴唇的形状( (简称简称口形口形) )等。
元音的另一个重要等元音的另一个重要声学特性是声学特性是共振峰(共振峰(FormantFormant))共振峰参数是区别不同元共振峰参数是区别不同元音的重要参数,它一般包括音的重要参数,它一般包括共振峰频率(共振峰频率(Formant Formant FrequencyFrequency))的位置和的位置和频带宽度(频带宽度(Formant BandwidthFormant Bandwidth) v一般地说,就语音的基音频率而言是女声和童声高于男声,一般地说,就语音的基音频率而言是女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低儿童声音,更重要的因素是共振峰频率的高低 2.3 2.3 汉语语音学汉语语音学汉语语音的特点汉语语音的特点:: v音系简单这是指音素少、音节少音节的结构也比较简单音系简单这是指音素少、音节少音节的结构也比较简单 v由于清辅音多,而且多是弱清音,而且开口呼的音节占全部由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。
柔和的感觉 v有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富确而丰富 汉语的拼音方法汉语的拼音方法v汉语由音素构成声母或韵母有时,将含有声调汉语由音素构成声母或韵母有时,将含有声调(汉语通常认为有五个声调)的韵母称为(汉语通常认为有五个声调)的韵母称为调母调母由单个调母或由声母与调母拼音成为单个调母或由声母与调母拼音成为音节音节汉语的一汉语的一个音节就是汉语一个字的音,即音节字由音节字个音节就是汉语一个字的音,即音节字由音节字构成词(其中主要是两音节字构成的两字词,约占构成词(其中主要是两音节字构成的两字词,约占74%74%),最后再由词构成句子国际上,都是用音标),最后再由词构成句子国际上,都是用音标来描述拼音过来描述拼音过程的汉语也不例外汉语拼音的音程的汉语也不例外汉语拼音的音标包括:声母表、韵母表和声调符号等标包括:声母表、韵母表和声调符号等 汉语音节的一般结构汉语音节的一般结构汉语的声调汉语的声调v汉语是一种汉语是一种声调语言声调语言,相同声母和韵母构成的音节随声调的,相同声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的汉字。
汉语普通不同而具有完全不同的意义,对应着不同的汉字汉语普通话的声调只有阴平、阳平、上声、去声以及话的声调只有阴平、阳平、上声、去声以及“轻声轻声”等五种等五种声调2 2.4 .4 语语音音生生成成系系统统和和语语音音感感知知系系统统语音发音系统语音发音系统 v人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口这些器官共同形成一条形状复杂的管道这些器官共同形成一条形状复杂的管道v喉的部分称为喉的部分称为声门声门v从声门到嘴唇的呼气通道叫做从声门到嘴唇的呼气通道叫做声道(声道(Vocal TractVocal Tract))v声道的形状主要由嘴唇、颚和舌头的位置来决定由声道形声道的形状主要由嘴唇、颚和舌头的位置来决定由声道形状的不断改变,而发出不同的语音状的不断改变,而发出不同的语音 语音听觉系统语音听觉系统v人耳由人耳由内耳内耳、、中耳中耳和和外耳外耳三部分组成三部分组成语音听觉系统语音听觉系统v人的听觉系统有两个重要特性,一个是耳蜗对于声信号的人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时时频分析特性频分析特性;另一个是人耳;另一个是人耳听觉掩蔽效应听觉掩蔽效应。
v如果信号是一个多频率信号,则产生的行波将沿着基底膜在如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度从这个意义上讲,耳蜗就象一个不同的位置产生最大幅度从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量频谱分析仪,将复杂的信号分解成各种频率分量v并非所有的声音都能被人耳听到,这取决于声音的强度和其并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围心理声学中的听觉掩蔽效应是指,在一个强信号频率范围心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了附近,弱信号将变得不可闻,被掩蔽掉了 2.5 2.5 语音信号生成的数学模型语音信号生成的数学模型v建立了语音信号的数学模型,才能够用计算机来定量地对语建立了语音信号的数学模型,才能够用计算机来定量地对语音信号进行模拟和处理音信号进行模拟和处理v理想的模型是线性的和时不变的理想的模型是线性的和时不变的语音信号是非平稳随机过语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。
但语音信号特性随着时间变化是很缓慢的时间而变化的但语音信号特性随着时间变化是很缓慢的所以可以作出一些合理的假设,将语音信号分为一些相继的所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程这样在这些短段时间内表示语着时间变化的平稳随机过程这样在这些短段时间内表示语音信号时,可以采用音信号时,可以采用线性时不变模型线性时不变模型 激励模型激励模型v激励模型一般分成浊音激励和清音激励来讨论发浊音时,激励模型一般分成浊音激励和清音激励来讨论发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波这个脉冲由于声带不断张开和关闭,将产生间歇的脉冲波这个脉冲波的波形类似于斜三角形的脉冲,波的波形类似于斜三角形的脉冲,它的数学表达式如下:它的数学表达式如下: 式中,式中,N1为斜三角波上升部分的时间,为斜三角波上升部分的时间,N2为其下降部分的时为其下降部分的时间单个斜三角波波形的频谱的图形如图单个斜三角波波形的频谱的图形如图2-182-18所示由图可由图可见,它是一个低通滤波器。
见,它是一个低通滤波器激励模型激励模型v上式表示斜三角波形可描述为一个二极点的模型因此,斜上式表示斜三角波形可描述为一个二极点的模型因此,斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果而该单位脉冲串及幅值因子则可表示成下面的模型的结果而该单位脉冲串及幅值因子则可表示成下面的z z变换形式:变换形式: 所以,整个浊音激励模型可表示为:所以,整个浊音激励模型可表示为: 也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串 声道模型声道模型v关于声道部分的数学模型,有多种观点,目前最常用的有两关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法种建模方法v一是把声道视为由多个等长的不同截面积的管子串联而成的一是把声道视为由多个等长的不同截面积的管子串联而成的系统按此观点推导出的叫系统按此观点推导出的叫“声管模型声管模型”v另一个是把声道视为一个谐振腔,按此推导出的叫另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰共振峰模型模型” v共振峰模型,把声道视为一个谐振腔。
共振峰模型,把声道视为一个谐振腔基于物理声学的共振基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:峰理论,可以建立起三种实用的共振峰模型:级联型级联型、、并联并联型型和和混合型混合型 声道模型声道模型 级联型级联型v这时认为声道是一组串联的二阶谐振器从共振峰理论来看,这时认为声道是一组串联的二阶谐振器从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了点模型就可以了它的传输函数可分解表示为多个二阶极点它的传输函数可分解表示为多个二阶极点的网络的串联:的网络的串联: 声道模型声道模型 级联型级联型激励模型激励模型V1V2V3V4V5辐射模型辐射模型语音G声道模型声道模型 并联型并联型v对于非一般元音以及大部分辅音,必须考虑采用零极点模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型此时,模型的传输函数如下:此时,模型的传输函数如下: v通常,通常,N>RN>R,且设分子与分母无公因子及分母无重根,则上,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:式可分解为如下部分分式之和的形式:声道模型声道模型 并联型并联型声道模型声道模型 混合型共振峰模型混合型共振峰模型 辐射模型辐射模型v从声道模型输出的是速度波从声道模型输出的是速度波 ,而语音信号是声压波,而语音信号是声压波 ,二者之倒比,二者之倒比称为辐射阻抗称为辐射阻抗 。
它表征口唇的辐射效应,也包括圆形的头部的绕射效它表征口唇的辐射效应,也包括圆形的头部的绕射效应等当然,从理论上推导这个阻抗是有困难的但是如果认为口唇张应等当然,从理论上推导这个阻抗是有困难的但是如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况此时,可推导出辐射阻抗的公式如下:此时,可推导出辐射阻抗的公式如下: 式中,式中, ,这里,,这里, 是口唇张开时的开口半径,是口唇张开时的开口半径, 是声波传是声波传播速度图播速度图2-23 2-23 显示了辐射阻抗的实部和虚部的频率响应曲线显示了辐射阻抗的实部和虚部的频率响应曲线v由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器高通滤波器 语音信号的数学模型语音信号的数学模型 v综上所述,完整的语音信号的数学模型可以用三个子模型:综上所述,完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。
如图所示:激励模型、声道模型和辐射模型的串联来表示如图所示: 它的传输函数可以表示为:它的传输函数可以表示为:2.6 2.6 语音信号的特性分析语音信号的特性分析语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性 v在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间波形可在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性下图是汉语拼音以看出语音信号的一些重要特性下图是汉语拼音“sou kesou ke”的时间波形表示的时间波形表示这段语音波形采用的采样频率是这段语音波形采用的采样频率是8kHz8kHz,量化精度是,量化精度是16bit16bit语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性v语音信号属于短时平稳信号,一般认为在语音信号属于短时平稳信号,一般认为在1010~~30ms30ms内语音信内语音信号特性基本上是不变的,或者变化很缓慢于是,可以从中号特性基本上是不变的,或者变化很缓慢于是,可以从中截取一小段进行频谱分析截取一小段进行频谱分析下图给出下图给出“sousou”中音素中音素“ouou”的傅里叶变换的傅里叶变换 :频率/kHz幅度/dB语音信号的语谱图语音信号的语谱图 v 语音的时域分析和频域分析是语音分析的两种重要方法。
显然这两种单语音的时域分析和频域分析是语音分析的两种重要方法显然这两种单独分析的方法均有局限性因此,人们致力于研究语音的时频分析特性,独分析的方法均有局限性因此,人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为把和时序相关的傅立叶分析的显示图形称为语谱图语谱图((SonogramSonogram,或者,或者SpectrogramSpectrogram)语音信号的统计特性语音信号的统计特性v语音信号的统计特性可以用它的波形振幅概率密度语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量如均值和自相关函数来描述表函数和一些统计量如均值和自相关函数来描述表示语音信号的统计特性的概率密度的估算方法是根示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段语音信号的大量取样数据的幅据长时间范围内一段语音信号的大量取样数据的幅度绝对值计算出其度绝对值计算出其幅度直方图幅度直方图,然后,根据统计的,然后,根据统计的振幅直方图,寻找近似的概率密度表达式振幅直方图,寻找近似的概率密度表达式语音信号的统计特性语音信号的统计特性v通过对语音信号的统计特性的研究表明,语音信号振幅分布通过对语音信号的统计特性的研究表明,语音信号振幅分布的概率密度有两种逼近方法,一种是修正伽玛(的概率密度有两种逼近方法,一种是修正伽玛(GammaGamma)分)分布概率密度函数布概率密度函数v另一种是拉普拉斯(另一种是拉普拉斯(LaplaceLaplace)分布概率密度函数)分布概率密度函数 1.什么叫语音?什么叫语言?人们说话的过程可分为哪五个阶段?每个阶段的主要内容是什么?2.人类的发音器官包括哪些部分?在发音时各部分都起什么作用?音调频率有什么因素决定?发声时声道是如何活动的?3.人类的听觉器官包括哪些部分?在听音时他们是如何起作用的?基底膜是如何起关键作用的?4.人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?5语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器? 语音信号处理基础知识语音信号处理基础知识。
