好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

语音信号的短时分析技术的.ppt

51页
  • 卖家[上传人]:镜花****ul
  • 文档编号:100168586
  • 上传时间:2019-09-22
  • 文档格式:PPT
  • 文档大小:1.07MB
  • / 51 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 语音信号的短时分析技术,分析是处理的前提和基础; 分析的目的是提取需要的信息,获取特征表示参数; 可分为时域分析、频域分析、同态分析等;模型分析与非模型分析等; 分析技术:短时分析 10~30ms相对平稳(5~50ms,20~200ms) 分析帧长一般为20ms,,常用的短时分析技术有: 短时能量 短时平均幅度 短时过零率 短时自相关函数 短时平均幅度差函数 短时频谱 短时功率谱,预滤波,预滤波的目的 防止混叠干扰 抑制50Hz的电源干扰 预滤波实际上是一个带通滤波器,其上下截止频率分别为fH和fL 对于绝大多数语音编码器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz. 对于语音识别系统而言,用于用户时要求技术指标与语音编码器相同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz,帧和加窗的概念,短时分析将语音流分为一段一段来处理,每一段称为一“帧”; 帧长:10~30ms,20ms常见;(帧率) 帧移:0~1/2帧长,帧与帧之间的平滑过渡;,为了减小语音帧的截断效应,需要加窗处理;,矩形窗,Hamming,Hann,不同的窗口选择(形状、长度),将决定短时平均能量的性质。

      什么样的窗口,其短时平均能量才能更好的反映语音信号的振幅变化哪? 首先是窗口的形状,窗口有多种形状,他们都是中心对称的 其次是窗口的长度,无论什么形状的窗口,窗口序列的长度N将起决定性的作用N选得太大,滤波器的通带变窄,波形的振幅变化细节就看不出来,反之,如果N太小,则滤波器的通带变宽,信号得不到足够的平均 所谓窗口长度的长短,都是相对于语音信号的基调周期而言的通常认为在一个语音帧内,应含有1—7个基调周期为好可是人的语音的基调周期值是变化的,从女性小孩的2ms到老年男子的14ms(即基调频率为500Hz至70Hz),所以N的选择是比较困难的通常折衷的选择N为100~200点为宜若采用频率为10KHz,则相当于每帧的长度(即窗口序列的长度)约为10~20ms为宜若采样频率为8KHz,200点相当于25ms,40帧/s;120点相当于15ms,66帧/s.,窗函数及其比较,三种窗函数都有低通特性,通过分析三种窗的频率响应幅度特性可以发现: 矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,哈明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛窗口的形状和长度对分析影响很大,不同的分析方法对窗函数的要求不尽一样;,Hamming,,Hann,矩形窗,语音信号的短时能量(语音信号强度的度量参数),如果窗的起点是n=0,短时能量为 如果窗的起点为n=m,短时能量为:,,,不同窗口宽度的短时能量函数示意图,短时平均能量的主要用途,可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多; 可以用来区别声母和韵母的分界、无声和有声的分界等 最为一种超音段信息,用于语音识别中。

      语音信号的短时平均幅度,如果窗的起点是n=0,短时平均幅度为 如果窗的起点为n=m,短时平均幅度为:,,,短时过零率 波形穿过横轴(零电平)的次数,短时过零可以看作信号频率的简单度量,语音信号的短时过零率Z,过零就是指信号通过零值过零率就是每秒内信号值通过零值的次数 对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数可以用相邻两个取样改变符号的次数来计算 如果窗的起点是n=0,短时过零率Z为,,将Z应用于语音信号分析中,发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低于3KHz的频率范围内 发清音时声带不振动,声道某部分阻塞产生类白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内 浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率浊音和清音情况下典型的平均过零率的直方图直方图的分布形状与高斯分布很吻合,而且浊音时的短时平均过零率的均值为14过零/10ms,清音时短时过零率的均值为47过零/10ms。

      注意到浊音和清音有一个交叠区域,此时很难分清是浊音还是清音,尽管如此,平均过零率仍可以粗略的判断清音和浊音短时平均能量和短时平均过零率两个参数,也都可以用于语音识别中主要用于识别无声段和语音段的起点和终点的位置 在背景噪声比较小的时候用平均能量来识别比较有效,在背景噪声比较大的时候用平均过零率来识别比较有效,但是通常情况是两个参数联合进行识别E、M、Z的条件概率密度函数,浊音、清音、无声的短时特性,S(无声)U(清音)V(浊音)三种情况下短时平均幅度的条件概率密度的示意图可以看出,浊音的短时平均幅度最大,无声的短时平均幅度最小清音的短时过零率最大,无声居中,浊音的短时 过零率最小语音有声和无声,在许多语音处理技术中需要判断一段输入信号中哪些是语音段,哪些是无声段(只有背景噪声) 在语音识别中正确的决定所要识别语音的起点、终点对于提高识别率往往是重要的 对于数字移动通信的手持机编译码器,在较长的无声段应降低发射功率以节约其电池的消耗语音有声和无声,对于已经判定为语音段的部分,尚需决定其清音或浊音,无论对于语音识别还是低速语音编译码器这都是很重要的这些问题可以概括为无声/有声判决以及更细致的S/U/V判决。

      能够实现这些判决的依据在于不同性质的语音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有一致的语音特性,它们不会在 S、U、V之间跳来跳去判断语音信号的起点和终点,在独立词(字)语音识别系统中需正确判定每一个输入语音的起点和终点,利用短时平均幅度和短时过零率可以做到这一点 首先,可根据浊语音情况下短时平均幅度M的概率密度函数P(M/V)确定一个阈值参数MH, MH的值定得比较高当一帧输入信号的M值超过MH时,就可以十分肯定该帧语音信号不是无声,而有相当大的可能性是浊音判断语音信号的起点和终点,根据MH可判定输入语音中的前后两个点N1和N2, N1和N2之间肯定是语音段,但是语音的精确起点、终点还要在N1之前和N2之后仔细查找为此在设置一个低阈值参数ML ,由N1向前找,当短时平均幅度M由大到小减至ML时可以确定点N1’ 类似由N2向后找,可以确定N2’ 在N1’和N2’之间仍能肯定是语音段判断语音信号的起点和终点,由N1’向前和N2’向后继续用短时过零率Z进行搜索根据无声情况下短时过零率Z的均值,设置一个参数Z0,如果由N1’向前搜索时Z始终大于Z0的3倍,则认为这些信号仍属于语音段,直至Z突然下降到低于3Z0值时,这时可以确定语音的精确起点(为了保证可靠,由N1’ 向前搜索时间不超过25ms)。

      对终点做同样的处理采取这一算法的原因在于, N1’以前可能是一段清辅音段(如f,s),它的能量相当弱,依靠能量不可能把他们与无声段区别开,而他们的过零率明显高于无声,因而能用这个参数来精确的判断二者的分割点,也就是语音真正的起点判断语音信号的起点和终点,另一种判断的方法是如果能够求出S、U、V三种情况下短时平均幅度M和短时过零率Z的条件联合概率密度函数P(M、 Z/S), P(M、Z/U), P(M、Z/V),那么就可以采用统计学中的最大似然算法,根据一帧信号的M和Z值来判断它的S/U/V就是计算后验概率: P(X/M,Z)=[P(M,Z/X)P(X)]/P(M,Z) 其中,X=S或U或V后验概率最大者即作为判决结果 事实上,仅依靠M和Z两个参数还是不够的,通常要选择更多的参数,如相关函数等短时自相关函数,1、是偶函数; 2、s(n)是周期的,那么R(k)也是周期的; 3、可用于基音周期估计和线性预测分析;,语音信号的短时自相关函数,假设 一段加窗语音信号,非零区间为n=0~N-1, 的自相关函数称为语音信号的短时自相关函数,,,,可以证明,自相关函数是偶函数,且在l=0处取得最大值,且值为短时能量,,修正的自相关函数,短时自相关函数的特点,浊音是周期信号,浊音的短时自相关函数也呈现明显的周期性,自相关函数的周期就是浊音信号的周期。

      清音接近于随机噪声,请音的短时自相关函数不具有周期性,且随着l的增大迅速减小 根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期语音信号的短时频谱,的离散时域付里叶变换,,称为语音信号的短时频谱,,,称为语音信号的短时功率谱,语音信号的短时频谱,窗函数w(n),语音信号S(n),,加窗语音信号Sw(n),,,DTFT,S(exp(jw)),,DTFT,W(exp(jw)),,DTFT,Sw(exp(jw)),计算短时频谱一般采用哈明窗,,,,短时平均幅度差函数(AMDF) Average Magnitude Difference Function Ross等人于1974年提出的,,短时基音周期估计,基于短时自相关函数的基音周期估计 最大峰与基音周期不一致,要求帧长大于两个基音周期; 受共振峰的干扰,可以采取滤波或中心消波预处理 基于短时AMDF的基音周期估计 需进行谷值点清晰度检查、比较复杂的阈值判决; 预处理可以改善效果; 对幅度变化比较敏感基于短时自相关函数的基音周期估计方法,短时自相关函数在基音周期的各个整数倍点上取得最大值,只要能找到第一最大峰值点的位置并计算它与l=0点的间隔,便能估计出基音周期。

      实际上,第一最大峰值点的位置有时不能与基音周期相吻合因此很多时候并不是计算l=0点的距离作为基音周期产生这种情况的原因: 与窗的选取长度有关,窗口过长或过短都会导致不一致通常认为窗长至少应大于两个基音周期,语音信号中最长的基音周期约为20ms,因此在基音周期估计时窗长应选的大于40ms 与声道特性的影响有,有时窗长足够长,但是第一最大值与基音周期仍不一致,这是主要由声道的共振峰特性造成的干扰1、60~900Hz的带通滤波器滤波,并用滤波信号的自相关函数进行基音周期的估计; 2、对语音信号进行非线性变换后求自相关函数,一种有效的非线性变换是中心削波,削波后基音周期的峰起更尖锐),语音信号的短时平均幅度差函数(AMDF),为了求基音周期,还可以采用短时平均幅度差函数,,对于周期语音信号,其短时平均幅度差函数也是周期性的在估计基音周期时,不论计算短时自相关函数还是短时平均幅度差函数,一般都采用矩形窗,基于短时平均幅度差函数的基音周期估计方法的特点,基音周期的谷点锐度比峰点的锐度要尖锐,估计的精度更高 计算短时平均幅度差函数不用乘法,计算量小 可以通过对语音信号进行谱平滑(去除共振峰的影响)和中心削波处理来改善基音周期估计的效果 短时平均幅度差函数对于语音信号的快速变化比较敏感。

      对基音周期轨迹的平滑,中值滤波 平滑点附近左右各取L个点,将2L+1个点按大小排列,取队列中间值作为平滑器的输出 线性滤波 通过一个低通滤波器 组合平滑 可以将两个中值平滑串联,或者将中值平滑和线性平滑串联,,基音估计的其他方法: 倒谱法(CEP) 简化的逆滤波器法(SIFT) 小波变换的方法 ……,基于短时自相关函数的基音周期估计方法,短时自相关函数在基音周期的各个整数倍点上取得最大值 但是很多时候并不是计算l=0点的距离作为基音周期 与窗的选取长度有关 与声道特性的影响有关(1、滤波; 2、对语音信号进行非线性变换后求自相关函数),语音信号的短时谱,语音信号的主要特征表现在它的 “短时频谱”(“短时谱”)上 短时谱的求得,短时功率谱,浊音、清音短时谱的特点,浊音短时谱的特点: 具有明显的周期性起伏结构 具有明显的凸起点,称为“共振峰”(formant) 清音短时谱的特点:随机噪声,短时功率谱示例,功率谱与自相关函数的关系,短时谱包络 需要。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.