好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

语音信号的带宽扩展.docx

4页
  • 卖家[上传人]:豆浆
  • 文档编号:20538209
  • 上传时间:2017-11-22
  • 文档格式:DOCX
  • 文档大小:10.62KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 2.3 带宽扩展的基本方法首先有个待限语音信号 snb(n),和窄带激励信号 enb(n),然后从窄带激励信号 enb(n)中生产处宽带激励信号 e^bb(n).下一步就是用估计的宽带谱包络来对宽带激励信号进行频谱整形原始信号是窄带语音信号,因此需要一个高通滤波器来除掉冗余的频率分量最后,估计得到的高频成分结合原始窄带信号中的低频成分得到宽带语音信号,实现了带宽扩展3.1 线性预测分析基本思想:语音信号的每个取样值都能够用过去若干个取样值的线性组合(预测值)来逼近,通过最小化是基于语音信号取样值和线性预测值之间的均方误差,赖觉决定一组预测器的系数为明确语音信号的时段和平均平方误差,本文提供了两种方法:方法 自相关方法 协方差方法适用条件 限制输入的语音信号 限制平均平方误差做法 用长度是 N 的矩形窗 用长度是 N 的矩形窗矩阵特性 对称并且是 Toeplitz 结构 对称;在计算误差范围外的语音采样点也是需要的3.2 谱包络的参数表示1.自回归系数(AR):用离散时变滤波器来模拟嘴和鼻窍,适用于语音编码和语音分析,2.倒谱系数:语音信号是激励信号和声道响应卷积得来的,利用倒谱法可以分别计算每个源信号和参数对语音的影响,倒谱法是对语音信号求 FFT,然后在对其求对数,再求逆运算。

      3.MFCCs:是利用人的听觉系统,人类对单个音调的感知强度与 MEL 频域的对数成正比;当同时发出两个频率相近的音调时,人类只能识别一个,一次两个频率必须相差一定带宽时,一定要有临界带宽MFCC 求取过程:a、语音信号的预处理:对语音进行预加重、有音无音检测、分帧及加窗处理、得到可以用于提取特征参数的语音向量b、对已经预处理的语音向量进行 DFT;c、将上步得到的离散频谱用序列三角滤波器进行滤波处理,得到一组系数;d、利用 DCT 将滤波器输出变换到倒谱域MEL 尺度把声音信号的频域空间向人的感知的频域空间进行映射,以使滤波器的空间尺度接近人类听觉的感知尺度在语音频带扩展方面,MFCCs 不如 LPC 及倒谱系数;在语音识别方面 MFCCs 却比 LPC 及倒谱系数更有优势4、线谱频率:在对频率量化时 LFS 的稳定性要好于 LPC3. 3 标量语音特性这些特性独立于谱包络:过零率:包含了一帧内信号穿过过零电平的次数信息,清音和噪音的过零率较高,浊音的过零率较低梯度指数:这个特型描述了关于信号方向改变的信息,在没有很大起伏的浊音帧时,梯度指数的值很小,在清音帧时,梯度指数很大基音频率:其语发音者的性别有关,提取基频的基本方法是自相关法:语音的短时自相关函数在基音周期的整数倍点上有很大的峰值,只要找到最大峰值点的位置,便能估计出基音周期。

      问题是—最大峰值点的位置有时不能同基音周期相吻合,原因是 a、可能是因为窗的长度太短,一般认为窗长至少应大于两个基音周期,才有好效果,语音中最长基音周期约为 20ms,因此窗长应大于 40msb、可能是声道特性的影响,主要是省道共振峰的影响,解决问题是用电平消波法,消波电平的确定方法:将输入的语音数据分为 3 个等长的子帧,分别在第一和第三子帧中寻找最大波峰值,消波电平取为两个峰值中较小的峰值和一个比例因子的乘积峰度:无量纲,一般浊音的峰度较低,在爆破音和元音的开始,局部峰度有很大的峰值,局部峰度很难区分强的浊音和清音,因此一般不用这个特性谱质心:谱质心定义为带限语音幅度谱的重心,谱质心的取值范围是 0—1,谱质心的大小主要取决于语音的浊音,对于浊音,谱质心的值是 0.28 左右基于能量特征:主要是在标量上可以整个语音的平均值能够区分语音与停顿;能够区分元音和擦音,元音> 擦音;可以运用在标量和矢量上归一化帧能量:在长期的估计中通过归一化短时能量,可以消除由于不同说话人、不同的记录和传播环境带来的能量差别相对帧能量:依于噪声检测,主要应用于背景噪声归一化相对帧能量:独立于短时能量的差异高通能量与低通能量的比值:用于区分清浊音,对清音此值很增大,应用的是高通滤波器与低通滤波器的比值,来保证系统的稳定性。

      3.4 距离测量在语音质量的测评,语音编码的码本训练,频带扩展和码书的研究都有重要作用对数谱偏差:主要比较谱包络对数谱的均方根偏差:倒谱距离:似然比距离:其他的谱距离测量:人类感觉系统的特性:频率越高,人类的分辨率越低;如果估计谱的幅度高于原始谱的幅度,就会有人工语音的产生4 激励信号的扩展4.1 窄带激励信号的估计从窄带语音信号中提取出窄带激励信号,首先运用低阶的预测误差滤波器来移动谱包络,也可以估计出窄带谱包络,窄带激励信号运用在时间域内,若要要运用在频域,可以运用DFT/FFT 来转换到频域4.2 用非线性特性扩展窄带激励信号1、 Half-way rectificationa、信号的平均值不在为 0;b、不在节省能量;c、可能产生含有基带频率的谐波2、 Full-way rectificationA、信号的平均值不在是 0;B、可节省能量;C、产生不包含基带频率的谐波信号3、 Quadratic characteristic(二次特征)A、输出平均值不再是 0;B、改变信号的能量;C、产生不含基带频率的谐波信号4、 cubic characteristic(立方特性)A、如果输入信号是 0 均值且是对称的密度分布,则其输出也是 0 均值;B、不能节能;C、产生包含基带频率的三次谐波、5、 Tanh characteristic(双曲正切)A、如果输入是 0 均值且是对称密集分布,则其输出也是 0 均值;B、函数不是能量节省;C、产生包含基带频率的几次谐波。

      6、 Benesty characteristic()A、不能节能;B、即使输入是 0 均值且对称密度分布,其输出也不是 0 均值;C、产生包含基带频率的谐波信号7、 Adaptive quadratic characteristic(自适应二次特征)自适应二次特征是应用线性和二次方的组合,其目的是限制输出的最大值和最小值A、 由于输入信号的幅度是跟踪的,则其就不会被裁剪;B、 低功率和高功率的输入都会被相同的非线性方式处理C、 自适应二次特征超越其他的方式4.3 应用频谱迁移或调制技术来进行扩展4.3.1 固定频谱偏移固定频谱偏移也就是用一个固定的频谱偏移量进行迁移,在高的和低的扩展区域内可以各自选择重复的频域段然而选择高频域段扩展的开始频域指针时,需要注意的是不要超过带宽所允许的最高带宽限制和乃奎斯特限制它的一个缺点是在宽展范围内相位信息也需要扩展,但可能不正确就会产生听觉的人工制造4.4 应用函数发生器进行扩展1、用正弦发生器对浊音进行扩展2、用白噪声发生器对清音进行扩展4.4.1 正弦发生器1、需要进行基音信号估计,工作在时间域2、正弦发生器的参数(幅度、频率)的获得:如果不是白信号的话,采用估计的带宽品谱包络来决定幅值、基音频率、谐波。

      正弦发生器的优点:A、幅值和频率的实际值和幅值和频率的理想值是不同的;B、由于是时间域处理,则在低频率阶段相位的节约产生的假音不会出现;C、不需要每个采样点或帧的基带频率的估计值,而是需要任何可靠地估计值4.4.2 白噪声发生器用于扩展清音信号,不需要任何的基音信息,由于清音信号在低的扩展区域内有较低的功率,所以用于扩展较低的区域是不合适的,但如果用于浊音(较低区域内) ,也会产生令人烦恼的人噪音,白噪声发生器是由一组移位寄存器产生的合适的长度的伪噪声序列,其值的范围是(0,1) 4.5 功率调整运用非线性特性的算法都不是节省功率的,因此调整宽展激励信号的功率是必要的4.6 总结扩展激励信号的最重要的问题是功率调整,估计宽带激励信号的功率与真实的稍微有点偏差就会影响听觉,并产生烦人的人工音在上部延伸区域与基音的不匹配不会影响质量,但是在低扩展区域内的估计宽带激励信号的基音不匹配将会严重影响语音质量在低扩展区的另一个问题是合成信号的相位由于本算法是基于块处理,那么在语音从一帧到另一帧是就会出现香味的不连续,这回产生强烈的人工音利用正弦发生器能够保留语音从一帧到另一帧的相位,但是它依赖于基音检测的鲁棒性。

      通过比较原始的宽带语音的谱包络和激励信号的扩展发现激励信号的扩展与谱包络的扩展而言不是很重要5 宽带谱包络的估计5.1 训练数据的准备和产生在训练码本、神经网络、线性映射之前,一个重要的前提条件是有足够多的已经提取过所需的特性的训练数据。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.