好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于改进型谱减法的语音增强技术研究.doc

19页
  • 卖家[上传人]:公****
  • 文档编号:492244145
  • 上传时间:2023-10-07
  • 文档格式:DOC
  • 文档大小:1.74MB
  • / 19 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • .基于改良型谱减法的语音增强摘要本文主要研究改良型谱减算法在语音增强中的应用,目的是增强语音质量,减少语音失真和提高其可度懂我们首先介绍了语音增强的研究意义,然后介绍了语音信号的相关理论,进而阐述了语音增强的根本谱减法的原理,并在此根底上提出了一种改良型谱减算法该算法通过语音激活检测(端点检测法)来确定“寂静段〞〔纯噪声段〕,从而对噪声功率谱进展重新估计为了减小基音检测算法可能产生的检测误差,采用了组合递归平滑法来减小噪声谱估计的误差整个仿真实验中,我们对引入的加性噪声进展处理,其噪声谱估计的性能可在本文中的MATLAB仿真实验中表达仿真结果说明,该算法在去除背景噪声的同时,保证了较小的语音失真、提高了信噪比,到达了较好的测听效果最后,基于噪声与语音具有一定的相关性的实际情况,我们提出了算法的进一步改良设想,并对此思想做出了数学推导,得到了算法进一步改良的方向及可行性。

      关键词:语音增强;谱减法;噪声估计;端点检测;组合递归平滑;仿真实验;改良算法第1章背景介绍1.1研究背景人们在语音通信过程中不可防止地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰这些干扰最终将使接收者接收到的语音已非纯洁的原始语音信号,而是受噪声污染的带噪语音信号例如,安装在汽车、飞机或舰船上的,街道、机场的公用,常受到很强背景噪声的干扰,严重影响通话质量又如,室内会议的交混回响随同语音播送到每个会议地点,影响收听效果再如深海潜水员在氦-氧面罩内讲话引起的失真,语言障碍残疾人的语音失真,有历史价值的旧唱片、旧录音带的噪声和失真等,都是带噪语音信号的例子环境噪声污染使许多语音处理系统的性能急剧恶化例如,语音识别己取得重大进展,正在步入实用阶段但目前的识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响低速率语音编码,特别是参数编码(如:声码器),也遇到类似问题由于语音生成模型是低速率参数编码的根底,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂在上述情况下,语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途径。

      在实际需求的推动下,早在上个世纪60年代语音增强这个研究课题就引起人们的注意,此后40多年人们一直锲而不舍地进展这方面的研究随着数字信号处理理论的成熟,70年代曾形成一个理论研究高潮,取得了一些根底性成果,并使语音增强开展成为语音信号处理的一个重要分支进入80年代后,DSP(数字信号处理)技术的开展和成熟为语音增强的实时实现提供了可能语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学范畴再者,噪声的来源众多,随应用场合而异,它们的特性也各不一样即使在实验室仿真条件下,也难以找到一种通用的语音增强算法能适用于各种噪声环境,所以必须针对不同噪声,采用不同的语音增强对策目前,某些语音增强算法在实际应用中己经证明是有效的,它们大体上可分为四类:噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法语音增强的一个主要目标是从带噪语音信号中提取尽可能纯洁的原始语音然而,由于干扰通常都是随机的,从带噪语音中提取完全纯洁的语音几乎不可能在这种情况下,语音增强的目的主要有两个:一是改良语音质量,消除背景噪音,使听者乐于承受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。

      这两个目的往往不能兼得目前有一些对低信噪比带噪语音进展语音增强的方法,可以显著地降低背景噪声,改良语音质量,但并不能提高语音的可懂度,甚至略有下降语音增强是语音信号处理的一个重要分支,该技术已广泛应用于无线、会议、场景录音和军事窃听等领域语音增强技术无论在日常生活中,还是在军事领域,或者在语音信号处理技术中都很有应用价值因此研究语音增强算法有很重要的实用价值1.2 语音增强的历史和开展现状语音增强方法的研究始于20世纪70年代中期,随着数字信号处理理论的成熟,语音增强开展成为语音信号处理领域的一个重要分支1978年,Lim和Oppenheim提出了语音增强的维纳滤波方法1979年,Boll提出了谱相减方法来抑制噪声1980年,Maulay和Malpss提出了软判决噪声抑制方法1984年,Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法在近30年的研究中,各种语音增强方法不断被提出,奠定了语音增强理论的根底;并使之逐渐走向成熟近些年来,随着VLSI技术的开展和高速DSP芯片的出现,使语音增强的实时实现成为可能语音增强方法逐步走向实用,同时新的语音增强方法又相继涌现,如基于小波变换的方法,基于人耳掩蔽效应的方法等。

      目前常用的语音增强算法分为如下几类:基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法其中,谱相减法、维纳滤波法、最小均方误差法等算法的研究是基于短时谱估计的语音增强算法,这种方法力图获得语音信号频谱幅度的最优估计,是从观测序列中以最小均方误差准那么估计语音信号正交展开系数的模值该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点尽管该方法研究比拟早,但仍具有很强的生命力,成为应用最广泛的语音增强方法1.3 谱减法语音增强的研究现状S. Boll 假设噪声是平稳的或缓慢变化的加性噪声,并且语音信号和噪声信号不相关的情况下,提出了谱减法 (SS:Spectral Subtraction)该方法能够抑制背景噪声的影响,但由于其局部平稳性的假设与实际情况并不相符,因此效果不理想,残留的音乐噪声较大;Berouti在传统谱减法的根底上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制,提高了谱减法的性能,但是其修正系数和最小值是根据经历确定的,适应性较差;P. Lockwood在谱减法的根底上提出了非线性谱减法(NSS:Non-liner Spectral Subtraction),它根据语音信号的信噪比自适应调节语音增强的增益函数,提高了语音的信噪比,而信噪比并不能正确反映信号的听觉质量,因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量;Boh Lim Sim等人也提出了与此相近的改良算法,虽然提高了信号的信噪比,但残留的音乐噪声较大;Virag将人耳的掩蔽特性应用到非线性谱减法的增强算法中,局部解决了谱减法残留音乐噪声大的问题,但在信噪比拟低或非平稳的情况下,其增强效果不理想;I.Cohen 等人首先估计语音信号概率密度函数,然后在此根底上改良了对数谱估计算法,使得改良的算法对非平稳噪声具有良好的抑制作用,该算法的缺点是语音信号的概率密度函数较难估计。

      噪声参数估计的准确与否直接会影响谱减法语音增强效果,因此,带噪语音中背景噪声参数的估计问题值得关注1.4 本文主要的研究内容本文分析了根本谱减法的原理,并在此根底上提出一种改良型谱减法:基于语音活性检测(Voice Activity Detector)噪声估计方法进展噪声估计,从而减小噪声估计的误差然后,采用了组合递归平滑〔中值平滑与线性平滑的组合〕的方法更新噪声谱,并在此根底上应用谱减法进展语音增强,使处理后的语音更为接近纯洁语音,最后,MATLAB的仿真实验结果说明:该算法可以有效的提高语音听觉质量,其计算复杂度也不高第2章语音信号的根底理论2.1 人耳感知特性因为语音增强效果最终取决于人的主观感受,所以语音感知对语音增强研究有重要作用人耳对背景噪声有很大的抑制作用,了解其机理大大有助于语音增强技术的开展语音感知问题涉及到生理学、心理学、声学、和语音学诸多领域,其中有很多问题有待进一步研究目前已有一些结论可用于语音增强:1.人耳对语音的感知主要是通过其幅度谱获得的,而对相位谱不敏感2.人耳对频率上下的感受近似于该频率的对数值成正比3.人耳具有掩蔽效应,即强信号对弱信号有抑制作用,能够将其掩盖。

      4.共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进展一定程度的高通滤波不会对可懂度产生影响5.人耳在两个以上的说话环境中能够分辨出它所需要的声音6.人耳对频谱分量强度的感受是频率与能量谱的二元函数,响度与频谱幅度的对数成正比2.2 语音特性分析语音是人们讲话时发声器官发出的一种声波,具有声音的物理特性然而它又是一种特殊的声音,是人们用来交流信息的工具,因此语音是声音和语言的组合体语音和语言是研究人类话语的一门学科,它具有一定的音色、音调、音强和音长因此,有必要了解语音信号的一些根本特征浊音在时域上呈现出明显的周期性;在频域上有共振峰构造,而且能量大局部集中在较低频段内,而清音段没有明显的时域和频域特征,类似于白噪声人类的发声系统的生理构造的变化速度是有一定限度的,在一段时间内(10~30ms)人的声带和声道形状具有相对稳定性,可以认为其特性是不变的,因而语音的短时谱分析也有相对稳定性,在语音增强中可以利用短时谱的这种稳定性语音信号是非平稳、时变的,但又是准平稳、慢变的,因此短时处理技术是适宜的语音信号的时域特征参数主要有短时能量,短时过零率和短时能量比等。

      时域分析具有特征提取简单、运算量小、物理意义明确等优点,便于我们直观的认识语音信号但它的缺点是不能压缩维数,且不适于表征幅度谱特性因此频域的特性显得尤为重要短时分析应用于频域就是短时傅立叶变换相应的频谱称为“短时谱〞,即有限长度的傅立叶变换频域参数对于语音识别系统来说更为有效,这是因为频域特征参数能从不同角度反映幅度谱的特征,例如,频谱、频谱包络、倒谱系数、共振峰等2.3 噪声分类及其特性噪声来源于实际的应用环境,因而噪声特性可以说是千变万化噪声可以是加性的,也可以是非加性的对于非加性噪声,有些可以通过变换转变成加性噪声,例如,乘性噪声(或卷积噪声)可以通过同态变换而成为加性噪声又如,某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声加性噪声大体上可分为以下几种:白噪声、周期性噪声、脉冲性噪声、宽带噪声等周期性噪声的特点是有许多离散的窄谱峰,它往往来源于发动机等周期性运转的机械设备周期性噪声引起的问题可能最少,因为可以通过功率谱发现并通过滤波或变换技术将其去掉但是,其中交流噪声的抑制很困难,因为其频率成分不是基音(因为它在语音信号有效频率以下),而是谐波成分(它可能以脉冲形式覆盖整个音频频谱)。

      冲击噪声表现为时域波形中突然出现的脉冲,它通常是放电的结果消除这种噪声可以在时域进展,即根据带噪语音信号幅度的平均值确定阈值当信号幅度超出这一阈值时,判别为冲击噪声,在对其进展衰减甚至完全消除如果干扰脉冲之间不太靠近,还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉宽带噪声通常可以假定为高斯噪声和白噪声,它的来源很多,包括风、呼吸噪声和一般随机噪声源量化噪声通常作为白噪声来处理,也可以视为宽带噪声由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最为困难对于非平稳的宽带噪声,情况更为复杂2.4 语音信号的数字化和预处理语音信号的数字化一般包括放大。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.