
语音实时性能研究.pdf
56页R e s e a r c ho fR e a l —t i m eS p e e c h ’SP e r f o r m a n c eA b s t r a c tI nt h en e t w o r k ,i ti sa l w a y sr e g a r d e da so n eo fi m p o r t a n c er e s e a r c ht a s kw h i c hi sr e a l - t i m et r a n s m i s s i o no fs p e e c ho nn e t w o r k .I nt h i sp a p e r ,w eh a v ei n 廿o d u c e dm o d eo fs p e e c ha n dn u m e r i cc o d i n go fs p e e c ha n dr e a s o n so fn e t w o r kd e l a y .A c c o r d i n gr e a s o n so fn e t w o r kd e l a y , w eh a v ea d v a n c e dt w om e a n sf o ri n d u c i n gn e t w o r kd e l a yI ns p e e c hs e n d e r , w eo p t i m i z ec o d i n ga r i t h m e t i co fI T UG 7 2 3t h r o u g hi t sm a t hm o d e .S Ot h a tw ei n d u c ec o d i n gd e l a yi ns p e e c hs e n d e r .I ns p e e c hr e c e i v e r , w ea d v a n c ean e wa r i t h m e t i cw h i c hi sO n - l i n ea d a p t i v ea l g o r i t h mb a s e do np a s th i s t o r yW eh a v em a d ea ne x p e r i m e n to nt h i sa r i t h m e t i ct ov e r i f yp e r f o r m a n c eo fo u rn e wa r i t h m e t i c .T h r o u g ha b o v et w om e a n s ,w ec a no p t i m i z ep e r f o r m a n c eo fr e a l - t i m es p e e c hK E Y W O R D SP u l s eC o d i n gM o d u l a t e ,L i n e a rP r o g n o s t i c a t eC o d i n g ,L e v i n s o n - D u r b i na r i t h m e t i c ,T a l k s p u r t ,P l a y o u td e l a y , G .7 2 3A r i t h m e t i c ,D e l a yJ i t t e r ,V o i c eO v e rI P独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得盔鲞盘堂或其他教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意学位论文作者签名:痞钨近签字日期:z 嵋年,月,文目学位论文版权使用授权书本学位论文作者完全了解叁壅盘鲎有关保留、使用学位论文的规定 特授权苤盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘 保密的学位论文在解密后适用本授权说明)学位论文作者签名:庙鹞垃导师签名签字日期:2 B 年,月;口日压瓮办{签字日期∥;年≤月夕扩日第一章绪论1 .1 语音研究简介第一章绪论语音信号处理是研究用数字信号处理技术对语音信号处理的一门科学处理的目的是要得到一些语音参数以便高效的传输和存储;或者是通过处理的某种运算以达到某种用途的要求,例如人工合成语音和网络语音的传输等等语音信号数字处理是一f ] 涉及面很广的交叉科学,它与语音学,语言学,数理统计学以及神经生理学等学科有非常密切的关系计算机的高速发展对语音信号的数字处理提出了越来越高的迫切要求,同时也提供了效率不断提高的软硬件实现手段另~个方面,语音信号的数字处理是促使其它各项课题发展的重要动力之一,同时其它的很多研究成果也体现在有关语音的各项应用之中。
目前,世界科技界正在蓬勃开展的其它一些新研究课题,诸如模糊理论、混沌理论和子波信号处理等,也都能够在语音信号处理的研究中找到用武之地语音信号数字处理涉及一系列前沿科研课题,是目前发展最迅速的信息科学研究诸领域中的一个正如其它数字信号处理研究课题,语音处理的研究涉及三个方面互相紧密配合的任务和课题,这就是:应用、算法( 包括基础理论和软件)和硬件系统,三者缺一不可以语音编码为例,由于数字化的语音传输和存储,无论在可靠性、抗干扰、速交换、易保密和廉价格等方面都远胜于模拟语音从5 0 年代以来,在通信系统中数字化语音所占的百分比不断的增加,在I S D N ( 综合业务数字通信网) 、卫星通信、移动通信、微波接力通信和信息高速公路等系统中将无一例外的都采用数字化语音传输和存储1 .2 人类语音产生机理介绍语音即具有生理特性也具有声学特性,还跟语音学,语言学甚至心理学有很密切的关系人类的语音是由人体发音器官在大脑控制下的生理运动产生的~般来说,人类的发声器官主要由三个子系统组成:( 1 1 肺和气管一~一整个系统的能源( 2 ) 喉m 环状、甲状、杓状软骨声带( 声带之间的间隙称为声门1一~一一兰=兰丝笙——●_ _ _ _ _ ●_ _ _ - _ _ _ _ _ _ _ _ _ _ ^ - ——_ ——●_ _ _ _ _ _ _ _ _ _ _ _ - - _ _ _ _ _ _ _ - ——————- ●- ●_ _ _ _ _ _ _ _ _ _ _ ——————— ⋯激励生成机构( 3 ) 声道中咽喉①口腔 m 鼻腔 ~受激励系统,它对声音进行调制,形成语音一般来说,语音的产生过程是这样的:空气从肺部排出形成空气流,然后空气流经过声带带动声带松弛,既声带将周期性的启动和闭合。
声带启动时空气流从声门喷射出来,形成脉冲,声带闭合时相应与脉冲序列的间隙期由此可见,语音是由空气流激励声道产生的~般说来大体可分为两种功能:( 1 ) 激励:肺部的压缩气体,通过气管激励声门a 使声带产生振动,产生浊音周期激励————V o i c e db 清音:随机激励声带不振动一- - U n o i c e dm 发声:肺部的压缩气体,通过气管激励声门,使声带产生振动一一V o i c e d中耳语:声带闭合,空气通过声门引起湍流摩擦:声道受阻,f 发声、不发声皆可发生)中压缩:爆破音m 振动:非声门处的振动( 2 ) 调制:形成语音调制的主要方法是滤波操作,声道起了非常重要的作用语音既然是人的发音器官发出来的一种声波,它就和其他各种声音一样,也具有声音的物理属性,比如具有一定的音色,音调,音强和音长总体概括语音的发生系统应该具备如下几个特点:中惯性系统( 有记忆系统)中时变系统中短时平稳系统中声道可用线性系统近似浊音近似周期信号、能量大——塑二皇些丝一一———●- _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - - _ —————————●- ●_ _ _ _ _ _ _ - ●_ _ _ _ _ _ _ —_ ——_ - - _ _ _ _ _ _ _ _ _ _ ——————————o清音为非周期信号、能量小巾过渡音兼有两者特性1 .3 语音信号的简单数学模型从前面的讨论可知,语音是由空气流激励声道最后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来的。
语音声波由振动而产生并借助于介质质点的振动而传播因此要描述语音就必须描述发音系统中空气的运动,这涉及到质量守恒,动量守恒能量守恒等原理,还涉及到热力学和流体力学中的一些定律,因而描述方法很复杂这里我们介绍一种公认的语音简化模型,它是通过对语音的浊音和清音等激励分析得到的我们可以得到下面的框图,这是简化的( 只考虑清音、浊音两种情况) 语音产生的基本离散时间模型图1 .1 语音生成模型示意框图在上图中,清浊音开关模拟T D N 在声道上的激励的改变情况;当开关节在浊音位置时,激励源是准周期脉冲序列发生器,其重复频率由基音频率来确定;当开关节在清音位置时,激励源时随即噪声发生器图中的声道滤波器主要是来模拟声道的特性上图中以基音周期重复的脉冲序列激励声道滤波器产生浊音合成语音;以白噪声随机序列激励声道滤波器产生清音合成语音上图中的声道滤波器是用来模拟声道特性的,它主要是一个时变线性系统,一般来说,声道滤波器可以采用A R M A 模型近似下面我们就来简单介绍一下A R 模型A R ( A u t o r e g r e s s i v e ) 模型:在自回归模型中,Ⅳ0 1 只有极点,故又称为全极点模型。
第一章绪论 日e ) = —} ( 1 - 1 ) 卜乏n :z “若输入信号为x 0 ) ,N 阶全极点模型的输出信号y ∞) 能表示为自回归形式Ⅳ y 倒= @ 俐+ ∑口,y 伽一M A ( M o v i n g —A v e r a g e ) 模型:在滑动平均模型中,日t ) 只有零点,故又称为全零点模型厂M、 M 6 ) - - G I1 一∑叩“I ( 1 - 3 ) \k = l/相应的输出信号y 0 ) 是输入z 0 ) 的滑动平均厂M、 y 俐= G Ix 倒一∑b k x ( n 一纠i ( 1 - 4 ) \々= l/A R M A 自回归滑动平均模型:Ⅳe )厂M、 GJ1 一∑阢z “l二L —N 堕———2( 1 .5 )⋯, 1 一∑叩1A R M A 模型系数求解困难阶数足够高的A R 模型可以很好地描述声道滤波器,并且A R 模型有递归求解算法,故声道滤波器常采用全极点模型更进一步的模型如下所示:图I - 3 语音生成模型示意框图4在此情况下,辐射、声道以及声门激励的组合谱效应用一个数字滤波器来表示,其稳态系统函数的形式为: ㈣意∽6 )对于浊音语音,这个系统受冲击串激励:对于清音语音,则受随机噪声序列激励。
因此,这个模型的参数有:·浊音/清音分类·对于浊音语音的基因周期·增益参数G·数字滤波器的系数b )当然,所有这些参数都随时间缓慢变化:在极短的时段内,例如几毫秒,可以近似为短时时不变这种简化的全极点模型对于非鼻音浊音语音是一种合乎自然的描述,而对于鼻音和摩檫音,细致的声学理论表明声道传输函数既有极点又有零点如果预测器的阶数足够高,全极点模型可以表述几乎所有语音这个模型的主要优点在于可以用线性预测分析法对增益参数G 和滤波器的系数矗) 进行直接、高效率的计簋1 .4 人类对语音的敏感特性人的昕觉器官是耳,其作用是接受声音并将声音转换成神经刺激耳听到的声音后,还要经过脑的处理才能变成确定的含义,这就是对语音的感知实验表明,入耳能昕到的声音,其频率范围大约为:1 6 H Z ~1 6 K H Z ,年轻人的上限频率可延伸到2 0 K H Z ,老年人则减退为1 0 K H Z 低端频率听起来像脉冲序列,。
