
语音编码原理.docx
13页语音编码原理1 什么是声音2 语音信号3 语音编码技术3.1 语音编码的提出3.2 语音编码技术的类别4 语音编码的必要性(含目的)5 语音编码的技术指标6 各种语音编码技术比7 语音信号的数字化和预处理7.1 语音信号的数字化7.2 语音信号的预处理8 PCM 编码9自适应差分脉冲编码调制(ADPCM)9.1自适应脉冲编码调制(APCM)的概念9.2差分脉冲编码调制(DPCM)的概念9.3自适应差分脉冲编码调制(ADPCM)1 什么是声音声音是由物体振动产生,正在发声的物体叫声源声音以声波的形式传播 声音只是声波通过固体或液体、气体传播形成的运动声波振动内耳的听小骨, 这些振动被转化为微小的电子脑波,它就是我们觉察到的声音内耳采用的原理 与麦克风捕获声波或扬声器的发音一样,它是移动的机械部分与气压波之间的关 系自然,在声波音调低、移动缓慢并足够大时,我们实际上可以“感觉”到气 压波振动身体因此我们用混合的身体部分觉察到声音2 语音信号声音是携带信息的极重要的媒体,也是多媒体技术研究中的一个重要内容 而声音的种类十分繁多,因而有必要对其特性进行研究以利于计算机进行处理 声音是通过空气传播的连续波,其强弱体现在声波的压力上,音调的高低则体现 在频率上。
当用电信号表示时,则为时间和幅度均连续的模拟信号当用计算机 进行数字化处理时则需要将其数字化人耳能够听到的声音频率为20—20kHz,而 我们的发声频率则为80—3400Hz一般我们认为语音信号的频率范围是300— 3000Hz那我们发声的原理又是怎样的呢?当肺里面的空气沿声道通过声门就发 出声音一般男性的声道约为17 厘米(从声门到嘴唇),这也意味着声音号中有1 毫秒数量级的数据是具有相关性的由于声道形状和激励方式的变化相对的比较 缓慢,故话音信号在短周期内(约20毫秒)可认为是准定态又由于声门的准周 期性的震动和声道的谐振,话音具有高度的周期性话音编码器就是要揭示这种 周期性以减少数据率而又尽量不牺牲音质语音编码是把较高码率的数字化的话 音通过特定的压缩算法进行压缩编码,变为码率较低的参数进行传输,然后在接 受端再进行解码,恢复与重构,其目的就是在保证一定的话音质量的前提下节省 传输带宽一般来说,语音信号的频谱集中在300—3400Hz的范围内,则其对应的采样频 率一般为8KHz此外,语音信号还有另外一个重要特点就是它的短时性,即认为 在一段短时间内(典型为5—50ms ),语音信号有保持相对稳定的特性,这便于我 们提取其中的参数。
语音信号的基木组成单位为音素,可以分为“浊音”和“清音”,一般在短 时分析的基础上分析一段语音属于哪一类音素,它可以看作是由声带振动或不经 声带振动来产生浊音”一般对应汉语拼音中的韵母,它是由声带振动产生的, 有明显的周期性,可用一周期脉冲发生器进行近似;“清音”一般对应汉语拼音 中的声母,不由声带振动产生的,类似于一个随机噪声在说话的时候,声门处的气流冲击声带产生振动,然后通过声道响应变成语 音声道是一个分布参数系统,它有许多自然谐振频率,称为共振峰频率,是声 道的重要声学特征语音的频率特性主要是由共振峰决定的,当声音沿着声管传 播时,其频谱形状就会随着声管而改变声门脉冲序列具有丰富的谐波成分,这 些频率成分与声道的共振峰频率之间相互作用的结果对语音的音质具有很大的影 响语音信号压缩的基本依据是根据语音信号和人的听觉特性得到的① 语音信号的产生机理和结构性质表明,其自身存在着很大的冗余度,语音 压缩本质上就是通过识别这些冗余度并设法去掉它们,从而达到压缩比特率的目 的语音信号的冗余度归纳起来主要体现在:1) 语音信号样本间相关性很强,即其短时谱是不平的;2) 浊音语音段具有准周期性;3) 声道形状及其变化的速率是有限的;4) 传输码值的概率分布是非均匀的。
② 人的听觉具有“掩蔽”特点:1) 一个强的音能抑制一个同时存在的弱音的听觉;2) 人的听觉对低频端比较敏感;3) 人的听觉对信号的相频特性很不敏感3 语音编码技术3.1 语音编码的提出随着人们对多媒体通信要求的日益提高,现代通信网的传输量越来越大,媒体 压缩技术迅速发展语音压缩技术也处于不断发展中,实用系统的最低压缩速率已 经达到 2.4kbps 甚至更低,在大大节省信道带宽的同时还保证了话音质量由于 大容量通信信道的引入,一段时间内曾认为语音压缩技术已没有研究的必要,因为 语音压缩量相对于光纤信道容量来说已微不足道实际上,光纤信道目前也只是在 骨干网上得到应用,在接入网及支线的大规模应用仍需一定时间另外,无线领域 的信道带宽始终是一个突出的问题由此可见低速率语音编码技术仍然有广泛的 应用前景3.2 语音编码技术的类别语音数字化的技术基本可以分为两大类:第一类方法是在尽可能遵循波形的 前提下,将模拟波形进行数字化编码;第二类方法是对模拟波形进行一定处理, 因此,语音编码的方法归纳起来可以分成三大类:波形编码、参数编码和混合编 码① 波形编码 语音信号的波形编码力图使重建语音波形保持原始语音信号的波形形状,也 即失真要最小。
这类编码器通常将语音信号作为一般的波形信号来处理,它具有 适应能力强,语音质量好等优点,但所需用的编码速率高脉冲编码调制(PCM), 自适增量调制(ADM)、自适差分编码(ADPCM)、自适应预测编码(APC)、自适应子带 编码(ASBC)、自适应变换编码(ATC)等都属于这类编码器它们分别在64-16kb/s 的速率上能给出高的编码质量当速率进一步降低时,其性能会下降较快② 参数编码参数编码又称为声码化编码、模型编码同波形编码不一样,参数编码通过 对语音信号特征参数的提取及编码,力图使重建语音信号具有尽可能高的可读性 即保持原语音的语意,而重建信号的波形同原语音信号的波形可能会有相当大的 差别这类编码器的优点是编码速率低,例如可以低到2.4Kb/s,甚至2.4Kb/s以 下,它的主要问题是合成语音质量差,特别是自然度较低,连熟人都不一定能听 出讲话人是谁另外,它对讲话噪声敏感,需要安静的讲话环境这类编码器有 通道声码器,共振峰声码器及线性预测声码器③ 混合编码混合编码是近年来提出的一类新的语音编码技术,它将波形和参数编码结合 起来,力图保持波形编码的高质量和参数编码话音的低速率混合编码数字语音 信号中既包括若干语音特征参量又包括部分波形编码信息。
其比特率一般在 4-16kb/s 速率上得到高质量合成语音,而其复杂程度介于波形编码器和参数编码 器之间多脉冲激励线性预测编码((RPELPC),码激励线性预测编码编码器作为 一种CELP声码器,GMPLPC),规则脉冲激励线性预测编码(CELP)等都属于这类新 型的混合参数编码器4 语音编码的必要性(含目的)语音信号的数字化传输,一直是通信的发展方向之一语音编码是数字化语音 传输和存储的基础技术采用低速率语音编码技术进行语音传输比语音信号模拟 传输有诸如可靠性高、抗干扰能力强、便于快速交换、易于实现保密和价格低廉 等优势因此,它在通信系统中所占的比例不断提高这些实际应用推动了语音 编码、特别是低速率语音压缩编码的发展现代通信的发展趋势决定了语音编码 技术的两大突出优势:① 大大节省了带宽从最初的PCM64K编码到现在标准语音压缩协议如G.723 编码速率为5.3K或6.3Kbps; G.729编码速率为8Kbps还有未形成协议标准但更 低的编码速率已有成熟的算法可以实现,如 AMBE、CELP、RELP、VSELP、MELP、MP-MLQ、 LPC-10等多种语音压缩算法,最低编码速率达到2.4kbps,有些算法已在包括第三 代移动通信系统(3G)的多个领域得到应用。
② 便于实现与IP融合Internet的成功运用使得与IP的融合已成必然的发 展趋势分组语音,即将分组交换的概念与语音传输相结合,使得语音信息更易于 接入IP网而分组语音的关键技术之一就是语音编码技术,低速率的语音编码技 术对语音信息的实时性有更好的保证采用分组语音传输的网络,其传输的语音信 息本身就是分组数据包,这样的语音信息在接入Internet时将是非常的方便语音编码的目的,是在给定的编码速率下,使得从编码后的语音恢复出的重 构语音的质量尽可能高提高压缩效率的基本途径在于利用语音信号中的冗余度 和人耳的听觉特性语音编码既可用软件也可用硬件的方法实现软件实现就是 将压缩算法用软件方法实现,这样做的好处是成本低、修改方便灵活,但处理速度 较慢,不易保证处理的实时性采用硬件实现就是将语音压缩算法固化到专用 DSP 芯片中,这样处理速度快,便于实时处理5 语音编码的技术指标一般来讲,语音编码的输入语音是〃质量〃的语音,带宽限定在300-3400Hz 之间从模拟语音中获得这样的输入语音,需要进行的处理有抗混叠低通滤波、 8kHz采样和16位A/D变换等经过这一系列处理,模拟语音转化为速率为128kb/s 的数字信号,作为语音编码器的输入。
衡量一种压缩编码算法的主要指标,包括编码速率、语音质量、复杂度等 对应用于通信的语音编码器,衡量的指标还包括延迟和抗误码等 评价语音编码质量的方法包括客观评价和主观评价两类对中、低速率的语音编 码算法,客观评定方法常常很难反映人对语音质量的感受,因此主要使用主观评 定方法常用的方法有平均意见(Mean Opinion Score,简称MOS)分、判断韵字 测试(Diagnostic Rhyme Test,简称 DRT )、判断满意度测量 (DiagnosticAcceptability Measure,简称 DAM)等6 各种语音编码技术比各种语音编码技术比较参见下表编码速率最小基带宽度KHz质量PCM6432长途质量ADPCM3216长途质量△M3216通信质量SBC+ADPCM6432广播质量SBC168通信质量RELP—LTT 规则脉冲激励168通信质量LD—CELP 短延迟码激励168接近长途MPLPC多脉冲线性预测84通信质量CELPC码本激励线性预测4.82.4通信质量LPC线性预测2.41.2合成质量LPC+VQ1.20.6合成质量线性预测矢量量化表 1从数据通信的角度,音频编码标准主要有两种:一是在传输系统中应用 的音频编码标准,如PCM(ITU G.711)、ADPCM(ITU G.721)等可满足级的语音 质量要求;二是在电视传输系统、视频点播系统中应用的音频编码标准,如MPEG 音频标准,可提供立体声声音质量。
7 语音信号的数字化和预处理7.1 语音信号的数字化语音信号的数字化是数字处理的前提今年来,随着集成电路工艺不断提高, 单片的语音信号模拟接口电路包含有反混叠开关电容带通滤波器、A/D、D/A,以 及开关电容低通重构滤波器语音信号数字化过程如图1所示取样频率和相应 的滤波器特性可以由软件控制,这给语音数字化带来了极大的方便但有两个概 念必须强调:其一是取样频率必须大于或等于信号带宽的2倍,这就是Nyquist采样定理 的条件要求因此根据用途需要,对输入的语音信号作低通(反混叠)滤波,若 先滤波,后采样A/D转换,其滤波器应是模拟的,若先采样A/D转换,后滤波, 其滤波器就是数字的如果工频干扰(50Hz或60Hz)不严重或另有措施抑制,则 不必用带通滤波器而只需用低通。












