好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

语音的压缩编码.ppt

48页
  • 卖家[上传人]:pu****.1
  • 文档编号:579640831
  • 上传时间:2024-08-27
  • 文档格式:PPT
  • 文档大小:971.50KB
  • / 48 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第13章 语音的压缩编码 Slide 1内容一、引言二、数字语音的波形编码三、数字语音的参数编码 四、数字语音的混合编码 一、引 言 Slide 3数字语音压缩编码的可能性•声音信号中包含有大量的冗余信息–邻近样本之间有很大的相关性–周期之间的相关性–基音之间的相关性–长时(几十秒)自相关性–话音间歇(静音)•可以利用人的听觉感知特性进行压缩,•可以利用语音信号的生成机理进行数据压缩 Slide 4语音压缩编码方法分类•波形编码 (Perception model-based compression)–优点 : 通用、音频质量较高–缺点 : 很难获得较大的压缩比–示例 : PCM, ADPCM, SBC•参数编码,源编码 (Production model-based compression)–优点: 压缩比较大–缺点: 信号源必须已知–示例: LPC•混合编码(Hybrid compression)–示例 : CELP Slide 5三类语音编码器性能比较极低低中码率(kb/s)1 2 4 8 16 32 64优 良 中 差 坏语音质量模型编码(源编码)•参数编译码器(source codecs)混合编码•混合编译码器(hybrid codecs)波形编码• 波形编译码器(waveform codecs) Slide 6数字语音编码标准标准方法比特率质量时间应用G.711PCM644.41972PSTNANSI 1015LPC-102.42.71976保密通信G.721ADPCM324.11984PSTNGSM(欧洲蜂窝通信)RPE-CELP133.61991ANSI 1016CELP4.83.21991G.728低延时CD-CELP164.01992IS 54(北美TDMA) VSELP83.51992IS 96(北美CDMA) QCELP1-83.41993日本蜂窝通信 VSELP6.83.31993G.729A CS-ACELP84.21995IPG.723.1(H.323, H.324) ACELP6.33.981995IP半速率GSM(欧洲蜂窝通信) AMR5-63.41995新的低速率ANSI标准 MELP2.43.31996 二、数字语音的波形编码 Slide 8波形编译码器※ 算法比较简单,容易实现,低延迟,※ 压缩效率不高,数据速率在16 kbps以上,※ 声音质量相当好,※ 通用性好,适用于任意类型的数字声音,※ 很成熟,有一系列国际标准:※ CCITT G.711 PCM 64kb/s※ CCITT G.721 ADPCM 32Kb/s※ CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s※已广泛应用于语音的中继线传输 Slide 9CCITT G.711 (脉冲编码调制) Pulse Code Modulation (PCM) of Voice Frequency•编码过程:对数变换(压缩编码)F(n)低通滤波 (LPF)Xa(t)x(n)A/D(13位)取样(8kHz)X(n)•分析:•方法简单,易实时处理,•语音质量好, •压缩效率不高,码率为64kbps。

      码率=104 kbps码率= 8位 x 8k=64 kbps Slide 10对数变换 F=ln(x)•目的 : 适应听觉的非线性特性;压缩数据•北美和日本等地区 ( μ律压扩算法)当 0 =< |x| =< 1/A当 1/A < |x| =< 1•欧洲和中国大陆等地区 ( A律压扩算法) Slide 11压扩算法的实现 x(n): 线性码(1+12位) F(n): PCM码(1+7位) 0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y ZXa(t)取样(8kHz)A/D(13位)x(n)A律 / u律压缩编码8位 x 8kHzF(n) Slide 12 PCM 的应用•应用于数字声音的编辑处理(多媒体计算机)•应用于声音的传输(通信): 长途 (8 KHz x 8 bit x 1), 时分多路复用TDM (time-division multiplexing) •应用于全频带数字声音的表示/存储: CD-DA(CD唱片),DAT (44.1 KHz x 16 bit x 2) Slide 13ADPCM自适应差分脉冲编码调制 (Adaptive Differential PCM)Ø原理:1.声音信号具有很强的相关性,可从已知信号来预测未知信号, 即使用前面的样本预测当前的样本,实际样本值与预测值之间的误差往往很小。

      2.利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,Ø效果:量化位数可以显著减少,从而降低了总的码率 Slide 14增量调制(DM) Slide 15量化器 Q( m阶线性预测,A1, A2, ... , Am可自动修正)实际样本值线性预测公式: Xn = A1*Xn-1 + A2*Xn-2 + ... + Am*Xn-m_线性预测器逆量化器 Q -1+预测值差值重建信号DPCM编码输出•利用样本与样本之间存在的相关性进行编码,即根据前面的样本估算当前样本的大小,然后对预测误差进行量化编码差分脉冲编码调制 DPCM Slide 16E量化结果-255~-240-239~-224:-31~-16-15~01~1617~32:225~240241~255-248-232:-24-8824:232248130,150,140,200,230f’ = 130, 130, 142, 144, 167e = 0, 20, -2, 56, 63e’ = 0, 24, -8, 56, 56f’’ = 130, 154, 134, 200, 223举例 Slide 17自适应脉冲编码调制(APCM)•根据输入样本幅度的大小来改变量化阶大小。

      •可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化量化器 Q样本值量化阶适配器自适应APCM编码输出 Slide 18量化器 Q13位自然码的数字语音样本_线性预测器逆量化器 Q -1+预测值差值重建信号DPCM编码输出CCITT G.721 ADPCM编码器A量化阶适配器自适应( 4 位 )• 6阶自适应线性预测,• 4位的自适应量化器,• 输出码率: 8k x 4 = 32 kbps Slide 19ADPCM 小结•PCM话音质量 4.5级•ADPCM话音质量 4.34级,码率降低一倍(32 kbps)•ADPCM应用:–数字语音通信–多媒体应用中的语音(解说词) Slide 20Sub-band coding (子带编码)•基本原理:–利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带)–低频部分能量较集中,量化精度要高,取样频率可稍低–高频部分是摩擦音、噪音,量化精度可低些,但取样频率要稍高–不同子频带作不同的ADPCM编码处理,然后再复合在一起 Slide 21MUX64kbps SBC数据插入部件辅助数据输入16kHz,14bits, 数字声音传输正交镜象滤波器 (TQMF)4-8kHz0-4kHzXHXL 高频带 ADPCM编码器8000, 2bits16 kbps 低频带 ADPCM 编码器8000, 6bits48 kbps模式1:声音—64kbps;辅助数据— 0 模式2:声音—56kbps;辅助数据— 8 kbps模式3:声音—48kbps;辅助数据— 16kbpsG.722: 64 kbps的声音子带编码 二、数字语音的参数编码 Slide 23参数编码(源编码)的设计思想•分析人的发声器官的结构及语音生成的原理,•建立语音生成的物理(数学)模型,•编码时:从话音波形信号中提取生成该话音的参数;•解码时:根据语音生成模型,使用这些参数合成原始话音。

      提取语音生成参数语音生成模型(编码器)语音参数数字语音使用参数合成语音语音生成模型(解码器)重建的语音 Slide 24语音生成过程(1)•空气由肺部呼出,经过声带,送入声道,最后从嘴唇呼出,产生声音•声音信号具有短期相关性(持续时间1 ms左右)•声道是一个谐振腔,说话时,声道形状不断变化,引起谐振频率改变,大约10 ~100 ms改变一次;•声道可以看作为具有共振特性的一个滤波器,由于声道形状变化比较慢,因此该滤波器的转移函数(transfer function)只需要每20ms左右时间修改一次 声道声带空气语音 Slide 25语音生成过程(2)•声道滤波器由肺部空气经过声带而激励,根据激励的模式,语音可分成2类:浊音(时间域)–浊音Voiced sounds (声带震动,产生准周期的空气脉冲激励信号,送入声道)清音(时间域)–清音Unvoiced sounds(声带不振动,声门始终处于“开”状态,送入声道的空气激励信号是一种无周期性的噪音信号) Slide 26语音生成的声道滤波器模型(1) Slide 27语音生成的声道滤波器模型(2)LPC模型= (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)脉冲序列发生器随机噪声发生器基音周期T(声带振动)(声带不振动)UV(清音)V(浊音)H(z)声 道 参 数a1 a2 a3 a10...语音(声道滤波器)s(n)增益Gu(n)激励信号 Slide 28•语音是一个近似的短时(10~30ms)平稳随机过程,LPC模型的参数A = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)变化比较慢, 大约每20ms变化一次;•假设语音信号的取样频率为8kHz,将每秒钟分成50帧,每帧 20ms(其中有20x8=160个样本) ,每一帧的所有信号近似地满足同一模型,即每一帧语音可以使用同一组参数来表示:–浊音还是清音(1位)–浊音的基频T(6位)–音源的幅度G(5位)–线性滤波器的参数(10个参数,每个参数6位,共60位)语音的参数编码(LPC分析) ——从已知的数字语音信号中提取参数所以,每秒总码率为:50 x 72 bits = 3600 bps = 3.6kbps Slide 29如何确定LPC的系数(1)•对声音波形的编码实际就转化为如何提取语音生成模型的参数,经典的方法是线性预测编码LPC。

      •每一个样本都用过去10个样本的线性组合来预测: spre(n) = - [a1s(n-1)+a2s(n-2)+…+a10s(n-10)]•样本s(n)的预测误差为: e(n) = s(n) - spre(n) = s(n) + a1s(n-1)+a2s(n-2) +…+a10s(n-10)10个样本s(n-10) s(n-2) s(n-1) s(n) Slide 30•问题:对给定的一帧信号s(n) ,n=[0..159],怎样选择系数ai 使得预测误差e(n)的平方和为最小? 即 E=∑[s(n)+a1s(n-1)+a2s(n-2) +…+a10s(n-10)]2 最小 •为此,上式对a1, a2, …, a10 分别求偏导数得到一组差分方程 dE/da1 =0, ∑[s(n)+a1s(n-1)+a2s(n-2) +…+a10s(n-10)]s(n-1)=0 dE/da2 =0, ∑[s(n)+a1s(n-1)+a2s(n-2) +…+a10s(n-10)]s(n-2)=0 ….. , dE/da10 =0, ∑[s(n)+a1s(n-1)+a2s(n-2) +…+a10s(n-10)]s(n-10)=0 如何确定LPC的系数(2) Slide 31求解系数 ai的线性方程组R(1,1) R(1,2) R(1, 3) ….. R(1,10) a1 -R(0,1) R(2,1) R(2,2) R(2, 3) ….. R(2,10) a2 -R(0,2) R(3,1) R(3,2) R(3, 3) ….. R(3,10) a3 -R(0,3) . . . .... . .R(10,1)R(10,2) R(10, 3) ….. R(10,10) a10 -R(0,10) =其中 R(i, j) = ∑s(n-i)·s(n-j), 是信号s(n)的自相关性n=0159-k Slide 32如何确定LPC的系数(3) —如何确定其他3个参数(V/UV,G,T)•浊音/清音的判定–比较困难,不正确的分类会大大降低语音质量–使用语音信号过零点的数目来判定; i∈[12,140] •基音周期T的估计–是生成高品质、高清晰语音的关键–常用方法:SIFT基音检测法,AMDF基音检测法•激励信号的增益G Slide 33例1 2.4kb/s LPC语音编码器•20ms作为1帧,按帧进行编码•LPC系数的比特分配为:34 bit•增益G :7 bit•浊音/清音及浊音的基音周期T:7 bit•码率: 48x50=2.4kb/s Slide 34例 LPC-10编码器(ANSI 1015 , 2.4kb/s)•22.5ms作为1帧,以帧为单位进行编码,•LPC系数共10位,采用协方差方法计算,•浊音的基音周期T采用平均幅值差分函数(AMDF)计算,共60个值,范围51.3-400Hz,半对数表示,•激励信号:浊音采用标准化的存储波形•码率:54 x 1000/22.5 = 2.4 kb/s 参数 浊音 清音 a1 5 5 a2 5 5 a3 5 5 a4 5 5 a5 4 - a6 4 - a7 4 - a8 4 - a9 3 - a10 2 - V/UV 1 1 T 6 6 G 5 5 同步 1 1 误差保护 - 21 总计 54 54 Slide 35波形编码与参数编码的比较 波形编码 参数编码 1 码率高 码率低 2 音质好 音质差 3 算法简单 算法复杂 4 可处理任何声音信号 仅处理语音信号•参数编码的数据率在2-4 kbps左右,产生的语音虽然可以听懂,但其质量远远低于波形编码。

      尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上. 三、数字语音的混合编码 Slide 37参数编码的不足•参数编码在降低码率方面有很大突破,但语音质量尚不理想;原因是语音生成模型中的激励信号的处理过于简单:–不是清音就是浊音;实际上有些是浊音、清音的混合;–浊音的激励信号是周期性的,实际上是准周期性的;脉冲序列发生器随机噪声发生器基音周期(声带振动)(声带不振动)音源幅度音源幅度浊音清音线性滤波器声 道 参 数...语音(声道模型)激励信号改进思路:设计更好的激励信号 Slide 38混合编码的原理•思路: 使用合成-分析法AbS(Analysis-by-Synthesis)来改进参数编码, 其中声道滤波器模型仍与LPC编码器中的相同,但不使用两个状态(有声/无声)的模型作为滤波器的输入激励信号,而是增加反馈,调节激励信号u(n), 使语音输入信号s(n)与重建的语音信号误差e(n)为最小误差信号按感知加权误差最小?原始语音s(n)e(n)线性滤波器滤 波 器 参 数...合成语音激励信号的生成或选择激励信号u(n)s(n)^• 编码器通过“合成”许多不同的近似值来“分析”输入话音信号,所以称为“合成-分析编码器”。

      Slide 39•激励信号生成的方法:1. 多脉冲线性预测编码MPLPC(multiple pulse LPC)2. 等间隔脉冲激励RPE (regular-pulse excited) 3. 码激励线性预测CELP (code excited linear predictive)最佳激励信号u(n)的生成方法 Slide 40多脉冲线性预测编码 --MPLPC •将原始语音分为20ms长度的帧, 对每一帧计算出LPC的系数;•假设激励信号由k个脉冲组成,每个脉冲的幅度和位置待定;•从第1个脉冲开始,确定其幅度和位置;•若1,···,i-1个脉冲的幅度和位置已经确定,则确定第i个脉冲的幅度与位置;•上述过程重复k次,结束决定第i个脉冲的幅度与位置多脉冲激励发生器LPC合成器感知权重i=1..k原始语音合成语音u(n)重复k次1 2 3 4 5 ···· i i+1 ···· kt Slide 41等间隔脉冲激励LPC编码器 —Regular-Pulse Excited LPC•每一帧使用4组激励信号(即每5 ms有1组激励信号), 每一组激励信号使用13个脉冲,间隔时间相同,•编码器每5ms计算一次激励信号的参数(第1个激励脉冲的位置和所有其他脉冲的幅度),目标是使40-120个样本范围的预测误差序列的自相关达到最大:56 bit / 5ms–第一个激励脉冲的位置(相位2bit+量化因子6bit )–13个脉冲的幅值(13x3bit)–长时预测(LTP)系数(2bit), 长时预测延时(7bit)• 每20ms进行一次短时预测,确定LPC的系数(共36比特)每20ms需4x56+36=260bit, 码率=0.26x50=13kb/s Slide 42例 GSM (13kbps)语音编码器 (Global System for Mobile communications)每5ms产生一组由13个脉冲组成的激励信号序列(56bit)每5ms计算一次,使40-120个样本范围的短时预测误差序列的自相关达到最大LPC滤波器有8个系数,共36bit,每20 ms 计算一次每20ms生成4x56+36=260bit, 码率=0.26x50=13kb/s Slide 43码激励线性预测编码器 ( CELP,Code Excited LPC )•CELP算法, 1985提出。

      使用有限数量的激励信号存储在存储器中(称为码本),以替代多脉冲激励选用哪一个激励信号由码本的索引项指出,其增益项用来扩展它的功率•在CELP基础上制定的话音编码标准:–美国的 ANSI的 4.8 kbps codec–ITU的“low-delay 16 kbps codec Slide 44演演 示(示(1))"A lathe is a big tool. Grab every dish of sugar." 原始声音(PCM)ADPCMCELPLD-CELPCS-ACELPLPC-10 Slide 45演演 示(示(2)) 格式 码率1 min =Sample11,025Hz 16bit PCM 176.4kbs 1292k11k16bitpcm.wav8000Hz 16bit PCM 128kbs937.5k8k16bitpcm.wav11,025Hz 8bit PCM 88.2kbs646k11k8bitpcm.wav11,025Hz u-Law 88.2kbs646k11kulaw.wav8,000Hz 8bit PCM 64kbs468.8k8k8bitpcm.wav8,000Hz u-Law 64kbs468.8k8kulaw.wav* toll quality telephone11,025Hz 4bit ADPCM 44.1kbs323k11kadpcm.wav8000Hz 4bit ADPCM 32kbs234.4k8kadpcm.wav11,025Hz GSM6.10 18kbs131.8k11kgsm.wav8,000Hz GSM6.10 13kbs102.5k8kgsm.wav* cell phone quality8000Hz Lernout & Hauspie SBC 12.0kbs87.9k8ksbc12.wav8,000Hz DSP Group TrueSpeech 9kbs65.9k8ktruespeech.wav8,000Hz Lernout & Hauspie CELP 4.8kbs35k8kcelp.wav 四、小结 Slide 47从语音生成模型看语音编码•如果有足够的比特精确地描述激励信号,则对声音模型的要求就可以低一些(波形编码器)•如果分配给激励信号的比特很少,激励信号描述就很粗糙,那么对模拟语音生成过程的滤波器要求就很高(参数编码器);•采用合适的方法比较准确地描述激励信号和滤波器结构,就能达到编码效率高、声音质量好的效果(混合编码器)。

      滤波器激励信号语音• 语音生成(解码)的过程,可以统一地看作是一组激励信号经过滤波器滤波后得到的滤波器用于模拟语音的生成过程。

      点击阅读更多内容
      相关文档
      【全国硕士研究生入学统一考试政治】2020年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2015年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2010年考研政治真题.docx 【全国硕士研究生入学统一考试政治】1996年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2001年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2016年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2000年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】1997年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2007年考研政治真题.doc 【全国硕士研究生入学统一考试政治】1997年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2004年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2003年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2019年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2009年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2001年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2021年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2014年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2018年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2008年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2011年考研政治真题.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.