多媒体技术 音频编码基础和标准.pps
29页2.3 音频编码基础和标准2.3.1 音频编码基础 2.3.2 音频编码标准1 12.3.1 音频编码基础一、压缩编码的必要性 二、音频编码基础 三、音频编码的分类2 2压缩编码的必要性多媒体音频数据的存储和传输中,必 须压缩数据利用音频编码压缩数据高质量音频采样数据率(每秒比特数): 信号类型频率范围 (HZ) 采样率 (KHZ) 量化精度 (位) 数据率 (位/秒) 话音 200~3400 8 8 64k 高质量音频20~20K 44.1 16 705.6k 压缩编码数据率: 信号类型数据率 (位/秒) 压缩编码 标准 数据率 (位/秒) 数据率 (字节/分钟) IP 话音 64k G.723 5.3k 40K 705.6k 44.1 128k 960k3 3压缩编码的必要性数据压缩造成音频质量的下降、计算量的增 加人们在实施数据压缩时,要在音频质量、数 据量、计算复杂度三方面进行综合考虑各领域的专家致力于算法的研究,众多的企 业致力于芯片和产品的研制,国际标准化组织也 先后推出一系列建议高质量高效率的音频压缩技术广泛地用于多 媒体应用、音像制品、数字广播、数字电视等领 域。
4 4音频编码基础从信息保持的角度讲,只有当信源本身具有 冗余度,才能对其进行压缩根据统计分析结果 ,语音信号存在着多种冗余度,其最主要部分可 以分别从时域和频域来考虑另外由于语音主要 是给人听的,所以考虑了人的听觉机理,也能对 语音信号实行压缩1、时域信息的冗余度2、频域信息的冗余度3、人的听觉感知机理5 51、时域信息的冗余度l 幅度的非均匀分布一般语音中小幅度样本比大幅度样本出现 的概率要高,并且通话中必然会有间隙,更会出 现大量低电平样本因此.语音信号取样值的幅 度分布是非均匀的,可以采用非均匀量化对其编 码l样本间的相关对语音波形的分析表明,取样数据的最大相 关性存在于邻近样本之间,并且取样速率越高, 样本间相关性越强根据相关性,可利用N阶差 分编码技术,进行有效的数据压缩6 61、时域信息的冗余度(续)l 周期之间的相关虽然语音信号需要一个通路提供整个200 ~3400HZ的带宽,但在特定的瞬间,某声音只有 少数频率成分在作用,它们在周期域周期间,存在 着一定的相关性l 基音之间的相关人说话声音分为浊音和清音,浊音不仅有周期 间的冗余度,还对应于音调间隔的长期重复波形。
7 71、时域信息的冗余度(续)l 静音系数 两人间打,平均每人的讲话时间为通话总时 间的一半,另一半时间听对方讲听的时候—般 不讲活,而即使是在讲话的时候,也会出现停顿 声音间隔本身就是一种冗余,若能正确检测出 该静比段,便可“插空”传输更多的信息l 长时自相关函数上述周期间等相关性,都是在20 ms间隔内 进行统计的所谓短时自相关如果在较长的时问 间隔(如几十秒)进行统计,便得到长时自相关函 数8 82、频域信息的冗余度l 非均匀的长时功率谱密度在相当长的时间间隔内进行统计平均,可得到 长时功率谱密度函数.其功率谱呈现强烈的非平 坦性从统计的观点看,这意味着没有充分利用 结定的频段,有固有的冗余度l 语音特有的短时功率谱密度 语音信号的短时功率谱,在某些频率上出现峰值 ,这些峰值频率不只一个,但最主要的是第一和 第二个,由它们决定不同的语音特征9 93、人的听觉感知机理l 人的听觉具有掩蔽效应当两个响度不同的声音作用于人耳时,响度 较高的频率成分会影响对响度较低频率成分的感 受 l 人耳对不同频段的声音敏感度不同低频成分容易掩蔽高频成分即使是对同样 声压级的声音,人耳的实际感觉到的音量也是随 频率而变化。
l 人耳对语音信号的相位变化不敏感入耳听不到或感知极不灵敏的声音分量都 不妨视为冗余的1010音频编码的分类音频编码分位三类:l基于音频数据的统计特性进行编码,其典型 技术是波形编码其目标是使重建语音波 形保持原波形的形状;l基于音频的声学参数,进行参数编码,可 进一步降低数据率其目标是使重建音频 保持原音频的特性;l基于人的听觉特性,进行感知编码 1111音频编码的分类(续)波形编码:脉冲编码调制(PCM) 自适应脉冲编码调制(APCM)差值脉冲编码调制(DPCM) 自适应差值脉冲编码调制(ADPCM) 参数编码:预测方式:前向/后向, 短时/长时参数类型:LPC, LSP, CEP激励方法:编码策略:合成-分析法感知编码---MPEG,AC-312122.3.2 音频编码标准当前编码技术发展的一个重要的方向 就是综合现有的编码技术,制定全球的统 一标准,使信息管理系统具有普遍的互操 作性并确保了未来的兼容性国际上,对 于语音信号压缩编码的审议在CCITT下设 的第十五研究组进行,相应的建议为G系 列,多由ITU发表1313CCITT和ISO先后提出一系列有关音频编码的建 议,推荐的标准: 1972年:G.711--- 64kb/s PCM编码标准。
1984年:G.721---32kb/s 自适应差值脉冲编码(ADPCM)G.722--- 64kb/s 子带ADPCM编码标准G.723.1--- 5.3kb/s和6.3kb/s LSF G.726 ---16kb/s 1990年:G.727---16-40kb/s 镶嵌式ADPCM标准 1992年:G.728 /G.729---16kb/s LD-CELP 1988年:RPE-LTP---13kb/s长时预测规则码激励(欧洲) GSM 1989年:VSELP---6.7kb/s 矢量和激励线性预测(日本)14141、G.711—话音的PCM编码本建议公布于1972年,它给出话音信 号编码的推荐特性话音的抽样率为8KHz 每个样值采用8位二进制编码推荐使 用A律和μ律量化分别给出A律和μ律的定 义:将13位PCM码按A律、14位PCM码按μ 律转换8位编码15152、G.721---32kb/s的ADPCM这个建议是1984年公布1986年作 了进一步修订它用于64kb/s的A律或μ律 PCM到32kb/s ADPCM之间的转换,实现了 对PCM信道的扩容1616编码器的输入信号是64kb/s A律或μ律PCM编码。
首 先将其转换为标准PCM编码从中减去估计值Se(k),得 到差值信号d(k)15阶自适应量化器将d(k)量化成4位二 进制值I(k)逆量化器从这4位二进制数中产生量化的差 值信号dq(k)dq(k)和估计信号Se(k)相加得到重构信号 Sr(k)自适应预测器利用dq(k)和Sr(k)生成输入信号的 估计值S(k)64bit/s A律或U律 PCM转换为 标准PCMS++自适应 量化器自适应 预测器自适应 逆 量化器+d(k)I(k)32kbit/s输出dqSe(k)Sr(k)((a) ADPCM编码器I(k)k)1717(b) ADPCM 解码器32bit/s 输入自适应逆 量化器+转换为PCM同步编码 调节自适应 预测器64bit/sA 律或 U 律输出解码器包括一个与编码器反馈部分相同的结构,还 有A律或μ律的转换器,以及同步编码调节器同步编 码器用于防止同步级联编码(ADPCM-PCM-ADPCM)在某些 情况下产生累积失真用试图消除下一个ADPCM编码的 量化失真的方式调节PCM输出,以实现同步编码调节18183、G.722- 64kb/s SB-ADPCMG.722建议的带宽音频压缩仍采用波 形编码技术,因为要保证既能适用于话音 ,又能用于其他方式的音频,只能考虑波 形编码。
G.722编码采用了高低两个子带 内的ADPCM方案,高低子带的划分以 4KHz为界然后再对每个子带内采用类似 G.721建议的ADPCM编码,因此G.722建 议的技术方案可以简写为SB-ADPCM(子 带-自适应差分脉冲码调制)19194、G.728编码标准G.728建议的技术基础是美国AT&T公 司贝尔实验室提出的LD-CELP(低延时- 码激励线性预测)算法该算法考虑了听 觉特性,其特点是: ü以块为单位的后向自适应高阶预测; ü后向自适应型增益量化; ü以适应为单位的激励信号量化20205、MPEG中的音频编码MEPG中的MPEG I标准中规定了音频 编码标准,包括高质量音频编码方法,存 储表示和解码方法编码器的输入和解码 器的输出与现存的PCM标准兼容2121(1)编码器编码器处理数字音频信号,并生成存储 所需的数据流编码过程如下:Ø输入的音频抽样被读入编码器;Ø映射器建立经滤波的输入音频数据流的子带抽样表示Ø心理声学模型建立一组控制量化和编码的数据Ø量化和编码部分从已映射的输入抽样中生成一组编码符号Ø帧封装将来自其他模块的输出数据汇集成实际数据2222(2)编码层次根据应用需求,可以使用不同层次的编码 系统: ü层Ⅰ包括将数字音频变成32个子带的基本映射。
将数 据格式化成块的固定分段决定自适应位分配的心理 声学模型利用块压扩和格式化的量化器理论上, 层Ⅰ编码/解码的最少延时约为19ms ü层Ⅱ 提供了位分配,缩放因子和抽样的附加编码使 用不同的帧格式这层理论上的最小编码/解码延时 约为35ms ü层Ⅲ 采用混合带通滤波器来提高频率分辨率它增加 了差值量化(非均匀)、自适应分段和量化值的嫡编码 这层理论上的最小编码/解码延时为59ms2323(3)存储己编码的视频数据、音频数据、同步 数据、系统数据和辅助数据均可一并存人 同一存储介质中对存储器的存取也可能 包括在通信系统中的远程存取2424(4)解码解码器按编码器定义的语法接收压缩的音频 数据流、按解码部分的方法解出数据元素,产生 数字音频输出其过程如下:ü 数据流输入到解码器 ü 帧扩展进行数据流拆封,恢复出各种信息 ü 重构单元将重构一组映射抽样的量化方案 ü 逆映射单元把这些抽样变换回均匀PCM25256、DOLBY AC-3AC-3音频编码标准的起源是DOLBY (杜比)AC-1AC-1应用的编码技术是 自适应增量调制技术,它把20kHz的宽带 立体声音频信号编码成512kb/s的数据流 。
AC-2采用类似MDCT的重叠窗口的FFT 编码技术,其数据率在256kb/s以下AC- 2被应用在PC声卡和综合业务数字网等方 面2626AC-3的工作原理杜比AC-3是种感知型编码方式,它利 用心理声学原理:较强的声音信号可以掩 蔽临近频段中较弱的信号换言之,如果 在某一频段中出现了一个较强的信号,那 么该频段中所有低于某一门槛值的信号都 将被强信号掩蔽掉,成为人耳不可闻的信 号滤除这缜弱信号将不会对音质产生不 良影响,而且能减少编码后的数据量,所 以可以把它们作为噪声信号来对待 2727AC-3 的5.1声道5.1声道为环绕声系统由五个全频域声 道加一个超低音声道组成,其中五个声道 包括前置的“左声道” (L) 、“中置声道” (C)、“右声道”(R)、后置的“ 左环绕 声道”(LS)和“右环绕声道”(RS),第 六个声道也就是超低音声道包含了一些额 外的低音信息,使得一些场景如爆炸、撞 击声等的效果更好2828AC-3可编程解码器2929。





