
语音音频.doc
9页语音/音频 编码 格式/标准LIVE555所支持的语音/音频编码格式/标准有:GSM,PCMA/PCMU,G726-16/24/32/40,SPEEX,AMR,AMR-WB,MPA(MPEG-1/MPEG-2),MP3,MP4-LATM(MPEG-4 LATM audio),L8/L16(8/16-bit linear audio)Mp3:在MPEG一1压缩中,按复杂程度规定了三种模式即层I,层Ⅱ,层Ⅲ 目前广泛使用的VCD的音频压缩方案为层I,它的典型的码流为每通道192kb/s层Ⅱ即称掩蔽模式通用子带集成编码与多路复用,典型的码流为每通道128kb/s,广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送层Ⅲ是综合于层Ⅱ和ASPEC的优点提出的混合压缩技术,MP3的复杂度相对较高,编码不利于实时,典型码流为64kb/s.AMR-WB:AMR—WB语音编码的计算复杂度很高,约为38.9WMOps(加权百万次操作每秒),算法的时延时25 ms它已经被3GPP标准化,是16Kb/s G.722标准的候选标准AMR-WB采用16kHz采样速率,采样带宽为5O一7000Hz,原始语音速率为256kbps。
相对于目前无线系统的窄带声码器,如:GSM增强全速声码器(Enhenced Full-Rate,EFR)、CDMA模式可选声码器(Selective Mode Voeoder,SMV)、3G WCDMA自适应多速率语音编码器AMR、CDMA2000增强型可变速率编码EVRC(IS一127)及Q码激励线性预测声码器QCELP(8K,13K),AMR—WB增加了5O一200Hz低端频率,提高了恢复语音的自然度、表现力(presence)和舒适度,扩展的3400-7000Hz的高频部分可以更好地区分摩擦音,增加了清晰度,使说话方语音的个人特征体现得更为充分作为适合无线系统的声码器,AMR-WB包含了语音端点检测(VAD)、源速率控制(SCR)、舒适噪声生成、丢帧佚帧错误隐藏等模块,并且能够根据无线信道质量和拥塞情况,灵活地采用6.60,8.85,12.55,14.25,15.85,19.85,23.05,23.85Kbit/s等九种编码输出速率模式.其中12.55kbit/s及以上速率模式能够提供高质量宽带语音质量AMR—wB是一种应用于第三代移动通讯系统的编解码器,同时也是第一个可同时用于无线和有线应用的编解码器。
它是仅有的一个提供众多特性的宽带技术,不仅包括了编解码器,而且还有VAD、CNG、DTX、负载格式以及同其他多媒体文件格式的接口使用AMR—wB编解码后的语音的自然度很高,可以用在3G移动通讯系统的多媒体服务、宽带包交换网络、音频和视频会议、聊天和虚拟现实等网络应用、数字无线广播等AMR:根据AMR协议标准,AMR声码器共有8种编码模式,它们的输出比特速率从4.75 Kb/s到12.2 Kb/s一般来说,合成语音质量的自然度和可懂度是衡量声码器的标准,而高比特率声码器的自然度比低比特率声码器要高但在移动通信系统的应用中,考虑到有限的传输速率,对高比特率声码器的输出所加的信道冗余保护要明显低于低比特率声码器,在恶劣的传输信道下,信道编码对接收端语音质量的影响要远大于声码器的具体算法所带来的微小的自然度的提高16 bit linear PCM(16 bit线性PCM):取样率为16 kHz的宽带语音,不经压缩的16 bit线性PCM编码比特率为256 kb/s这种编码提供了最高的质量和动态范围以及最低的计算的复杂度G.7l1:G.7l1是基于取样的编解码器,因此G.7l1 PCM律和A律压缩扩展可以和宽带16 kHz的语音取样共同使用。
有效的比特率是128 Kb/sG.711编解码器计算的复杂度很低,少于2个DSP MIps算法的时延是1个取样周期(0.065 ms)G.722:G.722编解码器使用子带自适应微分脉冲编码调制(SB—ADPCM)将宽带语音编码为64 Kb/s,56 Kb/s或48 Kb/s具体方法是将频带分成2个子带,每个子带用ADPCM(与G.726类似)来编码这种算法的计算复杂度适中,需要10—12 MIPS算法延时为2个取样周期(0.125 ms)G.722.1:G.722.1是一种低速率宽带编码,编码速率为24Kb/s或32 Kb/s在32 Kb/s时的话音质量与G.722SB—ADPCM在64 Kb/s时相同G.722.1使用了一种变换编码方案(Modulated Lapped Transform,MLT),帧长为20 ms这种算法的计算复杂度适中,需要14 MIps算法时延为40 ms(20 ms frame size+20 ms look—ahead)G.726:G.726有四种码率:,32,24,16kbit/s Adaptive Differential Pulse Code Modulation (ADPCM),最为常用的方式是32kbit/s,但由于其只是 G.711速率的一半,所以可将网络的可利用空间增加了一倍。
G.726具体规定了一个 64 kbpsA-law 或 µ-law PCM 信号是如何被转化为40, 32, 24或16 kbps 的 ADPCM 通道的在这些通道中,24和16 kbps 的通道被用于数字电路倍增设备(DCME)中的语音传输,而40 kbps 通道则被用于 DCME 中的数据解调信号(尤其是4800 kbps 或更高的调制解调器)G.726 encoder 输入一般都是G.711 encoder的输出:64kbps A-law or u-law.其算法实质就是一个ADPCM, 自适应量化算法MPEG--4 Audio:MPEG一4规范包括了多速率宽带CELP语音编码标准,速率范围为13.2-24 Kb/sMPEG一4标准制定了广泛多样的技巧和模式,如可配置工具箱而且译码表也可根据应用来设置取样率为16 kHz时可使用10ms或20 ms的帧长这种算法的复杂度很高,时延随模式和比特率不同而从18.75-41.75 ms变化MPEG-4的CELP算法提供不同的比特率,以及比特率、带宽、复杂度的可测量性SPEEX:Speex是近年来开发出的一种基于码激励线性预测算法的开源软件语音引擎。
它主要面向Internet上的语音通信其主要设计目标是为了提供高质量和低比特率的语音编码Speex编码支持多种比特率,如8 kHz采样的低比特率(窄带2.15~24.6 kbps)、16 kHz采样的中比特率(宽带3.95~42.2 kbps)以及32 kHz采样的高比特率(ultra-wideband)Speex提供了大多数别的编/解码器所不具备的技术性能,主要包括:可以在同一个比特流中对语音信号实现窄带(8 kHz)、宽带(16 kHz)和超宽带(32 kHz)的压缩;支持声音强度的立体声编码;具有丢包补偿能力;具有可变比特率(variable bitrate,VBR)特性,编/解码器可以在任意时刻动态地改变语音的比特率;能实现语音活动检测(voice activity detection,VAD);能实现声音的DTX(discontinuous transmission,不连续传输),当背景噪声稳定时,可以完全停止声音数据包的传送;具有语音处理的定点数计算功能(正在开发中);具有声学回声消除功能GSM:的输入是帧数据,一帧(20毫秒)由采样频率为8 kHz的带符号的160个样本组成,每个样本为13位或者16位的线性PCM码。
GSM编码器可把一帧(160×16位)的数据压缩成260位的GSM帧,压缩后的数据率为1625字节,相当于13 kbps由于260位不是8位的整数倍,因此编码器输出的GSM帧为264位的线性PCM码采样频率为8 kHz、每个样本为16位的未压缩的话音数据率为128 kbps,使用GSM压缩后的数据率为:(264bit×8000样本/s) / 160样本= 13.2 kbps GSM的压缩比:128:13.2 = 9.7,近似于10:1PCMU(G.711U)/PCMA(G.711A)类型:Audio制定者:ITU-T所需频宽:64Kbps(90.4)特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps优点:语音质量优缺点:占用的带宽较高应用领域:voip版税方式:Free备注:PCMU and PCMA都能够达到CD音质,但是它们消耗的带宽也最多(64kbps)如果网络带宽比较低,可以选用低比特速率的编码方法,如G.723或G.729,这两种编码的方法也能达到传统长途的音质,但是需要很少的带宽(G723需要5.3/6.3kbps,G729需要8kbps)。
如果带宽足够并且需要更好的语音质量,就使用PCMU 和 PCMA,甚至可以使用宽带的编码方法G722(64kbps),这可以提供有高保真度的音质ADPCM(自适应差分PCM)类型:Audio制定者:ITU-T所需频宽:32Kbps特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码它的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)缺点:声音质量一般应用领域:voip版税方式:Free备注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对 16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比 1:4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。
LPC(Linear Predictive Coding,线性预测编码)类型:Audio制定者:所需频宽:2Kbps-4.8Kbps特性:压缩比大,计算量大,音质不高,廉价优点:压缩比大,廉价缺点:计算量大,语音质量不是很好,自然度较低应用领域:voip版税方式:Free备注:参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输译码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号具体说,参数编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的准确性,但重建信号的波形同原语音信号的波形可能会有相当大的差别如:线性预测编码(LPC)及其它各种改进型都属于参数编码该编码比特。
