好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第4章音频媒体的压缩编码.ppt

90页
  • 卖家[上传人]:豆浆
  • 文档编号:6216578
  • 上传时间:2017-08-08
  • 文档格式:PPT
  • 文档大小:827.50KB
  • / 90 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 音频媒体的压缩编码标准与技术,第四章,本章内容,音频信号的相关概念 音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率…音频信息压缩编码技术标准体系 G.7XX系列和MPEG-X系列G.7XX声音压缩编码技术 各标准的编码方法;编/解码器等MPEG-X声音压缩编码语音识别,话音技术的研究热点,话音压缩编码(Speech Coding)话音识别(Speech Recognition)文本话音转换(Text To Speech),4.1 音频信号,声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音声音是一种波,由两个参数描述:频率:声音的尖锐程度振幅:声音的大小,又称响度音频信号是指处在20Hz~20kHz频率范围的声音音频频率范围 低频声音(Infra-sound): 0Hz-20Hz 人类听觉频率范围的声音: 20Hz-20kHz 高频(Ultrasound): 20kHz-1GHz 超声波(Hypersound): 1GHz-10THz,音频信号,声波图示,其中包含两个重要参数:频率和振幅,音频信号,根据音频信号占用频谱的不同,可以将音频信号分为3类:1.语音信号:又称话音信号,是人在正常情况下发出的一种声音,频率范围大约为300Hz~3.4KHz。

      2.音乐信号:各种乐器发出的声音,频率范围大约为20Hz~20kHz3.噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它4.1.1 音频信号的数字化,音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化音频信号的数字化,对声音信号进行采样时,一般使用音频范围的ADC(模数转换器)进行不同的ADC主要区别于以下两个重要参数:(1)采样频率: 采样频率是指每秒钟采集声音样本的个数它的取值应该满足Nyquist Theory,即采样频率fs应该大于等于声音信号中最高频率fm的两倍 采样频率的单位是:Hz或samples/s 如:数字的采样率为8KHz2)采样精度: 采样精度用样本位数来表示 样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近 采样精度的单位是:bits/sample采样频率越高,采样精度越大,则数字化声音效果越好,但是需要的存储量就越大因此在实际应用中,需要折中考虑声音质量和存储量的问题另外一种表示精度的方法是信噪比(SNR),表示为:,其中,Vsignal表示信号电压, Vnoise表示噪声电压,SNR的单位为分贝(dB)。

      信噪比越高,声音质量越好声音硬件:,4.1.2 音频信号压缩编码的可行性与分类,对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码压缩的可能性存在于:(1)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等2)利用人的感知特性进行压缩3)根据话音产生机理进行压缩衡量语音编码性能的主要因素有:编码质量;编码速率;算法复杂度音频信号压缩技术,音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点: 1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到 .2.人的听觉存在屏蔽效应当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关 . 声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的音频信号压缩编码的分类,根据压缩编码思想的不同,把音频编码技术分为三类:(1)波形编码(Waveform Coding)(2)源编码(Source Coding),参数编码(3)混合编码(Hybrid Coding)波形编码: 没有利用语音信号自身的特点。

      波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致一般来说,这种编译码器的复杂程度比较低,数据速率在16 kb/s以上,质量相当高低于这个数据速率时,音质急剧下降如:1.CD质量音频数据量:2x44100x16 b/s2.质量音频数据量:8Kx8 b/s PCM (DPCM 56Kb/s;ADPCM 32Kb/s).,源编码(参数编码): 参数化,利用语音信号的特点进行数据压缩音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音 例如:信道声码器的工作原理: 将语音信号基于语音分析原理分解成一系列频率分量,将这些分量在信道中传输 接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音 此方法可以将语音的传输速率降低至2.4Kb/s,甚至更低 混合编码: 混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间使用的激励信号波形尽可能接近于原始话音信号的波形。

      例如CELP 下图表示了目前这三种编译码器的话音质量和数据率的关系图 普通编译码器的音质与数据率,4.1.3 声音类别与数据率,声音根据频带分为5类:(1)(Telephone)声音(2)调幅(Amplitude Modulation)广播声音(3)调频(Frequency Modulation)广播声音(4)数字音频光盘(CD-Audio)声音(5)数字录音带(Digital Audio Tape)声音这些不同的声音数据区别于采样频率、采样精度、通道数、数据率和频率范围等参数声音类别与数据率,宽带音响: 20Hz-20kHz,声音类别与数据率,我们所熟悉的数字音频文件格式如下表所示:,未压缩的声音文件的存储量可用下式计算:存储量(B)=(采样频率HZ×采样位数bit×声道数×时间秒)/8,4.1.4 声音质量的度量,声音质量的度量分为:客观质量度量和主观质量度量声音客观质量的度量用信噪比来展开: 信噪比(SNR)越大,声音质量越好;反之,信噪比越小,声音质量越差声音主观质量的度量是利用人的感觉(听觉)来进行度量,主观平均判分法(MOS),通常分5分: 1分:劣(极反感);2分:差(讨厌但不反感);3分:中(有点讨厌);4分:良(基本可以接受);5分:优(效果很好),声音质量的度量,部分编码器的MOS分,4.2音频信息压缩编码技术标准体系,常见的音频压缩编码准则有ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列。

      G.7XX是一组 ITU-T 标准,用于音频压缩和解压缩它主要用于方面在技术中,有两个主要的算法标准,分别定义在 μ-law 算法(美国使用)和 A-law 算法(欧洲及世界其他国家使用)中两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单MPEG-X是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码1.质量的音频压缩编码技术标准信号频率规定在300Hz~3.4kHz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz,进行8bit量化时,所得数据速率为64kb/s,即一个数字PCM标准G.711 ,1972年CCITT为质量和语音压缩制定,其速率为64Kb/s,使用非线性量化技术,主要用于公共网中ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做32 kb/s ADPCM在此基础上还制定了G.721的扩充推荐标准G.723,使用该标准的编码器的数据率可降低到40 kb/s和24 kb/sG.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2∶1的数据压缩。

      2.调幅广播质量的音频压缩编码技术标准 频率在50Hz一7kHz范围G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbit/s, 224kbit/s可以被压缩成64kbit/s.采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbit/s可以被压缩成64kbit/s,最后进行数据插入(最高插入速率达16kbit/s),因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号)3.高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是50Hz~20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbit/s采样频率为48kHz,44.1kHz,32kHzMPEG音频压缩技术的数据速率为每声道32~448kbit/s,适合于CD-DA光盘应用目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频MPEG-1和MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码(perceptual audio coding)。

      4.2.1 G.7XX系列音频信号压缩编码标准,G.711 ―― 64 kbps 信道上的语音频率脉冲编码调制(PCM)G.721 ―― 32 kbit/s 自适应差分脉冲编码调制(ADPCM)G.722 ―― 64 kbit/s 下的 7 kHz 音频编码 G.722.1 ――带有低帧损耗的具有免提操作的系统在 24 kbit/s 和 32 kbit/s 上的编码 G.722.2 ――利用自适应多频率宽带(AMR-WB)以 16 kbit/s 多频率语音编码,G.723: G.723是一种以24Kbps运行的基于 ADPCM 的有损耗压缩标准其音质不如非压缩的 G.711PCM 标准以及基于 SB—ADPCM 的 G.722标准G.723.1和G.723.2用于H.324标准G.726 ―― 40、32、24、16 kbit/s 自适应差分脉冲编码调制 ADPCM G.727 ―― 5-、4-、 3-和 2-bit/s 嵌入式自适应差分脉冲编码调制 ADPCMG.728 ――利用低延迟代码线性预测以 16 bit/s 进行语音编码G.729 ――利用共扼结构-代数激励编码线性预测(CS-ACELP)以 8 bit/s 进行语音编码,4.2.2 MPEG-X系列音频信号压缩标准,MPEG-1制定于1992年,为工业级标准而设计。

      它处理音频时,具有CD(指激光唱盘)音质,质量级别基本与VHS相当MPEG-1是针对整个音频范围的声音进行编码,采样频率为48kHz、采样精度为16位的立体声数据压缩到256b/s时,即在6:1的压缩率下,即使是专业测试员,也难以分辨出是解压声音还是原始声音4.2.2 MPEG-X系列音频信号压缩标准,MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率MPEG-2可提供CD级的音质MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.