试述感知编码.docx
6页试述感知编码近年来,随着现代通信的发展,数字化日益渗透人们的日常生活,人们对各 种多媒体业务的需求日益增长,我们正享受着数字化带来的方便和快捷,卫星电 视、数字电视、各种数码音乐产品正改变着我们的生活于是便要求得到更多更 好的音频产品和服务数字声音作为一种存储、处理和传输高保真声音的方法, 在消费电子、专业声音等众多领域已得到广泛应用但是如果没有通用有效的高 质量音频编解码方案,数字存储和传输技术的进一步发展将会受到严重的束缚在当前所有的音频数字压缩技术中,比较成功的编码方式被称为“感知型编 码(Perceptual Coding)”,现在比较常用的MP3、MD等都是感知编码原理一般来说,数据压缩有两种方法一种方法是利用信号的统计性质,完全不 丢失信息的高效率编码法,称为平均信息量编码或熵编码第二种方法是利用接 收信号的人的感觉特性,省略不必要的信息,压缩信息量,这种方法称为感觉编 码因为熵编码可通过解码完全再现编码前的数据,故应用范围广泛 ,例如可 用于磁盘压缩、文件压缩等,在保存信息方面,完全不用担心劣化不过遗憾的 是,仅依靠熵编码不能将音频信号进行大幅度的数据压缩这是因为在音频信号 中会有白噪声信号,这种完全随机的信号,根据信息论是决不能用熵编码进行压 缩的。
因此在音频压缩中,必须同时采用感知编码 感知编码是利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性)、 人耳对信号幅度、频率、时间的有限分辨能力,凡是人耳感觉不到的成分不编码, 不传送,即凡是对人耳辨别声音信号的强度、音调、方位有贡献的部分(称为不 相关部分或无关部分)都不编码和传送对感觉到的部分进行编码时,允许有较 大的量化失真、并使其处于听阈以下,人耳仍然感觉不到简单的说感知编码是 建立在人类听觉系统的心理声学原理为基础,只记录那些能被人的听觉所感知的 声音信号,从而达到减少数据量而又不降低音质的目的目前音频压缩编码已成 为标准的是 MPEG-1 (ISO/IEC11172-3)、MPEG-2 (ISO/IEC13818-3)和美国大 联盟的AC-3他们都是感知编码一、为什么压缩了解数字音频首先要提到脉冲编码调制PCM(Pulse Code Modulation),它 是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的 编码系统,但也是数据量最大的编码系统 PCM 指模拟音频信号只经过采样、 量化、编码,模数转换成PCM信号,得到标准的数字音频码流,而未经过任何 编码和压缩处理。
根据奈奎斯特采样定律,通常其采样频率至少应当是信号中的最高频率分量 的两倍对于高质量的音频信号,其频率范围是从20Hz〜20kHz所以其采样频 率必须在40kHz以上在CD中采用了44.1kHz的采样频率普通CD线性PCM 的取样频率为44.1kHz,量化精度为16bit,动态范围为98db在对模拟信号采样 以后,还必须对其幅度上加以分层在 CD 中,其分层以后的幅度信号用 16 bit 的二进制信号来表示,也就是把模拟的音频信号在幅度上分为65536(216)层 这样,它的动态范围就可以达到96分贝(6分贝/比特))PCM 的编码原理比较直观和简单,它的原理框图如图所示借号輛匕在这个编码框图中,它的输入是模拟声音信号,它的输出是PCM样本图中的 “防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编 码器”可暂时理解为“采样器”,“量化器”可理解为“量化阶大小(step-size)” 生成器或者称为“量化间隔”生成器那么这种未经压缩的PCM信号的数据量具体有多大呢?以CD音质的信号 为例,它的单通道的采样率是44.1k Hz,每个样值是16bit的量化,而立体声CD 音质信号,有两个通道,它每秒的码流是44.1K x 16 x 2 - 1.4Mbit/s。
数字信号 传输率=取样频率x量化比特x通道数)一张CD唱片的容量约为680MB, 可以容纳约1小时的双声道PCM数字音频节目,由于这种编码方式所产生的数 据量太大,存储和传输都既不方便也不经济,有时甚至是行不通的对于电视广 播来说,数据传输速率越高,每套节目所需的频宽就越大,在频带资源日趋紧张 的今天,过宽的频带是不能允许的,同时对于有形载体(激光碟、磁带等),每 种载体的记录密度都是有限的(受当时技术发展程度的制约),增大数据量就意 味着缩短节目长度因此需要开发一种新的编码方式,它应该使用较少的数据量, 而又不会导致音质的主观听感有明显的下降二、感知编码原理1、 理论基础一一闻域和临界频段音频压缩理论是建立在心理声学模型基础上,从研究人耳的听感系统开始 的人耳实际上可看成一个多频段的听感分析器,在接收端的最后,它对瞬间的 频谱功率进行了重新分配,这就为音频的数据压缩提供了依据众所周知,声源振动的能量通过声波传入人耳,使耳膜发生振动,人们就产 生了声音的感觉但是人耳能听到的振动频率约在20Hz到20KHz之间,低于20Hz 或高于20KHz的振动,不能引起人类听觉器官的感觉心理声学模型中一个基 本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听 不到,因此就可以把这部分信号去掉。
听觉阈值的大小随声音频率的改变而改变, 各个人的听觉阈值也不同大多数人的听觉系统对2kHz〜5kHz之间的声音最敏 感一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频 率下的听觉阈值这就是说在听觉阈值以外的电平可以去掉,相当于压缩了数据 另外,听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音 而发生变化也许你有这样的体验,在一安静房间里的普通谈话可以听得很清楚, 但在播放摇滚乐的环境下同样的普通谈话就听不清楚了声音压缩算法也同样可 以确立这种特性的模型来取消更多的冗余数据2、 掩蔽效应心理声学模型中的另一个概念是听觉掩饰特性 掩蔽效应,即一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应前者称为掩蔽 声音(masking tone),后者称为被掩蔽声音(masked tone)掩蔽效应探讨的基础是感知编码中的一个重要的概念一一临界频段,即人 耳对不同频率段声音信号的反应灵敏程度有所差别人耳中包含了约3万个毛细 胞,它们能够检测到基膜的振动,通过生理脉冲将音频信息传到大脑,但这些细 胞在不同频率的敏感程度不同,在低频区域对几赫兹的差异都能分辨出来,而在 高频区域,必须要有几百赫兹的差别才能分辨。
所以,一般毛细胞会对其周围的 强刺激作出反应,这就是临界频段实验结果表明,在低频区域临界频段比在高 频区域临界频段窄,在低频段临界频段很窄,频段宽度只有100Hz至0200Hz,在 高于5000Hz以后的临界频段的宽度有1000 Hz至几万Hz的频段宽度3/4临界 频段低于5Khz,人耳可以接收到的低频信息高于高频信息掩蔽可分成频域掩蔽和时域掩蔽所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,即较强的声 音信号可以掩蔽临近频段中同时发声的较弱的信号这种特性称为频域掩蔽, 也称同时掩蔽(simultaneous masking)这时,掩蔽声在掩蔽效应发生期间一直起 作用,是一种较强的掩蔽效应换言之,如果在某一频段中出现了一个较强的信 号,那么该频段中所有低于某一门槛值的信号都将被强信号掩蔽掉,成为人耳不 可闻的信号掩蔽特性与掩蔽音的强弱,掩蔽音的中心频率,掩蔽音与被掩蔽音 的频率相对位置等有关通常,频域中的一个强音会掩蔽与之同时发声的附近的 弱音,弱音离强音越近,一般越容易被掩蔽;反之,离强音较远的弱音不容易被 掩蔽滤除这一弱信号将不会对音质产生不良影响,而且能减少编码后的数据量, 所以可以把它们作为噪声信号来对待。
除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩 蔽现象,并且称为时域掩蔽所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩 蔽声不同时出现时,又称异时掩蔽时域掩蔽又分为超前掩蔽(pre-masking)和 滞后掩蔽(post-masking),若掩蔽声音出现之前的一段时间内发生掩蔽效应,则 称为导前掩蔽;否则称为滞后掩蔽产生时域掩蔽的主要原因是人的大脑处理 信息需要花费一定的时间一般来说,超前掩蔽很短,只有大约5〜20ms,而滞 后掩蔽可以持续50〜200ms异时掩蔽也随着时间的推移很快会衰减,是一种弱 掩蔽效应詡備(sp4!l 佃-I I如上图左图所示,当有黑线所示的某频率信号存在时,靠近它的本来可以听 见的噪声B就变得听不见了,这种现象叫做频率掩蔽效应而如右图所示,当 某时刻有黑线所示的信号存在时,位于其后面的比它小一些的本来可听见的噪声 E也变得听不见了,这种现象称为时间掩蔽效应这些两种效应合成的结果,就K1間;爲Q三、感知编码器1、 感知编码器的特点感知编码器首先分析输入信号的频率和振幅,然后将其与人的听觉感知模型 进行比较编码器用这个模型去除音频信号的不相干部分及统计冗余部分。
尽管 这个方法是有损的,但人耳却感觉不到编码信号质量的下降感知编码器可以将 一个声道的比特速率从768kb/s降至128kb/s,将字长从16比特/取样减少至平均 2.67比特/取样,数据量减少了约83%感知编码器的有效性部分源自采用了自适应的量化方法在PCM中,所有 的信号都分为相同的字长,感知编码器则是根据可听度来分配所使用的字长重 要的声音就分配多一些位数来确保可听的完整性,而对于轻言细语的编码位数就 会少一些,不可听的声音就根本不进行编码,从而降低了比特速率编码器的压 缩率是输入的比特数与输出的比特数之比一般常见压缩率是4:1,6:1或12:1一般感知编码采用两种比特分配方案一种是前向自适应分配方案,所有的 分配都在编码器中进行,这个编码信息也包含在比特流中前向自适应编码的一 个突出优点是在编码器中采用了心理声学模型,它只是利用编码数据完全地重建 信号当改进了编码器中心理声学模型时,可利用现有的编码器来重建信号这 种方法的一个缺点是需要占用一些比特位来传递分配信息在后向自适应分配方 案中,比特分配信息可以直接从编码的音频信号中推导出来,不需要编码器中详 细的分配信息,分配信息也不占用比特位。
然而在解码器中的比特分配信息是根 据有限的信息推导出来的,精度必然会降低另外解码器相应也比较复杂,而且 不能轻易地改变心理声学模型感知编码有一定的抗噪性在PCM中误差引入了宽带噪声,而对于许多感 知编码器,根据预编码信号的典型带宽,噪声被限定在窄带内,因而限制了其强 度误差仅仅引入了一个低电平的噪声感知编码系统还对目标噪声进行校正, 例如对于极弱的声音、比较强的声音给予更多的保护象任何编码系统一样,感 知编码系统也是综合存储量、传输速率等因素来考虑的合适的误差校正方案由于感知编码器根据人耳的灵敏度来编码,它也可以输出放音系统所要求的 响度实况播送的音乐不通过放大器和扬声器而直接进入耳朵但是录制的音乐必 须通过放音系统由于感知编码器去除了不可听的信号成分,从逻辑上讲,加强 了放音系统传送可听音乐的能力简言之,感知编码器很适合对需要经过音频系 统的音频信号编码2、 压缩的实现一一子带压缩技术子带压缩技术是以子带编码理论为基础的一种编码方法子带编码理论的基本思想是将信号分解为若干子频带内的分量之和,然后对 各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率子带编码是将一个短周期内的连续时间取样信号送入滤波器中,滤波器组将 信号分为多个(最多32个)限带信号,以近似人耳的临界频段响应。
对于这些 子带,利用FFT将信号变换到频域分析其能量,利用心理声学模型来分析这些 数值,给出这组数据的合成掩蔽曲。





