您所在位置：网站首页 > 办公文档 > 工作计划 > 第09讲音频编码技术

第09讲音频编码技术.ppt

50页

卖家[上传人]：M****1

文档编号：584857857

上传时间：2024-09-01

文档格式：PPT

文档大小：1.79MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 50 举报版权申诉马上下载

文本预览

下载提示

常见问题

第第09讲讲音频编码技术音频编码技术多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University一切能发出声音的物体称为一切能发出声音的物体称为声源声源声音是由于声源的振动声音是由于声源的振动而产生的，由于声源的振动，借助于它们周围的介质，而产生的，由于声源的振动，借助于它们周围的介质，把这种振动以机械波的形式由近及远地传向远方，把这种振动以机械波的形式由近及远地传向远方，这就这就是是声波声波声波传入人耳，致使耳膜也产生振动，这种振动声波传入人耳，致使耳膜也产生振动，这种振动被传导到听觉神经，人们就产生了被传导到听觉神经，人们就产生了“声音声音”的感觉我们的感觉我们日常听到的声音是一种日常听到的声音是一种模拟信号模拟信号声学基础知识声学基础知识声学基础知识声学基础知识● ● 声音定义声音定义声音定义声音定义声音是振动波，具有振幅、周期和频率声音是振动波，具有振幅、周期和频率声音是振动波，具有振幅、周期和频率声音是振动波，具有振幅、周期和频率● ● 声音的质量声音的质量声音的质量声音的质量简称音质。

音质与频率范围成正比，频率范围越宽音质越好简称音质音质与频率范围成正比，频率范围越宽音质越好简称音质音质与频率范围成正比，频率范围越宽音质越好简称音质音质与频率范围成正比，频率范围越宽音质越好声音具有连续性和过程性，数据前后相关，数据量大，具有实时性声音具有连续性和过程性，数据前后相关，数据量大，具有实时性声音具有连续性和过程性，数据前后相关，数据量大，具有实时性声音具有连续性和过程性，数据前后相关，数据量大，具有实时性● ● 声音的连续时基性声音的连续时基性声音的连续时基性声音的连续时基性● ● 声音三要素声音三要素声音三要素声音三要素(1) (1) 音调音调音调音调 — (— (高低高低高低高低) )(2) (2) 音强音强音强音强 — (— (强弱强弱强弱强弱) )(3) (3) 音色音色音色音色 — (— (特质特质特质特质) )多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声音的频率范围声音的频率范围多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University模拟波信号有三个要素：模拟波信号有三个要素：基线、周期和振幅基线、周期和振幅。

振幅振幅即波形的最高点（或最低点）与基线间的距离，它表示了声音音量即波形的最高点（或最低点）与基线间的距离，它表示了声音音量的大小周期周期是波形中两个相邻波峰之间的距离，它表示完成一次振动过程所需是波形中两个相邻波峰之间的距离，它表示完成一次振动过程所需的时间，的时间，其大小体现了振动的速度其大小体现了振动的速度频率频率是周期的倒数，周期越短，频是周期的倒数，周期越短，频率越高频率的单位为赫兹率越高频率的单位为赫兹(Hz)人的耳朵只能感觉到振动频率在人的耳朵只能感觉到振动频率在20Hz到到20 000 Hz之间的声波，超出此范之间的声波，超出此范围的振动波不能引起听觉器官的感觉围的振动波不能引起听觉器官的感觉其中，人耳对其中，人耳对400-4000HZ的声波最敏感的声波最敏感次声波次声波次声波次声波人耳可听域人耳可听域人耳可听域人耳可听域超声波超声波<20Hz 20<20Hz 20～～～～20,000Hz >20,000Hz20,000Hz >20,000Hz女女性性语语音音150Hz 150Hz ～～～～ 10,000Hz 10,000Hz电话语语音音200Hz 200Hz ～～～～ 3,400Hz 3,400Hz调调幅幅广广播播(AM)50Hz 50Hz ～～～～ 7,000Hz 7,000Hz调调频频广广播播(FM)20Hz 20Hz ～～～～ 15,000Hz 15,000Hz高高级级音音响响10Hz 10Hz ～～～～ 40,000Hz 40,000Hz男男性性语语音音100Hz 100Hz ～～～～ 9,000Hz 9,000Hz声声声声源源源源种种种种类类类类频频频频带带带带宽宽宽宽度度度度多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声音信号特性分析声音信号特性分析声音信号特性分析声音信号特性分析● ●时域时域起始起始——稳定稳定——结束结束● ●频域频域声音信号由正弦分量组成声音信号由正弦分量组成——周期、非周期周期、非周期频谱分析频谱分析——线状谱、连续谱线状谱、连续谱声音信号的描述声音信号的描述——声波频率、声压、声强声波频率、声压、声强人耳对声音的感觉通过声压或人耳对声音的感觉通过声压或声压级声压级描述描述——非线性非线性听域（听域（1kHz）：）：2×10-5Pa —— 0dB 痛域：痛域： 20 Pa —— 120dB多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University人耳听觉特性人耳听觉特性人耳听觉特性人耳听觉特性● ● 人耳对声音强弱的感觉特性人耳对声音强弱的感觉特性人耳对声音强弱的感觉特性人耳对声音强弱的感觉特性人耳对声音强弱的感觉与声压级成正比人耳对声音强弱的感觉与声压级成正比安静的环境和嘈杂的环境中人耳可以分辨的声音不同。

安静的环境和嘈杂的环境中人耳可以分辨的声音不同掩蔽掩蔽：一个频率声音的听域由于另一个声音的存在而上升的现象一个频率声音的听域由于另一个声音的存在而上升的现象掩蔽效应掩蔽效应：复合声音信号中，响度较低的声音频率分量被高者淹没复合声音信号中，响度较低的声音频率分量被高者淹没响度是听觉判断声音强弱的属性响度是听觉判断声音强弱的属性————主观，与声压级有一定关系：主观，与声压级有一定关系：声压级每增加声压级每增加10dB10dB，响度增加，响度增加1 1倍● ● 响度和响度级响度和响度级响度和响度级响度和响度级● ● 人耳听觉的掩蔽效应人耳听觉的掩蔽效应人耳听觉的掩蔽效应人耳听觉的掩蔽效应多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University● ● 声音质量评价声音质量评价声音质量评价声音质量评价◆◆我们经常会对某一位歌手的歌声发表意见，并与其他歌手进行比较，我们经常会对某一位歌手的歌声发表意见，并与其他歌手进行比较，这其实是在对声音的质量进行评价。

这其实是在对声音的质量进行评价◆◆声音质量的度量有两种基本方法：客观质量度量、主观质量的度量声音质量的度量有两种基本方法：客观质量度量、主观质量的度量声波的声波的测量与分析传统的方法是先用机电换能器把声波转换为相应测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号，然后用电子仪表放大到一定的电压级进行测量与分析由于的电信号，然后用电子仪表放大到一定的电压级进行测量与分析由于计算技术的发展，使许多计算和测量工作都使用了计算机或程序实现计算技术的发展，使许多计算和测量工作都使用了计算机或程序实现这些带计算机处理系统的高级声学测量仪器，能完成下列一些测量工作：这些带计算机处理系统的高级声学测量仪器，能完成下列一些测量工作：● ●评价值的测量评价值的测量————响度和响度级，噪音级，清晰度指数，噪音评价数响度和响度级，噪音级，清晰度指数，噪音评价数● ●声源的测量声源的测量————频谱的时间变化，声功率，指向性，效率，频谱特征，频谱的时间变化，声功率，指向性，效率，频谱特征，幅值分布等幅值分布等 ● ●音质的测量音质的测量————混响时间，隔音量，吸音量混响时间，隔音量，吸音量。

● ● 声音客观质量的度量方法声音客观质量的度量方法多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声测量的基本仪器是声测量的基本仪器是声级计声级计声级计是一种能对声声级计是一种能对声音作出类似人耳的反应的仪器，同时，它能进行客音作出类似人耳的反应的仪器，同时，它能进行客观而可重复的声压和声级测量声压测量的好处很观而可重复的声压和声级测量声压测量的好处很多：它能帮助音乐厅提高音响效果；能对烦扰声音多：它能帮助音乐厅提高音响效果；能对烦扰声音进行精密的、科学的分析声级测量还能明确地告进行精密的、科学的分析声级测量还能明确地告诉我们什么声音会引起听力损害，并提醒人们采用诉我们什么声音会引起听力损害，并提醒人们采用适当的听力保护措施因此，声测量是不可少的适当的听力保护措施因此，声测量是不可少的度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNRSNR（（Signal to Noise RationSignal to Noise Ration）。

其单位是分贝）其单位是分贝(dB)(dB)多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University● ● 声音主观质量的度量声音主观质量的度量声音主观质量的度量声音主观质量的度量采用客观标准方法很难真正评定某种编码器的采用客观标准方法很难真正评定某种编码器的质量，在实际评价中，主观的质量度量比客观质量质量，在实际评价中，主观的质量度量比客观质量的度量更为恰当和合理通常是对某编码器的输出的度量更为恰当和合理通常是对某编码器的输出的声音质量进行评价，例如播放一段音乐，记录一的声音质量进行评价，例如播放一段音乐，记录一段话，然后重放给实验者听，再由实验者进行综合段话，然后重放给实验者听，再由实验者进行综合评定可以说，人的感觉机理最具有决定意义可以说，人的感觉机理最具有决定意义当然，可靠的主观度量值是较难获得的然，可靠的主观度量值是较难获得的多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 平均判分（平均判分（Mean Mean OpnionOpnion ScoseScose-MOS-MOS）过程是召集一）过程是召集一批实验者，请每个实验者对某个编解码器的输出进行质量批实验者，请每个实验者对某个编解码器的输出进行质量判分，采用类似于考试的五级分制，不同的判分，采用类似于考试的五级分制，不同的MOSMOS分对应的分对应的质量级别和失真级别见下表。

质量级别和失真级别见下表 ● ● 声音主观质量的度量方法声音主观质量的度量方法MOSMOS质量级别质量级别失真级别失真级别5 5优优(Excellent)(Excellent)不察觉不察觉4 4良良(Good)(Good)刚察觉但不可厌刚察觉但不可厌3 3中中(Fair)(Fair)察觉及稍微可厌察觉及稍微可厌2 2差差(Poor)(Poor)可厌可厌( (但不令人反感但不令人反感) )1 1劣劣(Unacceptable)(Unacceptable)极可厌极可厌( (令人反感令人反感) )多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University数字化声音数字化声音数字化声音数字化声音用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”的语音实际波形的语音实际波形多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo Universityu模拟信号很容易受到电子干扰，因此随着技术的发展，声音信号就模拟信号很容易受到电子干扰，因此随着技术的发展，声音信号就逐渐过渡到了数字存储阶段，逐渐过渡到了数字存储阶段，A/DA/D转换和转换和D/AD/A转换技术便应运而生。

转换技术便应运而生uA A：：““AnalogAnalog””（类比、模拟）（类比、模拟）uD D：：““Digital Digital ””（数字、数码）（数字、数码）uA/DA/D转换就是把模拟信号转换成数字信号的过程，模拟电信号变为了转换就是把模拟信号转换成数字信号的过程，模拟电信号变为了由由““0 0””和和““1 1””组成的组成的BitBit信号u这样做的好处是显而易见的，声音存储质量得到了加强，数字化的这样做的好处是显而易见的，声音存储质量得到了加强，数字化的声音信息使计算机能够进行识别、处理和压缩，这也就是为什么如今声音信息使计算机能够进行识别、处理和压缩，这也就是为什么如今磁带逐渐被淘汰，磁带逐渐被淘汰，CDCD唱片却趋于流行的原因唱片却趋于流行的原因u A/DA/D转换的一个关键步骤是转换的一个关键步骤是声音的采样和量化声音的采样和量化，得到数字音频信号，，得到数字音频信号，它在时间上是不连续的离散信号它在时间上是不连续的离散信号多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University借助于借助于A/DA/D或或D/AD/A转换器，模拟信号和数字信号可以互相转换转换器，模拟信号和数字信号可以互相转换 8 8位可编程位可编程A/DA/D转换芯片转换芯片多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University● ● 声音采样声音采样声音采样声音采样 —— —— 声音数字化声音数字化声音数字化声音数字化 ( (模模模模/ /数转换数转换数转换数转换) )声音采样声音采样声音采样声音采样11011100 1100110111011100 11001101把声音把声音把声音把声音( (模拟量模拟量模拟量模拟量) )按照固定时间间隔，转换成有限个数字表示的离散序列按照固定时间间隔，转换成有限个数字表示的离散序列按照固定时间间隔，转换成有限个数字表示的离散序列按照固定时间间隔，转换成有限个数字表示的离散序列● ● 声音重放声音重放声音重放声音重放 —— —— 声音模拟化声音模拟化声音模拟化声音模拟化 ( (数数数数/ /模转换模转换模转换模转换) )声音重放声音重放声音重放声音重放1101110011011100把数字化声音转换成模拟量，经过音响单元重放出来把数字化声音转换成模拟量，经过音响单元重放出来把数字化声音转换成模拟量，经过音响单元重放出来把数字化声音转换成模拟量，经过音响单元重放出来● ● 设备和软件设备和软件设备和软件设备和软件(1) (1) 声音适配器声音适配器声音适配器声音适配器 ( (声卡声卡声卡声卡) 8bit) 8bit、、、、16bit16bit、、、、… 128bit … 128bit ￥￥￥￥ 80.0080.00～～～～3800.003800.00(2) (2) 声卡驱动软件以及各种声音处理软件声卡驱动软件以及各种声音处理软件声卡驱动软件以及各种声音处理软件声卡驱动软件以及各种声音处理软件人耳听到的声音是一种具有振幅、周期（频率）的声波，计算机人耳听到的声音是一种具有振幅、周期（频率）的声波，计算机人耳听到的声音是一种具有振幅、周期（频率）的声波，计算机人耳听到的声音是一种具有振幅、周期（频率）的声波，计算机要处理这种声波，可以通过话筒把机械振动转变成相应的电信号，要处理这种声波，可以通过话筒把机械振动转变成相应的电信号，要处理这种声波，可以通过话筒把机械振动转变成相应的电信号，要处理这种声波，可以通过话筒把机械振动转变成相应的电信号，这也是一种连续的模拟信号。

模拟信号的幅度，表示声音的强弱这也是一种连续的模拟信号模拟信号的幅度，表示声音的强弱这也是一种连续的模拟信号模拟信号的幅度，表示声音的强弱这也是一种连续的模拟信号模拟信号的幅度，表示声音的强弱计算机只能处理数字量，不能处理这种模拟量，只有把这种模拟计算机只能处理数字量，不能处理这种模拟量，只有把这种模拟计算机只能处理数字量，不能处理这种模拟量，只有把这种模拟计算机只能处理数字量，不能处理这种模拟量，只有把这种模拟量转换成数字量，计算机才有可能处理声音，这种转换就是模量转换成数字量，计算机才有可能处理声音，这种转换就是模量转换成数字量，计算机才有可能处理声音，这种转换就是模量转换成数字量，计算机才有可能处理声音，这种转换就是模/ /数数数数转换（转换（转换（转换（A/DA/D转换），它是由模转换），它是由模转换），它是由模转换），它是由模/ /数转换电路实现的数转换电路实现的数转换电路实现的数转换电路实现的声音经声音经A/D转换后得到的数字声音信号交给计算机处理，转换后得到的数字声音信号交给计算机处理，处理后的数据需经过数处理后的数据需经过数/模（模（D/A））转换电路，还原成转换电路，还原成模拟信号，再进行放大输出到喇叭或耳机，变成人耳能模拟信号，再进行放大输出到喇叭或耳机，变成人耳能够听到的声音。

够听到的声音多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University数字音频的处理数字音频的处理数字音频的处理数字音频的处理● ● 采样、采样频率采样、采样频率采样、采样频率采样、采样频率采样是将连续变化的模拟音频信号变成计算机能处理的采样是将连续变化的模拟音频信号变成计算机能处理的离散化数字信号的第一步离散化数字信号的第一步每隔一定时间，对模拟音频信号的幅值进行采样测试，每隔一定时间，对模拟音频信号的幅值进行采样测试，得到离散的幅值，并用该值表示两次采样之间的模拟幅得到离散的幅值，并用该值表示两次采样之间的模拟幅值单位时间采样的次数称为采样频率单位时间采样的次数称为采样频率采样频率越高，所得到的离散幅值的数据点就越逼近于采样频率越高，所得到的离散幅值的数据点就越逼近于连续音频信号，同时采样所得到的数据量也越大多媒连续音频信号，同时采样所得到的数据量也越大多媒体电脑中支持的采样频率通常为体电脑中支持的采样频率通常为44.1kHz、、22.05kHz 及及11.025 kHz。

多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University● ● 量量量量化化化化采样所得到的数据是一定的离散值，将这些离散值用若采样所得到的数据是一定的离散值，将这些离散值用若干二进制的位来表示，这一过程称为量化干二进制的位来表示，这一过程称为量化用用8位二进制表示十进制整数，只能表示出位二进制表示十进制整数，只能表示出0～～255之间之间的整数值也就是的整数值也就是256个量化级量化级对应的二进制个量化级量化级对应的二进制位数称为位数称为量化位数量化位数虽然量化位数越多，对原始波形的虽然量化位数越多，对原始波形的模拟越细腻，声音的音质就越好，但数据量也越大模拟越细腻，声音的音质就越好，但数据量也越大量化即是将采样所得到的信号振幅值用一组二进制脉冲量化即是将采样所得到的信号振幅值用一组二进制脉冲序列来表示离散化的数据经量化变成二进制表示一般序列来表示离散化的数据经量化变成二进制表示一般会损失一些精度，这主要是因为计算机只能表示有限的会损失一些精度，这主要是因为计算机只能表示有限的数值。

数值多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University在多媒体电脑中，要对音频进行处理，必须在在多媒体电脑中，要对音频进行处理，必须在PC机上添加机上添加一块声卡一块声卡声卡声卡是多媒体升级套件中的核心部件之一，是多媒体升级套件中的核心部件之一，其其外形与插在计算机主机箱内的其他硬件插板相仿，也是一外形与插在计算机主机箱内的其他硬件插板相仿，也是一块可以插在扩展槽内的电路板，但包含有完成音频处理功块可以插在扩展槽内的电路板，但包含有完成音频处理功能的电子元件能的电子元件声卡声卡通过一秒内对声音进行上千次的采样、阅读，把模拟通过一秒内对声音进行上千次的采样、阅读，把模拟声波转换成数字信息、数字化的声音存储波形文件中当声波转换成数字信息、数字化的声音存储波形文件中当声音被记录时，声卡中的模声音被记录时，声卡中的模/数转换器把模拟声波转换成数数转换器把模拟声波转换成数字数据；当声音重放时，声卡中的数字数据；当声音重放时，声卡中的数/模转换器把波形文件模转换器把波形文件里的数字数据变成模拟波形输出。

里的数字数据变成模拟波形输出声音的压缩声音的压缩声音的压缩声音的压缩多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声音文件所需的存储空间可用下式来计算：声音文件所需的存储空间可用下式来计算：采样率越大，数字信号越接近模拟信号，但所要求的存储采样率越大，数字信号越接近模拟信号，但所要求的存储空间也越大空间也越大量化位数越大，所得的量化值越接近原始波形采样值，但量化位数越大，所得的量化值越接近原始波形采样值，但所要求的信息存储量也越大所要求的信息存储量也越大双声道立体声比单声道的声音逼真丰富，双声道立体声比单声道的声音逼真丰富，但需要成倍于单但需要成倍于单声道的信息容量声道的信息容量以以16位位、、 22.05 kHz的频率录制的频率录制1分钟分钟的立体声，所需存储的立体声，所需存储空间为空间为5.292 MB。

如果录制如果录制1小时小时的立体声其所要求的存储空间为的立体声其所要求的存储空间为60×5.292=317.52 MB多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 声音压缩通常采用声音压缩通常采用有损压缩有损压缩的方式进行，主要用在重的方式进行，主要用在重构的构的信号不必要与原始信号完全相同信号不必要与原始信号完全相同的场合这种压缩采的场合这种压缩采取在压缩的过程中丢掉某些不致对原始数据产生误解的信取在压缩的过程中丢掉某些不致对原始数据产生误解的信息，以大大提高压缩比息，以大大提高压缩比从第一个音频编码方法产生到现在，出现了很多的压从第一个音频编码方法产生到现在，出现了很多的压缩编码方法可以将他们分为三类：缩编码方法可以将他们分为三类：波形编码波形编码、、参数编码参数编码和和混合编码混合编码多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University波形编码波形编码基于对语音信号波形的数字化处理，试图使处理后重建的语音信号波形基于对语音信号波形的数字化处理，试图使处理后重建的语音信号波形与原语音信号波形保持一致。

与原语音信号波形保持一致优点优点：：实现简单、语音质量好、适应性强，有成熟的技术实现方法；实现简单、语音质量好、适应性强，有成熟的技术实现方法；缺点缺点：：压缩程度不高、实现的码速率较高，码率低于压缩程度不高、实现的码速率较高，码率低于32kbit/s32kbit/s时音质时音质降低明显，降低明显，16kbit/s16kbit/s时音质就非常差了时音质就非常差了常见方法常见方法：脉冲编码调制（：脉冲编码调制（PCMPCM）、增量调制（）、增量调制（DMDM）、差值脉冲编码调）、差值脉冲编码调制（制（DPCMDPCM）、自适应差分脉冲编码调制（）、自适应差分脉冲编码调制（ADPCMADPCM）、子带编码（）、子带编码（SBCSBC）和）和矢量量化编码（矢量量化编码（VQVQ）等编码信号的速率计算：编码速率＝采样频率编码信号的速率计算：编码速率＝采样频率××编码比特数编码比特数播放某音频信号所需存储量＝播放时间播放某音频信号所需存储量＝播放时间××速率速率÷÷8 8（字节）（字节）多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 参数编码参数编码参数编码参数编码通过构造发声模型作为基础，用一套模拟声带频谱特性的滤波器系数和通过构造发声模型作为基础，用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型，在发送端从模拟语音信号中提取各个特若干声源参数来描述这个模型，在发送端从模拟语音信号中提取各个特征参量并进行量化编码，以实现语音信息的数字化。

征参量并进行量化编码，以实现语音信息的数字化优点优点：语音编码速率较低（：语音编码速率较低（2～～9.6kbit/s），压缩比特率低；），压缩比特率低；缺点缺点：合成语音质量较差，实现的复杂度高合成语音质量较差，实现的复杂度高典型代表典型代表：线性预测编码器（：线性预测编码器（LPC））语声信号产生模型语声信号产生模型周期性信号周期性信号随机性信号随机性信号基音周期基音周期Tp浊音浊音清音清音线性时变线性时变滤波器滤波器合成语音合成语音信号输出信号输出C(n)u(n)v(n)G增益控制增益控制时变参数时变参数ai多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University混和编码混和编码混和编码混和编码波形编码：保真度好，计算量小，但编码后速率高；波形编码：保真度好，计算量小，但编码后速率高；参数编码：码速率较低，但保真度欠佳，计算复杂参数编码：码速率较低，但保真度欠佳，计算复杂波形编码与参数编码结合波形编码与参数编码结合——混和编码：克服弱点，结合优点混和编码：克服弱点，结合优点压缩比特率：压缩比特率：4 4～～16kbit/s16kbit/s编码器：多脉冲激励线性预测编码器（编码器：多脉冲激励线性预测编码器（MPE-LPCMPE-LPC）、规则脉冲激励线性）、规则脉冲激励线性预测编码器（预测编码器（RPE-LPCRPE-LPC）、码激励线性预测编码器（）、码激励线性预测编码器（CELPCELP）、矢量和激）、矢量和激励线性预测编码器（励线性预测编码器（VSELPVSELP）和多带激励线性预测编码器。

和多带激励线性预测编码器与与参数编码参数编码的的差别差别：信号激励源得选取更加精细：信号激励源得选取更加精细——通过调整激励信号通过调整激励信号使语音输入信号与重构的语音信号误差最小（合成分析法）使语音输入信号与重构的语音信号误差最小（合成分析法）多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University三种压缩编码的性能比较三种压缩编码的性能比较三种压缩编码的性能比较三种压缩编码的性能比较24616832kbit/s 主观主观音质评价音质评价混和法混和法参数法参数法波形法波形法54321多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University1.1.差值脉冲编码调制差值脉冲编码调制2.2. 对相邻样值的差值进行量化编码对相邻样值的差值进行量化编码3.3. 预测表达式预测表达式4.4. 关键关键：预测系数的获得：预测系数的获得————使预测估值的均方差为最小的预测系使预测估值的均方差为最小的预测系数数5.5. 自适应差值脉冲编码调制自适应差值脉冲编码调制6.6. 自适应量化自适应量化：：使量化间隔的变化与输入语声信号的方差相匹使量化间隔的变化与输入语声信号的方差相匹配配7.7. 自适应预测自适应预测2. 2. 线性预测编码线性预测编码语声激励信号：语声激励信号：浊音信号浊音信号( (准周期脉冲序列准周期脉冲序列)+)+清音信号清音信号( (白色随机噪声白色随机噪声) )虽然码速率低，但在噪声环境下语音质量不好，现已被淘汰。

虽然码速率低，但在噪声环境下语音质量不好，现已被淘汰常用压缩编码方法常用压缩编码方法常用压缩编码方法常用压缩编码方法多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University3. 3. 矢量量化编码：将输入信号样值按某种方式分组（矢量），并量化矢量量化编码：将输入信号样值按某种方式分组（矢量），并量化理论基础理论基础：香农率失真理论：香农率失真理论基本原理基本原理：用码书中与输入矢量最匹配的码字的索引（下标）代替输：用码书中与输入矢量最匹配的码字的索引（下标）代替输入矢量进行传输和存储，解码时只需简单的查表操作入矢量进行传输和存储，解码时只需简单的查表操作关键技术关键技术：码书设计、码字搜索、码字（下标）索引分配码书设计、码字搜索、码字（下标）索引分配应用应用：中速率和低速率语音编码：中速率和低速率语音编码————G.723.1G.723.1、、G.728G.728、、G.729G.7294. 4. 子带编码子带编码基本思想基本思想：将输入信号分解为若干子频带，然后对各子带分量根据其不：将输入信号分解为若干子频带，然后对各子带分量根据其不同的统计特性采取不同的压缩策略，以降低码率。

同的统计特性采取不同的压缩策略，以降低码率子带划分依据子带划分依据：话音信号自身特性：话音信号自身特性优点优点：不仅可以很好地控制各个子带的量化电平数，还可以很好地控：不仅可以很好地控制各个子带的量化电平数，还可以很好地控制在重建信号时的量化误差方差值，进而获得更好的主观听音质量制在重建信号时的量化误差方差值，进而获得更好的主观听音质量相对独立的量化噪声被束缚在各自子带内，互不影响相对独立的量化噪声被束缚在各自子带内，互不影响各个子带的采样频率大大降低各个子带的采样频率大大降低多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University5. 5. 感知编码感知编码基本原理基本原理：以人类听觉系统的心理声学为基础，只记录能够被人耳：以人类听觉系统的心理声学为基础，只记录能够被人耳感觉到的声音，从而达到压缩数据量的目的感觉到的声音，从而达到压缩数据量的目的理论基础理论基础：基于人耳的闻域、临界频段和掩蔽效应。

基于人耳的闻域、临界频段和掩蔽效应人耳对不同频段声音的反应灵敏度有差异，在编码时，对被掩人耳对不同频段声音的反应灵敏度有差异，在编码时，对被掩蔽的弱音不进行编码即达数据压缩的目的蔽的弱音不进行编码即达数据压缩的目的应用应用：：MPEG-1MPEG-1、、MPEG-2MPEG-2、、AV-3AV-3多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University音频信息压缩编码标准音频信息压缩编码标准音频信息压缩编码标准音频信息压缩编码标准标准的描述对象：编码速率、编码的压缩算法、编码器结构、话音质量标准的描述对象：编码速率、编码的压缩算法、编码器结构、话音质量以及彼此的关系以及彼此的关系目标：用尽可能低的数码率来获得尽可能好的合成语音质量目标：用尽可能低的数码率来获得尽可能好的合成语音质量G.711、、G.721、、G.722● ● 波形编码标准波形编码标准波形编码标准波形编码标准多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.711 针对针对50Hz到到3.2kHz的语音信号进行的语音信号进行A律律和和 律律PCM编码，编码，属属于非均匀量化。

于非均匀量化式中：式中：x为输入信号幅度，规格化成为输入信号幅度，规格化成-1   x   1;  律律主要用在北美和日本等地区的数字通信中，按下面的主要用在北美和日本等地区的数字通信中，按下面的式子确定量化输入和输出的关系：式子确定量化输入和输出的关系： A律主要用在欧洲和中国大陆等地区的数字通信中，按下律主要用在欧洲和中国大陆等地区的数字通信中，按下面的式子确定量化输入和输出的关系：面的式子确定量化输入和输出的关系：0 0   | |x| x|   1/A 1/A1/A 1/A   | |x| x|  1 1式中：式中：x为输入信号幅度，规格化成为输入信号幅度，规格化成-1   x   1; 多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.721 一个代码转换系统它使用一个代码转换系统它使用ADPCM转换技术，实现转换技术，实现64 kb/s A律或律或μ律律PCM速率和速率和32 kb/s速率之间的相互转换。

速率之间的相互转换 ADPCM编码器编码器多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.722 一种高质量语音信号的压缩标准取样频率为一种高质量语音信号的压缩标准取样频率为16kHz，，每个样值量化到每个样值量化到14b，采用子带编码和，采用子带编码和ADPCM进行压缩编码进行压缩编码7 kHz音频信号音频信号64 kb/s数据率的编译码方块图数据率的编译码方块图多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.728 该标准利用低延时码本激励线性预测该标准利用低延时码本激励线性预测LD-CELP方法将一方法将一般语音信号压缩至般语音信号压缩至16Kb/s CELP编码综合了编码综合了波形编码波形编码和和参数编码参数编码，还采用，还采用矢量量化矢量量化的压缩算法。

的压缩算法 CELP实际上是一个闭环实际上是一个闭环LPC系统，由输入语音信号确定系统，由输入语音信号确定最佳参数，再根据某种最小误差准则从码本中找出最佳激励最佳参数，再根据某种最小误差准则从码本中找出最佳激励码本矢量码本矢量CELP具有较强的抗干扰能力，在具有较强的抗干扰能力，在4~ 16kbit/s传输传输速率下，即可获得较高质量的语音信号速率下，即可获得较高质量的语音信号 G.728、、G.729、、G.723.1● ● 混和编码标准混和编码标准混和编码标准混和编码标准多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.729 低码率的语音压缩标准，采用共轭结构代数码本激励线低码率的语音压缩标准，采用共轭结构代数码本激励线性预测性预测CS-ACELP，将语音信号压缩至，将语音信号压缩至8Kb/sG.723.1 采用采用ACELP算法，根据激励码本的不同可以将一般语音算法，根据激励码本的不同可以将一般语音信号压缩至信号压缩至5.3Kb/s和和6.3Kb/s。

在在6.3Kb/s编码器内采用了多脉冲激励，可以得到较高的编码器内采用了多脉冲激励，可以得到较高的音质多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMPEG-1、、MPEG-2 BC● ● MPEGMPEG音频编码标准音频编码标准音频编码标准音频编码标准● ● MPEG-2 AAC MPEG-2 AAC 编码标准编码标准编码标准编码标准● ● MPEG-4 MPEG-4 音频标准音频标准音频标准音频标准多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMPEG1音频压缩标准音频压缩标准包括包括3种压缩模式：层次种压缩模式：层次1、、2、、3；向下兼容；压缩算法；向下兼容；压缩算法主要由主要由子带划分和变换编码子带划分和变换编码构成，主要步骤为：构成，主要步骤为：(1) 音频信号通过滤波器组分成为音频信号通过滤波器组分成为32个子带；个子带；(2) 用用FFT将子带变换到频率域；将子带变换到频率域；(3) 利用生理声学模型对能感知的噪声阈值进行估计；利用生理声学模型对能感知的噪声阈值进行估计；(4) 根据对噪声阈值的估计进行比特分配和量化。

根据对噪声阈值的估计进行比特分配和量化编码器编码器解码器解码器多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University•其音频编码分为其音频编码分为3层：层：Layer-1、、Layer-2和和Layer-3Layer-1的压缩比为的压缩比为1:4，编码速率为，编码速率为384kb/s；；Layer-2的压缩比为的压缩比为1:6～～1:8之间，编码速率为之间，编码速率为192～～256kb/s；；Layer-3的压缩比为的压缩比为1:10～～1:12，，压缩码率可以达到压缩码率可以达到64kb/s–Layer-1的编码器最为简单，主要用于的编码器最为简单，主要用于小型数字盒式磁小型数字盒式磁带带；；–Layer-2编码器的复杂程度是中等，主要用于编码器的复杂程度是中等，主要用于数字广播数字广播音频、数字音乐、只读光盘交互系统和视盘音频、数字音乐、只读光盘交互系统和视盘；；–Layer-3的编码器最为复杂，主要用于的编码器最为复杂，主要用于ISDN上的声音传上的声音传输输。

多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMPEG-2 BC声音标准是在声音标准是在MPEG-1的基础上发的基础上发展来的，是展来的，是MPEG为多声道声音开发的低码率编码为多声道声音开发的低码率编码方案，并与方案，并与MPEG-1的声音标准保持后向兼容与的声音标准保持后向兼容与MPEG-1相比主要增加了下面几个方面的内容：相比主要增加了下面几个方面的内容：MPEG-2 BC声音压缩标准声音压缩标准–支持支持5.1多路环绕立体声多路环绕立体声：：5个全带宽声道，分为左、右、个全带宽声道，分为左、右、中、和两个环绕声道，另加一个低频效果增强声道扩展了中、和两个环绕声道，另加一个低频效果增强声道扩展了编码器的输出范围，从编码器的输出范围，从32～～384kb/s扩展到扩展到8～～640kb/s–增加了更低的取样频率和低码率：在保持增加了更低的取样频率和低码率：在保持MPEG-1原有的原有的取样频率的基础上，又增加了三种取样频率，新增的取样取样频率的基础上，又增加了三种取样频率，新增的取样频率为频率为16kHz、、22.05kHz和和24kHz，是将原有，是将原有MPEG-1的的取样频率降低了一半，以便提高码率低于取样频率降低了一半，以便提高码率低于64kb/s时的每时的每个声道的声音质量。

个声道的声音质量多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMPEG-2 AAC(Advanced Audio Coding)是是MPEG-2标准中一种非常灵活的编码标准，采用感标准中一种非常灵活的编码标准，采用感知编码方法，主要是利用听觉系统的掩蔽特性来减知编码方法，主要是利用听觉系统的掩蔽特性来减少声音编码的数据量；并且通过子带编码将量化噪少声音编码的数据量；并且通过子带编码将量化噪声分散到各个子带中，用全局的声音信号将噪声掩声分散到各个子带中，用全局的声音信号将噪声掩蔽掉MPEG-2 AAC编码标准编码标准AAC定义了定义了3种配置：种配置：• 基本配置基本配置在三种配置中提供最好的声音质量，除没有使用增益在三种配置中提供最好的声音质量，除没有使用增益控制模块外，其余模块都使用控制模块外，其余模块都使用• 低复杂性配置低复杂性配置没有使用预测模块和预处理模块，使用的瞬时噪没有使用预测模块和预处理模块，使用的瞬时噪声定形滤波器模块的级数也有限，声音质量低于基本配置。

声定形滤波器模块的级数也有限，声音质量低于基本配置• 可变采用率配置可变采用率配置使用增益控制作预处理，没有使用预测模块，使用增益控制作预处理，没有使用预测模块，对对TNS滤波器的级数和带宽也有限制，是最简单的一种配置滤波器的级数和带宽也有限制，是最简单的一种配置多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityAC-3音频压缩标准音频压缩标准 6声道音频压缩标准：左、中、右、左环绕、右环声道音频压缩标准：左、中、右、左环绕、右环绕和低频增强前绕和低频增强前5声道带宽声道带宽3Hz~20kHz；最后一个；最后一个声道最高声道最高120Hz多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University音音频频编编码码算算法法和和标标准准算法算法名称名称数据率数据率标准标准应用应用波波形形编编码码PCM脉冲编码调制脉冲编码调制公共网公共网ISDN配音配音μ-law，，A-law μ-律，律，A-律律 64kbpsG.711APCM自适应脉冲编码调制自适应脉冲编码调制 DPCM差分脉冲编码调制差分脉冲编码调制 ADPCM自适应差分脉冲编码调制自适应差分脉冲编码调制 32kbpsG.721SB-ADPCM子带子带-自适应差分脉冲编码调制自适应差分脉冲编码调制 64kbpsG.7225.3kbps6.3kbpsG.723参数编码参数编码LPC线性预测编码线性预测编码 2.4kbps保密话声保密话声混混合合编编码码CELPC码激励码激励LPC 4.6kbps移动通信移动通信VSELP矢量和激励矢量和激励LPC 8kbps语音邮件语音邮件RPE-LTP规则码激励长时预测规则码激励长时预测 13.2kbpsISDNLD-CELP低延时码激励低延时码激励LPC 16kbpsG.728G.729MPEG多子带，感知编码多子带，感知编码 128kbPsCDDolby AC-3感知编码感知编码音响音响多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University多媒体音频信号文件格式多媒体音频信号文件格式多媒体音频信号文件格式多媒体音频信号文件格式.wav.wav● ● WAVE (WAVE (WWaveform Audio)aveform Audio)波形音频文件波形音频文件波形音频文件波形音频文件多媒体系统、音乐光盘制作，记录物理波形，数据量大多媒体系统、音乐光盘制作，记录物理波形，数据量大多媒体系统、音乐光盘制作，记录物理波形，数据量大多媒体系统、音乐光盘制作，记录物理波形，数据量大WAV文件来源于对声音模拟波形的采样。

用不同的采样频文件来源于对声音模拟波形的采样用不同的采样频率对声音的模拟波形进行采样，可以得到一系列离散的采率对声音的模拟波形进行采样，可以得到一系列离散的采样点；以不同的精度（样点；以不同的精度（8位或位或16位）把这些采样点的值转换位）把这些采样点的值转换成二进制码，然后存磁盘，就产生了声音的成二进制码，然后存磁盘，就产生了声音的WAV文件，即文件，即波形文件波形文件 ● ● WAVWAV文件是由采样数据组成的，所以它需要的存储容量很大文件是由采样数据组成的，所以它需要的存储容量很大文件是由采样数据组成的，所以它需要的存储容量很大文件是由采样数据组成的，所以它需要的存储容量很大一般情况下，一般情况下，WAV文件是不可能压缩的这是因为文件是不可能压缩的这是因为WAV文文件所记录的音频数字信息中很少有像图像中存在的大量数件所记录的音频数字信息中很少有像图像中存在的大量数据重复现象，一般数据压缩算法很难有所作为，据重复现象，一般数据压缩算法很难有所作为，即使经过即使经过压缩，压缩比也不高，压缩结果也仍然需要很大的存储空压缩，压缩比也不高，压缩结果也仍然需要很大的存储空间多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMIDI作为音乐工业的数据通信标准，作为音乐工业的数据通信标准，MIDI能指挥各音乐设能指挥各音乐设备的运转，而且具有统一的标准格式，能够模仿原始乐器备的运转，而且具有统一的标准格式，能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果，而且文件的长度非的各种演奏技巧甚至无法演奏的效果，而且文件的长度非常小。

常小MIDI 文件并没有记录任何声音信息，而只是记载了用于描文件并没有记录任何声音信息，而只是记载了用于描述乐曲演奏过程中的述乐曲演奏过程中的一系列指令一系列指令，这些指令包含了音高、，这些指令包含了音高、音长、通道号等主要信息，并以扩展名为音长、通道号等主要信息，并以扩展名为 .MID的文件格式的文件格式存储起来存储起来 MIDI文件只是将乐器弹奏的每个音符记录为一文件只是将乐器弹奏的每个音符记录为一连串数字，然后用声卡上的合成器根据这个数字所代表的连串数字，然后用声卡上的合成器根据这个数字所代表的含义进行合成，最后通过扬声器播放音乐含义进行合成，最后通过扬声器播放音乐mid.mid● ● MIDI (MIDI (MMusical usical I Instrumentnstrument D Digitaligital I Interface)nterface)乐器接口文件乐器接口文件乐器接口文件乐器接口文件用于合成、游戏，记录音符时值、频率、音色特征，数据量小用于合成、游戏，记录音符时值、频率、音色特征，数据量小用于合成、游戏，记录音符时值、频率、音色特征，数据量小用于合成、游戏，记录音符时值、频率、音色特征，数据量小WAV文件的优点是可以从任何声源录制声音，且可以保证文件的优点是可以从任何声源录制声音，且可以保证它仍在任意一台计算机上播放的效果大致相同，而它仍在任意一台计算机上播放的效果大致相同，而MIDI文文件则要受合成器中乐器组合的限制，其声音质量很大程度件则要受合成器中乐器组合的限制，其声音质量很大程度上取决于声卡重新合成乐器声音功能的强弱。

相比之下，上取决于声卡重新合成乐器声音功能的强弱相比之下，MIDI文件的录制较复杂，这需要掌握一些使用文件的录制较复杂，这需要掌握一些使用MIDI创作编创作编辑作业的专业知识，并且还须有专门的工具辑作业的专业知识，并且还须有专门的工具多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMIDI文件实际上是一张文件实际上是一张表格表格，就好比是一张乐谱，它描述，就好比是一张乐谱，它描述了各种音符以及这些音符的播放及延时，所以了各种音符以及这些音符的播放及延时，所以MIDI文件比文件比WAV文件要小得多。

例如，一段持续文件要小得多例如，一段持续10余秒的立体声音乐，余秒的立体声音乐，若用若用MIDI格式只需格式只需2 KB的存储空间，而以的存储空间，而以WAV格式存放则格式存放则需需2 MB左右由于由于MIDI文件比文件比WAV文件要小得多，所以预先装入文件要小得多，所以预先装入MIDI文件比装入文件比装入WAV文件容易，这为设计多媒体项目和指定何文件容易，这为设计多媒体项目和指定何时播放音乐带来很大的灵活性时播放音乐带来很大的灵活性 MIDI文件的主要缺点是文件的主要缺点是处理语音能力差处理语音能力差，，缺乏重现自然语缺乏重现自然语言的能力，不能独立合成，因此用户可以在需要语言的地言的能力，不能独立合成，因此用户可以在需要语言的地方，将方，将WAV文件与文件与MIDI文件配合使用文件配合使用 多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University在以下几种情况下，使用在以下几种情况下，使用MIDI文件比使用波形音频更合适文件比使用波形音频更合适: 需要播放长时间高质量音乐，如想在硬盘上存储的音乐需要播放长时间高质量音乐，如想在硬盘上存储的音乐大于大于4分钟，而硬盘又没有足够的存储容量；分钟，而硬盘又没有足够的存储容量；需要以音乐作背景音响效果，同时从需要以音乐作背景音响效果，同时从CD-ROM中装载中装载其它数据，如图像、文字的显示；其它数据，如图像、文字的显示；需要以音乐作背景音响效果，同时播放波形音频或实现需要以音乐作背景音响效果，同时播放波形音频或实现文一语转换，以实现音乐和语音的同时输出。

文一语转换，以实现音乐和语音的同时输出多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMPEG-3，，扩展名扩展名MP3：：现在最流行的声音文件格式，因其现在最流行的声音文件格式，因其压缩率大，在网络可视通信方面应用广泛，但和压缩率大，在网络可视通信方面应用广泛，但和CD唱唱片相比，音质不能令人非常满意片相比，音质不能令人非常满意Real Audio，，扩展名扩展名RA、、RM：：这种格式真可谓是网络音乐这种格式真可谓是网络音乐的灵魂，高压缩比和极小的失真使其在众多格式中脱颖而的灵魂，高压缩比和极小的失真使其在众多格式中脱颖而出和MP3相同，它也是为了解决网络传输带宽资源而设相同，它也是为了解决网络传输带宽资源而设计的，因此主要目标是压缩比和容错性，其次才是音质计的，因此主要目标是压缩比和容错性，其次才是音质CD Audio音乐音乐CD，，扩展名扩展名CDA：：唱片采用的格式，又叫唱片采用的格式，又叫“红皮书红皮书”格式，记录的是波形流，绝对的纯正、格式，记录的是波形流，绝对的纯正、HIFI。

但但缺点是无法编辑，文件长度太大缺点是无法编辑，文件长度太大多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityWindows Media Audio ，，扩展名扩展名wma：：微软自己开发的多微软自己开发的多媒体音频技术中的一部分，是一种新的音频压缩格式（相媒体音频技术中的一部分，是一种新的音频压缩格式（相对对MP3而言的）而言的）WMA是对数字音频的一个完整的定义，包括编码规范和加是对数字音频的一个完整的定义，包括编码规范和加密格式它的加密格式异常强大，甚至可以限制播放机器、密格式它的加密格式异常强大，甚至可以限制播放机器、播放次数以及播放时间，有着比播放次数以及播放时间，有着比MP3更好的版权保护性能更好的版权保护性能还有就是还有就是WMA的的“流流”性能要比性能要比MP3好，在音质不高的情好，在音质不高的情况下，相同质量的况下，相同质量的WMA的流量要比的流量要比MP3低微软保证，在音质相同的条件下，微软保证，在音质相同的条件下，WMA文件的大小理论上文件的大小理论上是是MP3体积的体积的1/3，，64kbps的的WMA的音质好于的音质好于128kbps的的MP3，，96kbps的音质可以超过的音质可以超过CD多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University在低流量下，在低流量下，MP3的确是不如的确是不如WMA来得好，甚至真的可以来得好，甚至真的可以达到对半的程度，达到对半的程度，64kbps的的WMA在波形还原以后的确要好在波形还原以后的确要好于于128kbps的的MP3。

但是在但是在128kbps以上情况出现了逆转，以上情况出现了逆转，MP3的质量逐步攀升，的质量逐步攀升，而而WMA几乎没有得到什么质量上增强了，换来的只有文件几乎没有得到什么质量上增强了，换来的只有文件急剧增大，急剧增大，128kbps的的WMA不是不是256kbpsMP3的对手了至的对手了至于于96kbps流量下得到超过流量下得到超过CD的音质更是无从算起，在的音质更是无从算起，在48KHz采样率下采样率下WMA的表现也不是特别令人满意的表现也不是特别令人满意WMA的优势在于低流量、优良的的优势在于低流量、优良的“流流”性能和它良好的版性能和它良好的版权保护性能，至于高音质的问题，它还不是特别成熟权保护性能，至于高音质的问题，它还不是特别成熟不不过目前网络应用方面的性能上，过目前网络应用方面的性能上，WMA确实比确实比MP3高上数筹高上数筹多媒体通信技术：音频编码技术多媒体通信技术：音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityMonkeys Audio ，扩展名，扩展名ape：：APE是目前流行的一种数字是目前流行的一种数字音乐文件格式，与音乐文件格式，与MP3这类有损压缩方式不同，这类有损压缩方式不同，APE是一是一种无损压缩技术，也就是说当将从音频种无损压缩技术，也就是说当将从音频CD上读取的音频数上读取的音频数据文件压缩成据文件压缩成APE格式后，还可以再将格式后，还可以再将APE格式的文件还格式的文件还原，而还原后的音乐文件与压缩前一模一样，没有任何损原，而还原后的音乐文件与压缩前一模一样，没有任何损失。

点击阅读更多内容