好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

音频信息的获取与处理.ppt

125页
  • 卖家[上传人]:s9****2
  • 文档编号:591875551
  • 上传时间:2024-09-18
  • 文档格式:PPT
  • 文档大小:2.06MB
  • / 125 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第第2 2章章 音频信息的获取与处理音频信息的获取与处理         声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体无论其应用目的是什么,声音的合理使用可以使多媒体应用系统变得更加丰富多彩在多媒体系统中,音频可被用作输入或输出输入可以是自然语言或语音命令,输出可以是语音或音乐,这些都会涉及到音频处理技术 •2.1 音频信号及其概念u2.1.1 声音处理技术历史回顾 语言、音乐和各种自然声是以声波为载体传递信息的基本形式 人类很早就开始研究声音,并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来所以与其他研究领域相比,声学的研究相对滞后直到19世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便随着电学、电子学的发展,人们开始尝试记录下这些真实的声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能最终电声技术获得了迅速发展。

      电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术顾名思义,电声技术是依靠“电”来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带,这种电流信号便被称之为“模拟信号”传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的这里,密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备 电声技术把声信号转换成电信号,经扩声系统直接进行扩声;或者将其信号利用磁带、CD或其他存储形式,使声音可超越时间和空间,通过重放系统将其信号(数字的或模拟的)经过放大,由扬声器或耳机转换成声信号,进入最后的终端---人耳,以实现任何时间和地点的声音重现电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象 随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实现,对音频媒体进行数字化处理便成为可能。

      数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果音频信息在多媒体中的应用是极为广泛的,当计算机配有声卡和音箱后,就能够发出各种悦耳的声音,尤其是视频图像配以娓娓动听的音乐和语音,使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程静态或动态图像配以解说和背景音乐,可使图像充满生气;立体声音乐可增加空间感,使人身临其境;语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛则为显得更为重要;此外,在多媒体通信中,可视、电视会议、这些都离不开数字化音频处理技术 u2.1.2 音频信号的形式 在日常生活中,音频(Audio)信号可分为两类:语音信号和非语音信号语音是语言的物质载体,是社会交际工具的符号, 它包含了丰富的语言内涵,是人类进行信息交流所特有的形式非语音信号主要包括音乐和自然界存在的其他声音形式非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单 我们之所以能听到日常生活中的各种声音信息,其实就是不同频率的声波通过空气产生震动,刺激人耳的结果在物理上,声音可用一条连续的曲线来表示这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。

      规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波因声波是在时间和幅度上都连续变化的量,我们称之为模拟量 用声音录制软件记录的英文单词“Hello”的语音实际波形 u2.1.3 模拟音频信号的物理特征 模拟音频信号有两个重要参数:频率和幅度声音的频率体现音调的高低,声波幅度的大小体现声音的强弱 一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示例如一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000Hz或5kHz人们在日常说话时的语音信号频率范围在300Hz~3000Hz之间频率小于20 Hz的信号称为亚音(Subsonic);频率范围为20Hz~20kHz的信号称为音频(Audio),高于20kHz的信号称为超音频(Ultrasonic) 与频率相关的另一个参数是信号的周期它是指信号在两个峰点或谷底之间的相对时间周期和频率之间的关系是互为倒数 信号的幅度是从信号的基线到当前波峰的距离幅度决定了信号音量的强弱程度幅度越大,声音越强。

      对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量 幅 度限周期  基线 u2.1.4 声音的A/D与D/A转换 模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和D/A转换技术便应运而生这里,A代表Analog”(类比、模拟),D代表“Digital ”(数字、数码),A/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0”和“1”组成的Bit信号这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因   A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号 借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换 u2.1.5 与声音有关的几个术语 音高是人对声波频率的主观属性,它首先与声波的频率有关声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系 音色是声波波形的主观属性不同的发音体所发出的音波都有自己的特异性。

      声波的类型是多种多样的,一般可分为纯音和复合音两大类 语音是特殊的复合音语音由元音和辅音所构成元音是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节 响度是声波振幅的主观属性,它是由声波的振幅引起的振幅越大则响度越大,但它们之间也不是线性关系 u2.1.6 声音质量的评价 我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价声音质量的评价是一个很困难的问题,也是一个值得研究的课题目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量Ø声音客观质量的度量方法 声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作: q评价值的测量  响度和响度级,噪音级,清晰度指数,噪音评价数q声源的测量 频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等 q音质的测量 混响时间,隔音量,吸音量。

      声测量的基本仪器是声级计声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施因此,声测量是不可少的 度量声音客观质量的一个主要指标是信噪比SNR(Signal to Noise Ration),信噪比是有用信号与噪声之比的简称其单位是分贝(dB)Ø声音主观质量的度量 采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定可以说,人的感觉机理最具有决定意义当然,可靠的主观度量值是较难获得的 平均判分(Mean Opnion Scose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表2-1。

      MOSMOS质量级别质量级别失真级别失真级别5 5优优( (Excellent)Excellent)不察觉不察觉4 4 4 4良良( (Good)Good)刚察觉但不可厌刚察觉但不可厌3 3 3 3中中( (Fair)Fair)察觉及稍微可厌察觉及稍微可厌2 2 2 2差差( (Poor)Poor)可厌可厌( (但不令人反感但不令人反感) )1 1 1 1劣劣( (Unacceptable)Unacceptable)极可厌极可厌( (令人反感令人反感) ) Ø   声音质量分级与带宽 声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好按照带宽可将声音质量分为4级: q数字激光唱盘质量 ,通常又CD-DA质量,这种质量也就是我们常说的超高保真,即Super HiFi(High Fidelity) q调频无线电广播,简称FM(Frequency Modulation)质量 q调幅无线电广播,简称AM(Amplitude Modulation)质量 q(Telephone)质量在这4级质量中,以CD-DA的声音质量等级最高,其余次之 4级声音质量的频率范围 •2.2 模拟音频的数字化过程 如果要用计算机对音频信息进行处理,则首先要将模拟音频信号(如语音、音乐等)转变成数字信号。

      数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式对模拟音频数字化过程涉及到音频的采样、量化和编码 采样和量化的过程可由A/D转换器实现A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件 u2.2.1采样 早在40年代,信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容采样定理看来象是一个数学问题,而实质上它为数字化技术奠定了一个基础        为实现A/D转换,需要把模拟音频信号波形进行分割,以转变成数字信号,这种方法称为采样(Sampling)采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号该时间间隔称为采样周期,其倒数为采样频率采样频率是指计算机每秒钟采集多少个声音样本采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确这和测定每天24小时气温变化是一样的,每小时测定1次气温比每两小时测定1次气温的精度要高一倍。

      采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音用公式表示如下:   T T≤1/2f≤1/2fc c 或或 f fc c ≤≤ 1/2T 1/2T 采样的著名实例就在我们的日常生活中,例如和CD唱片在数字系统中,为将人的声音变为数字信号,采用脉冲编码调制PCM方法,每秒钟可进行8000次的采样PCM提供的数据传输率是56kb/s(b/s表示b/s)或64kb/sCD唱片存储的是数字信息,要想获得CD音质的效果,则要保证采样频率为44.1kHz,也就是能够捕获频率高达22050Hz的信号 u2.2.2 量化 采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是每一等分的长方形的高是多少呢? 即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小该值的大小影响音量的高低我们把对声波波形幅度的数字化表示称之为“量化” 量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。

      如何分割采样信号的幅度呢? 我们还是采取二进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级(quantization levels),用以记录其幅度大小而一个以16位为采样模式的音效中,它在每一个固定采样的区间内所被采集的声音幅度,将以个不同的量化等级加以记录  在相同的采样频率之下,量化位数愈高,声音的质量越好同理,在相同量化位数的情况下,采样频率越高,声音效果也就越好这就好比是量一个人的身高,若是以毫米为单位来测量,会比用厘米为单位量更加准确 下表给出了不同信号类型的采样率和量化精度 信号类型信号类型频率范围频率范围( (Hz)Hz)采样率采样率( (kHz)kHz)量化精度量化精度( (位位) )话音话音200-3400200-34008 88 8 8 8宽带音频宽带音频50-700050-70001616161616161616调频广播调频广播20-1520-15k k37837837837816161616高质量音频高质量音频20-2220-22k k44144144144116161616 u2.2.3 采样与量化过程示例 以图2-1所示的原始模拟波形为例进行采样和量化。

      假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成09共10个量化等级,并将其采样的幅度值取最接近0  9之间的一个数来表示,如图2-2所示图中每个正方形表示一次采样 当D/A转换器从图2-2得到的数值中重构原来信号时,得到图2-3中蓝色(直线段)线段所示的波形从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多这意味着重构后的信号波形有较大的失真 失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把图2-2中的波形划分成更为细小的区间,即采用更高的采样频率同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度在图2-4中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级在图2-5中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高 图2-4 采样率为2000Hz,量化等级为20的采样量化过程 图2-5 采样率为4000Hz,量化等级为40的采样量化过程 u2.2.4 编码 模拟信号量经过采样和量化以后,形成一系列的离散信号——脉冲数字信号。

      这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正 编码的形式比较多,常用的编码方式是PCM——脉冲调制脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调制方式,既把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储PCM的主要优点是:抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性 模拟信号经过采样再经量化,然后用有限个二进制码去代表量化后的幅度,在编码器中引入的量化误差在解码时无法消除,这一误差等效于引入了噪声、降低了信噪比在比特率较高的波形编码中可以用客观指标如信噪比来衡量编码的质量,例如现在中普遍使用的A律标准(ITU G.711标准),要求信噪比优于35dB除此之外,还可以规定动态范围和频率响应,在有关的国际标准中都有具体规定。

      在低比特率情况下,采用了语音特征参数分析和合成语音的编码方法,每个样值仅1或0.5比特 在ISO的红皮书(Red Book)标准中,规定CD-DA每24字节双声道音频数据为一帧,对每一帧数据编码后要形成帧同步码、子码(用于控制和显示)及纠错码,采用差错校验码CIRC,用来检测和纠正因CD表面的划伤或灰尘产生的差错其格式如表2-3所示 在CD-DA中,数据、控制码和纠错码分别记录在不同的光道上 定义98个音频数据帧为一个扇区因此每个扇区所含音频数据量为 98×24 = 2352(Byte),它使得一张CD唱盘上可容纳约74分钟的立体声音乐信号帧同步帧同步子码子码音频数据音频数据(左声道)(左声道)Q Q校验校验音频数据音频数据(右声道)(右声道)P P校验校验4 41 112124 412124 4 •2.3 音频信号的压缩编码与标准 将量化后的数字声音信息直接存入计算机将会占用大量的存储空间在多媒体系统中,一般是对数字化声音信息进行压缩和编码后再存入计算机,以减少音频的数据量u2.3.1 音频信号压缩编码概述在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储。

      在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放 音频信号处理过程 声音信号能进行压缩编码的基本依据是:Ø 声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的;Ø音频信息的最终接收者是人,人的听觉器官(包括视觉器器官)都具有某种不敏感性,舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计例如,人耳听觉中有一个重要的特点,即听觉的“掩蔽”它是指一个强音能抑制一个同时存在的弱音的听觉现象利用该性质,可以抑制与信号同时存在的量化噪音 Ø.对声音波形取样后,相邻样值之间存在着很强的相关性 音频数据压缩和编码与图像压缩编码有着很大的不同图像数据表达的是二维空间,很难找出固定的模型来形式化地表征它音频数据表达的是一维随时间变化的函数,因而声音数据的压缩比图像数据压缩要容易得多从方法上看,声音信号的编码方式大致可分为三类,即波形编码、参数编码和混合编码 波形编码的编码信息是声音的波形这种方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值,复原的声音质量较高波形编码技术有PCM(脉冲编码调制)、ADPCM(自适应差分脉冲编码调制)和ATC(自适应变换编码)等。

      参数编码是一种对语音参数进行分析合成的方法语音的基本参数是基音周期、共振峰、语音谱、声强等,如能得到这些语音基本参数,就可以不对语音的波形进行编码,而只要记录和传输这些参数就能实现声音数据的压缩这些语音基本参数可以由语音生成机构模型通过实验获得得到语音参数后,就可以对其进行线性预测编码(LPC-Linear Predictive Coding) 混合型编码方法是一种在保留参数编码技术的基础上,引用波型编码准则去优化激励源信号的方案混合编码充分利用了线性预测技术和综合分析技术,其典型算法有:码本激励线性预测(CELP)、多脉冲线性预测(MP-LPC)及矢量和激励线性预测(VSELP)等 总的来说,波形编码在声音编码方案中应用较广,可以获得很高的声音质量下面我们介绍波形编码方案中常用的PCM编码 u2.3.2 PCM编码 1939年法国工程师Alec Reeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号(Pulse Code Modulation-PCM),并申请了专利PCM首先开始应用于系统,但一直到1962年美国Bell实验室才为AT&T制成了国际上第一套商用PCM系统(T1系统),这标志了通信开始步入数字化。

      以后的计算机发展更促进了通信的数字化,并逐步与通信相结合 PCM 编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种 如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图2-6所示均匀量化PCM就是直接对声音信号作A/D转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩该方法将输入的声音信号的振幅范围分成个等份(B为量化位数),所以落入同一等份数的采样值都编码成相同的B位二进制码只要采样频率足够大,量化位数也适当,便能获得较高的声音信号数字化效果为了满足听觉上的效果,均匀量化PCM必须使用较多的量化位数这样所记录和产生的音乐,可以达到最接近原声的效果当然提高采样率及分辨率后,将引起储存数据空间的增大 改进PCM编码技术的一个方法是采用非均匀量化,即让量化级高度随信号振幅而变化信号振幅小则缩小量化级高度,信号振幅大时则增大量化级高度这样就可以在满足精度要求的情况下用较少的位数实现编码。

      在声音数据还原时,采用相同的规则 在非均匀量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为 律(-Law)压(缩)扩(展)算法,另一种称为A律(A-Law) 压(缩)扩(展)算法这两种算法主要用于数字通信中  律的计算公式如下: 其中是信号x(n)的最大幅度,u是控制压缩程序的参数,u越大压缩就越厉害 图2-7给出了按律压扩算法的输入输出特性曲线,为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比由图可见,值越大,压缩量越大由于 律压扩的输入和输出关系是对数函数关系,所以这种编码又称为对数PCM A律压扩与律压扩相比,则压缩的动态范围略小些,小信号振幅时质量要比律稍差无论是A律还是律算法,它们的特性在输入信号振幅小时都呈线性,在输入信号振幅大时呈对数压缩特性 对于采样频率为8kHz,样本精度为16位的输入信号,使用A律压扩或律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s这个数据就是CCITT ,(国际与电报顾问委员会)推荐的G.711标准:话音频率脉冲编码调制 u2.3.3 音频压缩编码的标准 随着多媒体计算机系统及数字通信系统的发展,数字音频编码技术正日益受到重视。

      为了提高信号传输和存储的效率,人们多方致力于信源编码的研究,力图在保证声音质量的前提下,降低信源编码的数据速率,并由此产生了一系列的国际的区域的标准 国际电报咨询委员会(CCITT)先后提出了一系列有关语音压缩编码的建议在1972年制定了G.711,采用的是律或A律的PCM编码技术,数据速率为64kb/s1984年,公布了G.721标准,它采用的是ADPCM编码技术,数据率为32kb/s以上两个标准均适用于3003400Hz窄带语音信号,也可用于公用网针对宽带语音信号(50Hz7kHz),CCITT制定了G.722编码标准,它的数据速率为64kb/s用此标准编码,可在ISDN(综合业务数据网)的B通道上传输音频数据 为了进一步降低数据速率,CCITT从1989年开始研究16kb/s的短延时、高质量的音频编码标准在AT&T Bell实验室16kb/s短延时码激励(LD-CELP)编码方案的基础上,又公布适合于进入长途网采用的新标准另外,还有欧洲数字移动通信(GSM)制定了数字移动通信网的13kb/s长时预测规则码激励(RPE-LTP)语音编码标准美国1989年也公布了CTIA标准。

      它采用长时延自适应CELP方案,适应于更低速率的语音压缩,主要应用在保密话音通信 ISO(国际标准化组织)也制定了一系列的相应的标准,其运动图象专业组(MPEG)在制定运动图象编码标准的同时,制定了高保真立体声音频压缩标准“MPEG音频” 虽然MPEG声音标准是MPEG标准的一部分,但它同时也完全可以独立应用 MPEG声音压缩算法是第一个高保真声音数据压缩的国际标准 MPEG音频根据不同的算法分为三个层次层次1与层次2具有大致相同的算法,如表2-3所示输入音频信号的采样频率为48kHz、44.1kHz或32kHz,经过滤波器组分成32个子带同时编码器利用人耳的屏蔽效应,根据音频信号的性质计算各个频率分量的屏蔽门限,以控制每一个子带的量化参数,达到数据压缩的目的MPEG音频的层次3进一步引入了辅助子带、非均匀量化和熵编码等技术,可以进一步压缩率立体声信号的编码也可以在MPEG音频中作为附加功能实现MPEG音频压缩技术的传输速率为每声道32kb/s448kb/s MPEG声音的质量 表中,MUSICAM (Masking pattern adapted Universal Subband IntegratedCoding And Multiplexing)为自适应声音掩蔽特性的通用子带综合编码和复合技术。

      ASPEC (Adaptive Spectral Perceptual Entropy Coding of high quality musical signal) 表示高质量音乐信号自适应谱感知熵编码 层次层次算法算法压缩率压缩率立体声信号所对应立体声信号所对应的比特率的比特率(kbits/sec)1 MUSICAM 1:4 3842MUSICAM 1:6   1:8256  1923ASPEC1:10  1:12128  112 u2.3.4 数字音频的文件格式 在多媒体技术中,存储音频信息的文件格式主要有:WAV文件、VOC文件和MP3文件等 Ø WAV文件 WAV文件又称波形文件,是Microsoft公司的音频文件格式自从Windows视窗操作系统面世以来,Microsoft就将WAV文件作为其标准格式的文件使用用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件 WAV声 音 文 件 是 使 用 RIFF( Resource Interchange File Format资源交换文件)的格式描述的,RIFF格式文件是一种带有标记的文件结构,它由文件头和波形音频文件数据块组成。

      文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成 Wave格式支持MSADPCM、CCITT ALaw、CCITT μ Law和其他压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断 ØVOC文件 VOC文件是Creative公司所使用的标准音频文件格式,也是声霸卡(Sound Blaster)所使用的音频文件格式Voice文件是 Creative Labs (创新公司)开发的声音文件格式 ,多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持,支持CCITT A Law和CCITT μ Law等压缩算法 与WAV格式类似,VOC文件由文件头块和音频数据块组成文件头包含一个标识、版本号和一个指向数据块起始地址的指针,这个指针帮助数据块定位以便顺利找到第一个数据块数据块分成各种类型的子块,如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。

      ØMPEG音频文件——.MP1/.MP2/.MP3 这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEG Audio Layer)MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2和MP3这三种声音文件; MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为4∶1和6∶1~8∶1,而MP3的压缩率则高达10∶1~12∶1,也就是说一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真 MP3的流行得益于Internet的推波助澜,它用网络代替了传统唱片的传播途径,扩大了数字音乐的流传范围,加速了数字音乐的传播速度,MP3凭借其优美的音质和高压缩比而成为最为流行的音乐格式 MP3播放器WinampMP3是Internet上流行的音乐格式 Ø RealAudio文件——.RA/.RM/.RAM RealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式;它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:对于28.8kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。

      ØAIFF文件——.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式;被Macintosh平台及其应用程序所支持,其他专业音频软件包也同样支持这种格式 u2.4.1 音频卡(声卡)发展的历史 ØADLIB-最早的声卡   虽然PC声卡是在90年代才得以普及,但它的问世却早在1984年英国的ADLIB公司是目前公认的“声卡之父”,虽然他们最初开发的产品只能提供简单的音乐效果,并且无法处理音频信号,但在当时无疑已经是一个很大的突破由于技术不够成熟、成本又非常高昂,因此这类带有试验品性质的早期ADLIB音乐卡,当时计算机的运算速度也不足以应付大规模的多媒体处理,所以并未能普及 2.4 音频卡的工作原理 音频卡的工作原理 ØCreative 声卡系列  把声卡真正带入个人电脑领域的,是CREATIVE-创新公司创新科技有限公司是世界上规模最大的多媒体硬件生产商和制造商之一,其“声霸卡”和“视霸卡”系列产品在全球占有很高的市场份额自1989年,Creative在美国Comdex展览会上首次推出自己研制开发的适用于PC机的Sound Blaster而引起轰动至今,使SB声霸卡产品形成系列而风靡全球。

        第一代Sound Blaster声卡基于ISA总线,具有一个8位的D/A转换器,只支持单声道录放音模式它一次为电脑同时加上了音乐处理和音频信号处理的功能此后推出的Sound Blaster Pro加入了对立体声信号的支持第一个多媒体电脑技术标准——MPC1,就把Sound Blaster Pro作为声卡设备的标准配置 Creative在成功推出第一块适用于PC机的声音卡 Sound Blaster Pro 后,又推出了具有 16bit、44KHz采样率并支持立体声的Sound Blaster 16系列它的推出使多媒体声卡的录音和放音第一次在技术规格上达到了CD唱片的品质在20世纪90年代中期,16bit、44KHz、立体声D/A转换代表了声卡的最高技术水平 Creative在1995年的推出了具有波表合成功能的Sound Blaster Awe 32声卡SB Awe 32具有一个32复音的波表引擎,并集成了1MB容量的音色库,使其MIDI合成效果大大超越了以前所有的产品(其以前的产品在MIDI“电子合成器”方面采用都是YAMAHA公司研发的FM合成技术) 在Sound Blaster 32的基础上,Sound Blaster AWE64在技术上取得了巨大的飞跃。

      这里的32和64不再表示数字音频的位数,而是表示32和64种复音的波表合成技术,它们仍是16位声卡 SB AWE64采用著名音源公司E-mu的专业级的波表,采用了多点插值算法专利技术的Wave Effect合成器,提供平滑的音频复制和最小的失真,可升级到28MB音色采样子系统能更好地支持Sound Font 音色库它提供了高质真实乐器感的64复音的MIDI合成器,使得游戏和多媒体应用程序的音响效果比以前更为逼真3D增强定位音响(3D Positional Audio)技术和空间响应,使每一种声音变得比以前更加令人陶醉高级的音色库定制和编辑,使用户可以在计算机上制作音乐,进行作曲 2.4.2 音频卡的功能和分类(一)、音频卡的主要功能1、音频的录制与播放2、编辑与合成3、MIDI和音乐合成4、文语转换与语音识别5、CD-ROM接口即游戏接口 音频录放采用:音频录放采用: 采样频率范围:8~44.1kHz 量化位:8位,16位,32位 单声道:立体声/单声道 编码与采样:编码与采样: 基本编码方法:PCM 压缩编码方法:ADPCM(8:4, 8:3, 8:2, 16:4) CCITT A律(13:8) CCITT μ律(14:8) 实时硬件压缩/软件压缩音频录放的自动动态滤波音频录放的自动动态滤波录音声源:麦克风、立体声线路输入、录音声源:麦克风、立体声线路输入、CD输出功率放大器,直接驱动扬声器,音量可调。

      输出功率放大器,直接驱动扬声器,音量可调1.录制与播放录制与播放 2.编辑与合成编辑与合成它是对声音文件进行多种特殊效果处理,包括以下内容:倒播增加回音静噪淡入和淡出往返放声交换声道声音移位 3、、MIDI和音乐合成和音乐合成 MIDI MIDI 是乐器数字接口的标准,它规定了电是乐器数字接口的标准,它规定了电子乐器与计算机之间相互数据通信的协议子乐器与计算机之间相互数据通信的协议 音乐合成的功能和性能依赖于合成芯片音乐合成的功能和性能依赖于合成芯片波形表音乐合成波形表音乐合成(详见后续章节)(详见后续章节) 4、文语转换和语音识别、文语转换和语音识别文语转换就是把计算机内的文本转换成声音语音识别将语音识别为计算机能理解的文字或命令 (二)音频卡的分类(1) 音频卡的分类主要是根据采样量化的位数来音频卡的分类主要是根据采样量化的位数来分类的通常分为分类的通常分为8位,位,16位,位,32位等位数越位等位数越高,量化精度越高,音质越好同时形成声音文高,量化精度越高,音质越好同时形成声音文件所需的容量越大件所需的容量越大计算声音文件公式如下:计算声音文件公式如下: S=D x R x((r/8))x声道数声道数 D代表采样频率,代表采样频率,R代表采样时间以秒计算,代表采样时间以秒计算, r代表量化位代表量化位 (二)、音频卡的分类(2)一、独立音频卡,插在主板的ISA或PCI槽中。

      二、主板集成目前市场上90%以上的主板都集成AC‘97声卡现在广泛在整合主板上集成的板载声卡采用的音效芯片:创新ES1370/CT5880、C-Media 8738、YAMAHA YMF744、傲锐AU8820 ,一些独立声卡采用的芯片和上面的完全一样现在已经出现了6声道的板载声卡,板载5.1输出也变为现实 三、USB声卡普通的性能,过大的体型,还有居高不下的价格,但也有一些产品的价格较低 (一)、音频卡的特性(1)强劲的音频处理引擎(2)环境音效增加现有音频的内容(3)Sound Blaster TM PCI标准(4)多音箱输出(5)256复音音乐合成器(6)环境音效功能扩展集/广泛的软件支持2.4.3 音频卡的工作原理 音频卡的工作原理 (二)工作原理(二)工作原理主要组成部分:1、声音的合成与处理:数字音频处理器(DSP)、FM合成器以及MIDI控制器,其任务是完成声波信号的模/数(A/D)、数/模(D/A)转换,调频技术控制声音的音调、音色和幅度,FM音乐合成器具有多种复音操作的功能;2、混合信号处理器:内置数字/模拟混音器、混音器的声源可以是MIDI信号、CD音频、话筒和PC的扬声器等,可以选择不同音源进行混合录音;3、功率放大器:使输出的音频信号有足够的输出功率;4、计算机总线接口和控制器:ISA总线,PCI总线,总线接口和控制器有数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及DMA逻辑组成。

      PC 总线数据总线驱动器总线接口和控制器游戏接口MIDI 接口混合信号处理器数字声音处理器MIC放大器功率放大器音乐合成器音乐合成器地址总线控制总线MIC扬声器CDline音频卡的工作原理图音频卡的工作原理图 音频卡的工作原理音频卡的工作原理•音频卡简称声卡,它将模拟音频进行模数转换送入计算机,进行处理后再经过数模转换,输出加工后的合成音频•DSP:它完成8位或16位单声道/立体声数字声音的记录和播放;完成4:1,3:1和2:1的ADPCM压缩/解压缩,控制取样频率,翻译与声卡兼容的MIDI指令,提供扬声器控制,控制各种直接存取DMA 方式•总线接口负责为总线和声卡各部分提供握手信号和数据传输 (三)衡量声卡质量的关键技术(三)衡量声卡质量的关键技术•总线类型:ISA 6Mbit/s ,PCI 133Mbit/s•标准支持•即插即用•取样能力•芯片类型:CODEC芯片•合成器: FM和波表合成•MIDI音乐•音效 2.4.4 音频编码基础和标准 音频编码基础和标准1 1、时域信息的冗余度、时域信息的冗余度、时域信息的冗余度、时域信息的冗余度((((1 1)幅度的非均匀分布)幅度的非均匀分布)幅度的非均匀分布)幅度的非均匀分布((((2 2)样本间的相关)样本间的相关)样本间的相关)样本间的相关((((3 3)周期之间的相关)周期之间的相关)周期之间的相关)周期之间的相关((((4 4)基音之间的相关)基音之间的相关)基音之间的相关)基音之间的相关浊音浊音浊音浊音清音清音清音清音((((5 5)静止系数)静止系数)静止系数)静止系数((((6 6)长时相关函数)长时相关函数)长时相关函数)长时相关函数 2、频域信息的冗余度、频域信息的冗余度((1)非均匀的长时功率谱密度)非均匀的长时功率谱密度((2)语音特有的短时功率谱密度)语音特有的短时功率谱密度3、人的听觉感知机理、人的听觉感知机理第一、人的听觉具有掩蔽效应第一、人的听觉具有掩蔽效应第二、人耳对不同频段的声音的敏感程度不同,第二、人耳对不同频段的声音的敏感程度不同, 通常对低频端较之对高频段更敏感。

      通常对低频端较之对高频段更敏感第三、人而对语音信号的相位变化不敏感第三、人而对语音信号的相位变化不敏感 音频编码的分类音频编码的分类((1)基于音频数据的统计特性进行编码,其典型)基于音频数据的统计特性进行编码,其典型的技术是波形编码如的技术是波形编码如PCM ,,DPCM,,ADPCM2))基于音频的声学参数,进行参数编码,可进基于音频的声学参数,进行参数编码,可进一步降低数据率;参数有共振峰、线性预测系数、一步降低数据率;参数有共振峰、线性预测系数、滤波器组等,如滤波器组等,如CELP、、MPLPC3))基于人的听觉特性进行编码,利用掩蔽效应,基于人的听觉特性进行编码,利用掩蔽效应,设计心理学模型,从而实现高效率的数字音频的压设计心理学模型,从而实现高效率的数字音频的压缩如MPEG的高频编码和的高频编码和Dolby AC-3 常用三种波形编码的方法常用三种波形编码的方法:(1)PCM:直接对语音信号进行模数转换只要采样频率足够高,量化尾数足够多,就能使编码后恢复的语音信号有较高的质量2)DPCM:即只传输语音预测值和样本值的差值,以此降低音频数据的编码率3)ADPCM:它是DPCM方法的改进,通过调整量化步长,对不同数模设置不同的量化步长,使数据得到进一步的压缩。

      2.4.5 音频编码标准音频编码标准国际电报咨询委员会(CCITT)和国际标准化组织(ISO)先后提出了一系列有关音频编码的标准具体如下:1.G.7112.G.7213.G.7224.G.7285.MPEG中的音频编码6.AC-3的编码和解码 音频编码的算法和标准音频编码的算法和标准算 法名 称数 据 率标 准应 用质 量波形编码PCM均匀量化公共网ISDN配音4.0~4.5µ(A)µ(A)64kb/sG.711APCM自适应量化DPCM差值量化ADPCM自适应差值量化32kb/sG.721SB-ADPCM子带-自适应差值量化64kb/sG.7225.3kb/sG.7236.3kb/s参数编码LPC线性预测编码2.4kb/s保密2.5`3.5混合编码CELPC码激励LPC4.6kb/s移动通信4.0~3.7VSELP矢量和激励LPC8kb/s语音邮件RPE-LTP长时预测规则码激励13.2kb/sISDNLD-CELP低延时码激励16kb/sG.728G.729MPEG多子带 感知编码128kb/sCD5.0AC-3感知编码音响5.0 ADPCM编码器结构图编码器结构图转化为标准PCM自适应量化器逆自适应量化器自适应预测器S(k)64kb/sA律或µ律PCMSl(k)d(k)I(k)Se(k)dq(k)St(k)32kb/s输出 ADPCM解码器结构图解码器结构图转化为PCM同步编码调节逆自适应预测器32kb/s输入64kb/s输出     A律或µ律PCM逆自适应量化器 CELP((码激励线性预测)编码图码激励线性预测)编码图矢量缓冲激励VQ码本VQ索引通道增益后向增益自适应最小MSE50阶LPC预测器后向LPC分析感知加权滤波器编码误差输入语音合成语音 CELP((码激励线性预测)解码图码激励线性预测)解码图已编码语音激励VQ码本从通道来的VQ索引增益后向增益自适应50阶LPC预测器后向LPC分析自适应后滤波器后滤波的语音信号输出 MPEG中的音频编码中的音频编码   MPEG是运动图像专家组的简称,国际标准化组织(ISO)和国际电工委员会(IEC)所属的W11工作组,制定推荐了MPEG的标准。

      MPEG标准有MPEG-I ,MPEG-II,MPEG-IV,MPEGVII等,MPEG-I中一部分对应于ISO/IEC11172-3及MPE音频它规定了高质量音频编码方法,存储表示和解码方法编码器的输入和解码器的输出与现存的PCM 标准兼容 MPEG音频编码主要参数音频编码主要参数(1)编码器 编码器处理数字音频信号,并生成存储所需的数据流见结构图)(2)编码层次 层I包括将数字音频变成32个子带的基本映射; 层II 提供了位分配,缩放因子和抽样的附加编码; 层III采用混合带通滤波器来提高频率分辨率3)存储(4)解码 解码器按编码器的定义的语法接受压缩的音频数据流按解码部分的方法解出数据元素,按滤波器的规定,用这些信息产生数字音频的输出(见解码结构图) MPEG音频编码器结构框图音频编码器结构框图映射量化器和编码帧封装心理声学模型辅助数据PCM音频抽样已编码数据流 MPEG音频解码器结构框图音频解码器结构框图帧扩展重构逆映射已编码数据流PCM音频抽样辅助数据 AC-3编码和解码编码和解码AC-3是在是在1992年年DOLBY实验室在实验室在AC-2((立立体声编码标准)的基础上推出的。

      体声编码标准)的基础上推出的AC-3 提供提供了了5个声道从个声道从20HZ 到到20KHZ的全通带频,即的全通带频,即正前方的左(正前方的左(L))中(中(C))右(右(R),),后边两个后边两个独立的环绕立体声通道左后(独立的环绕立体声通道左后(LS))和右后和右后((RS)同时还提供了一个同时还提供了一个100HZ以下的超以下的超低音声供用户选择,以弥补低音之不足也低音声供用户选择,以弥补低音之不足也被称为被称为5.1声道 AC-3 5.1声道图示声道图示LCRLSRS100Hz AC-3可编程解码器可编程解码器4声道混合环绕立体声5.1声道AC-3数据流解码器A解码器B解码器C解码器DLCRLSRSSubLTRT逻辑环绕声解码器LCRS5.1声道环绕立体声2 声道立体声单声道 AC-3编码器框图编码器框图分析滤波器组频率包络线分析比特分配位数量化AC-3成帧PCM时间采样指数尾数比特分配信息量化尾数编码的AC-3位流编码的频谱包络线 AC-3编码流程图编码流程图耦合策略PCM输入瞬时测试TDAC变换形成耦合声道模型重建确定指数指数策略抖动策略指数编码尾数规格化比特分配成帧尾数量化块开关标志耦合策略重建标志指数策略抖动指针比特分配参数指示信息编码的谱包络线尾数比特分配指针主信息 AC-3同步帧结构图同步帧结构图音频数据块AUXCRCSIBSIAB0AB2 AB3 AB4 AB5AB1同步帧SIBSI 2.5音乐合成与音乐合成与MIDI 规范规范音乐合成的两种技术:音乐合成的两种技术:•调频(调频(FMFM))音乐合成技术:是使高频振荡的频率按调制音乐合成技术:是使高频振荡的频率按调制信号规律变化的一种调制方式,合成不同频谱分布的波信号规律变化的一种调制方式,合成不同频谱分布的波形,再现某些乐器的音色形,再现某些乐器的音色。

      •波形表合成(波形表合成(wavetablewavetable))乐音必备的三要素:乐音必备的三要素:•音高:指声波的基频,基频越低给人感觉越低沉音高:指声波的基频,基频越低给人感觉越低沉•音色:具有固定音高和相同谐波的乐音音色:具有固定音高和相同谐波的乐音•响度:对声音强度的衡量响度:对声音强度的衡量 YM3812音乐系统框图音乐系统框图微机或微处理器地址数据总线总线控制YM3812DAC音频放大系统时钟 MIDI规范(术语)规范(术语)1.MIDIMIDI文件文件2.通道(通道(channelschannels))3.音序器(音序器(sequencersequencer))4.合成器(合成器(synthesizersynthesizer))5.乐器(乐器(instrumentinstrument))6.复音(复音(puyphonepuyphone))7.音色(音色(tmbretmbre))8.音轨(音轨(tacktack))9.合成音色映射器(合成音色映射器(patch patch apperapper))10.通道映射(通道映射(channel mappingchannel mapping)) •2.6 乐器数字接口 ——MIDI在音乐创作领域,由于MIDI、电子乐器和多媒体计算机的结合,给人们提供了一种快捷、独特的制作方式,它更加强调音色的非常规化、电子化、空间感和对比等,并且日益形成一种崭新的音乐风格。

      u2.6.1 什么是MIDI MIDI 是数字音乐接口(Musical Instrument Digital Interface)的缩写或者说,MIDI是用来將电子乐器相互连接,或将MIDI设备与电脑连接成系统的一种通信协议 通过它,各种MIDI设备都可以准确传送MIDI信息  MIDI是由软件部分和硬件部分共同组成的系统规范, 这个规范定义了MIDI设备间数字传送时电缆硬件接口和协议规范的制定的目的是希望各家生产的乐器之间通过统一的MIDI交换信息及控制信号,从而完成音乐的合成这样,任何电子乐器,只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置   尽管MIDI是多媒体音响制作的一个重要部分,但它不属于数字音响技术的范畴打个比方,如果数字音响是一盘录了某个人小提琴独奏的磁带,则MIDI就是该独奏的乐谱,尽管乐谱本身并不产生任何实际声音,但它确实定义了演奏的速度、音符及演奏声音的大小   你也许有演奏过某种乐器的经历,只要按照乐谱所标注的要求进行演奏,一段美妙的音乐就在你的指尖流出,而记录这段音乐的乐谱也许只需一两页纸按照这种思路,MIDI使电脑能够利用“记谱”的方法进行音乐的数字化录音及放音。

      它把各种乐器的音色记录在声卡的存储器之中,当演奏时,声卡根据被演奏的音符及乐器,合成出音乐,这样就产生了某种音色的器乐声从一个MIDI设备转送到另一个MIDI设备上去的数据就是MIDI信息MIDI数据不是数字的音频波形,而是音乐代码或称电子乐谱 u2.6.2 MIDI系统的组成 MIDI系统实际就是一个作曲、配器、电子模拟的演奏系统 基于计算机的MIDI音乐系统有多种构筑方案,但基本上都由以下几部分组成:多媒体计算机、合成器、音序器、音源、MIDI键盘、录音设备和监听设备等这些设备可以是独立的,也可以是集成的 如果在计算机上安装了MIDI软件,可将音乐的创作、乐谱的打印、节目编排、音乐的调整、音响的幅度、节奏的速度、各声部之间的协调、混响都可由MIDI软件控制完成 利用MIDI技术将电子合成器、电子音源与音序器连接在一起即可演奏模拟出音色变化万千的音响效果,又可将演奏中的多种按键数据存储起来,极大的改善了音乐演奏的能力和条件   基于计算机的 MIDI 音乐创作系统 Ø合成器 MIDI合成器是能够产生特定声音的电子装置,其数据传送符合MIDI通信约定。

      合成器自诞生以来,其概念已发生了很多变化早期的合成器是真正意义上的硬件合成器,它通过人为地调制各种波的参数(如锯齿波,方型波,滤波 器 , 截 止 频 率 ) 等 来 合 成 音 色  合成器是通过控制面板上的按钮产生数字信号来控制的这些数字信号用于“告诉”合成器内部的微处理器键盘上哪个键被击,哪个旋钮被转动这些数字控制信号还可以同时被记录在合成器内部被称作“音序器” 的装置中 具有具有USBUSB接口的接口的MIDIMIDI键盘键盘人工通过控制面板来调制音色的硬件合成器人工通过控制面板来调制音色的硬件合成器 集集音音源、音序器、源、音序器、MIDIMIDI键盘于一身的合成器键盘于一身的合成器 现在,合成器的概念已经不是人为合成音色的设备它拥有大量真实的采样音色可供演奏使用,它拥有自己的音序器可以录制编辑音乐,它拥有MIDI接口可以与其他设备交换信息我们可以认为现代的合成器是这样意义上的“合成”,即集音源,音序器,MIDI键盘于一身的设备   随着软件音序器的普及,合成器的硬件音序器由于它的繁琐而魅力大减,音源,音序器,键盘三位一体的方式受到挑战。

      人们认识到用电脑制作MIDI是将来的趋势,于是出现了一系列适合为电脑配套的合成器,它们省去了音序器,音序任务由软件完成,合成器只提供键盘和音色,这就降低了合成器的成本又由于独立的硬件音源和采样技术的普及,人们觉得合成器的音色也是多余的,因为独立音源可以提供更好的音色,于是不带音序器和音色的MIDI控制键盘也随即产生,这类键盘有较强的控制功能,音色用音源的,音序器用软件的,可谓是专物专用,而且只要添加音源或采样器就可以得到更多的音色,更换音序软件就可以使用更强的功能 Ø音源 由于音乐最终要以声音的形式表现出来,所以做为电脑音乐系统中产生声音的设备,音源音色的数量、品种和质量都将对最终音乐作品的效果产生重要的影响音源内部有很多不同音色的样本波形,譬如钢琴就有钢琴的音色的真实样本,吉它就有吉它的音色真实样本(即波表)但是音源只是一个资源库,因为它不知道在什么时候该用什么音色发怎样的声音至于何时调用资源(使用哪种音色)不是音源的工作,这项任务是由音序器来完成的 音源也分硬件和软件两种硬件音源是现在专业MIDI制作不可缺少的设备,因为它们可以提供比任何一块声卡上的波表都要好很多的音色,这些独立音源基本上是专业人士使用的,常见的型号有Roland JV1080和Yamaha MU100R等。

      作为一般用户,可以不需要添置硬件音源设备,因为现在任何一块多媒体声卡上都有一个128种音色的GM音色库,即MIDI音源,只不过质量比专用音源设备差一些但有些声卡(如Sound Blaster Live)的 音 源 质 量 较 好 , 可 达 到 准 专 业 级 另外,还可以使用软件音源来代替软件音源也是随着电脑的高速发展而产生的,它们也必须安装在电脑上才能使用大家熟悉的软音源有:Yamaha S-YXG100, Roland VSC88等,大家平时俗称它们为MIDI播放器,其实它们就是音源,因为它们是提供音色的软音源的产生为MIDI的大众化作出了很大的贡献,它使人们不需购买专门设备就可以进行MIDI的创作和演奏 Ø音序器(Sequencer) 音序器是用来记录、编辑和播放MIDI文件的设备音序器分硬件和软件的两种 最早的是硬件音序器,我们也常称它为“编曲机”它可以是一个独立的设备,也可以内置于合成器里这类音序器的编辑和修改必须在它的面板上进行,使用是很不方便的常见的型号有Yamaha QY700等 软件音序器是安装在计算机中的多功能音乐创作、编辑软件,如我们常用的Cakewalk就是一个软件音序器。

      软件音序器因为其显示界面扩大(使用电脑显示器),功能增强,特别是操作方便获得了绝大多数音乐制作者的认可,大有淘汰硬件音序器之势其实正是由于软件加入音乐制作的领域才使MIDI音乐和电脑联系起来,不然制作MIDI音乐完全用不着电脑  YAMAHA QY700 YAMAHA QY700 音序器音序器 硬件音源硬件音源ROLAND JV1080ROLAND JV1080 Ø采样器 音乐的表现力是无限的,因此人们对于音色的要求也是无限的一般的音源均是一种封闭的结构,它们的音色都是固定的,提供的数量和品种都有限,不能满足制作者对新的音色的要求而采样器则是一种开放式的音源,它可以对任何声音进行取样,并把它们编辑成音色来供电脑音乐系统使用 使用采样器可以对各种音乐、其他电子乐器和各种自然界声响进行取样,或是通过读取现成磁盘来获取各种音色到目前为止,使用采样器仍然是满足其对新增音色的最佳手段Ø其他设备 如录音设备、监听设备、音箱功放等,这里不加赘述 u2.6.3 MIDI的工作过程 MIDI电子乐器通过MIDI接口与计算机相连,MIDI靠这个接口来传递消息而进行彼此通信。

      这样,计算机可通过音序器软件来采集MIDI电子乐器发出的一系列消息或指令这一系列消息可记录以 .MID 为扩展名的MIDI文件中在计算机上音序器可对MIDI 文件进行编辑和修改最后,将MIDI消息送往音乐合成器,由合成器将MIDI消息进行解释并产生波形,然后通过声音发生器送往扬声器播放出来其过程如图4-11所示 MIDI的工作过程 理解MIDI工作方式的最直接的方法就是看看MIDI消息是什么MIDI消息实际上是对一段音乐的描述,或理解成是乐谱的数字描述它包括音符、节拍、乐器种类等MIDI消息包括两个大的部分:状态信息和数据信息状态信息用于描述音符被演奏还是声音被加强这样的信息,而数据信息则重点描述哪个音符被演奏了,或被加强的声音的强度如何等可以用量来表示的信息例如,你在一个具有MIDI功能的电子琴上按下了一个键时,电子琴便产生了一个MIDI信息,通过MIDI接口传送出去这个信息就包含了状态信息及数据信息两部分信息的前一部分用于描述你做了什么,这里你按了一个键,产生了一个音符信息的后一部分描述哪一个键被按下了 u2.6.4 FM与波表合成方式 合成器是利用数字信号处理器DSP或其他芯片来产生音乐或声音的电子装置。

      利用合成器产生MIDI乐音的主要方法是FM合成法和波表合成法 ØFM合成法 FM合成法是80年代初由美国斯坦福大学的John Chowning发明的,称为“数字式频率调制合成法”,简称FM合成法FM合成法生成乐音的基本原理是,用数字信号来表示不同乐音的波形,然后把它们组合起来,再通过数模转换器(DAC)生成乐音播放 Ø波表合成法 使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生为子能真实地再现乐音,目前的声卡一般采用乐音样本合成法,即波表合成法这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时根据命令生成各种音阶的音符,产生的声音质量比FM合成方法产生的声音质量要高很多乐音样本的采集相对比较直观,音乐家在真实乐器上演奏不同的音符,选择44.1kHz的采样频率、16比特的量化位数,这相当于CD-DA的质量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集 与FM合成不同,波表合成是采用真实的声音样本进行回放声音样本记录了各种真实乐器的波形采样,并保存在声卡上的ROM中例如创新的Sound Blaster AWE32是第一块广为流行的波表声卡。

      该卡采用了EMU8000波表处理芯片,提供16位MIDI通道和32位的复音效果波表合成的声音比FM合成的声音更为丰富和真实,但由于需要额外的存储器贮存音色库,因此成本也较高而且音色库越大,所需的存储器就越多,相应地成本也就越高 波表合成可以有软硬之分,软波表原理跟硬波表一样,都是采用了真实的声音样本进行回放只是硬波表的音色库是存放在声卡的ROM或RAM中,而软波表的音色库则以文件的形式存放在硬盘里,需要时再通过CPU进行调用由于软波表是通过CPU的实时运算来回放MIDI音效,因此软波表对系统要求较高 •2.7 语音识别技术及应用u2.7.1 语音识别技术概述 人的表达方式有多种,其中语音是最迅速、最常用和最自然的一种让人们与“机器”也通过语言进行信息交流,则是科学家们多年来探索的领域早在70年代,国外就开始致力于语音识别技术的研究经过近30年的探索,语音识别技术经历了从最初的特定人、小词汇量、非连续、非独立扬声器的语音识别到今天的非特定人、大词汇量、连续、独立扬声器的语音识别的发展历程,而且识别速度和准确率都有极大提高随着计算机科学和应用的飞速发展,语音技术已日益广泛地应用于实际中。

      语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信 目前语音识别的主要应用是通过TTS(Text-to-Speech,文本——语音转换器)和 SR( Speech Recognition,语音识别器)实现的TTS和SR是为应用开发者增加的两个用户接口设备,开发者可将TTS和SR加入到应用程序中 语音识别系统的性能通常用单词错误率E来度量: 其中,N是测试集的单词总数,S,I 和D分别是替代、插入和删除的总数 u2.7.2 文本-语音转换器TTS ØTTS的基本概念 文语转换(Text-to-Speech)是将文本形式的信息转换成自然语音的一种技术,其最终目标是力图使计算机能够以清晰自然的声音,以各种各样的语言,甚至以各种各样的情绪来朗读任意的文本也就是说,要使计算机具有象人一样、甚至比人更强的说话能力因而它是一个十分复杂的问题,涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。

      TTS分为综合的和连贯的两种类型综合的语音就是通过分析单词,由计算机确认单词的发音,然后这些音素就被输入到一个复杂的模仿人声音并发声的算法,这样就可以读文本了通过这种方式,TTS就能读出任何单词,甚至自造的词,但是它发出的声音不带任何感情,带有明显的机器语音味道 连贯语音系统分析文本并从预先录好的文库里抽出单词和词组的录音数字化录音是连贯的,因为声音是事先录制的语音,听起来很舒服遗憾的是,如果文本包含没有录的词和短语,TTS就读不出来了连贯TTS可以被看成是一种声音压缩形式,因为单词和常用的短语只能录一次连贯TTS会节省开发时间并减少错误,使软件增加相应的功能因为连贯TTS只播放一个WAV文件,所以它只用很少的处理能力 汉语文语转换的研究始于60年代,最初发展较为缓慢,到了70年代后期,随着计算机科学的发展,才有了较快的进步 总之,TTS系统最根本的问题便在于它的自然度,自然度是衡量一个TTS系统好坏的最重要的指标人们是无法忍受与自然语音相差甚远的机器语音的,自然度问题已经成为严重阻碍TTS系统的推广和应用的桎梏因此,研究更好的文语转换方法,提高合成语音的自然度就成为当务之急。

      ØTTS的应用领域 文语转换在各种计算机相关领域中有着广泛的应用前景当今,人与计算机之间进行交互的最常规手段是通过键盘输入信息,通过屏幕或打印机以视觉形式输出信息这种方式不同于人与人之间通过语音来交流信息的自然的交往方式,因而不仅极大地限制了广大普通用户使用计算机,而且在某些特定场合使用起来也很不方便因此,构造一个以语音为媒介与计算机进行交互的系统,即智能计算机界面,是人们长久以来的梦想,也是科技人员孜孜以求的目标显然,智能计算机界面包括两个相对独立的部分:“倾听”部分,即语音识别;“诉说”部分,即文语转换随着这两方面技术的不断发展,将会从根本上改善人机接口,从而使计算机以崭新的面貌进入人类生活,使计算机发挥出更大的作用 除了人机交互,TTS系统在医疗、教育、通信、信息、家电等领域也具有相当广泛的用途目前,已经逐步实用化的有: q残障人士康复 发声障碍者通过TTS系统与其他人交谈盲人通过TTS系统进行“阅读” q计算机训练 利用TTS系统对学生进行某些特殊的言语训练利用TTS系统进行教学q信息服务 利用TTS系统通过查询信息利用TTS系统通过接听Email随着科学技术突飞猛进的发展,尤其是网络技术的迅速崛起、飞速发展,文语转换技术将在人类社会生活中有着越来越广泛的应用。

      u2.7.3 语音识别器 语音识别器比TTS更复杂,也较难以划分,但每个语音识别器都必须解决下列一些问题: Ø连续性与不连续性如果语音识别系统是连续的,用户就能正常地与系统对话;如果是不连续的,用户就需要字字停顿显然,连续语音识别(Continuous Speech Recognition)比不连续的识别更受欢迎,但它却需要更多的处理能力 Ø单词量 语音识别系统可以有或大或小的词汇量词汇量小的识别系统需要用户发出简单的命令,而朗读文件时,这一系统就必需有大的词汇量大词汇量识别系统比小词汇量识别系统需要更多的处理能力和储存空间虽然日常生活中常用的词汇最多不超过一两万个,但每个专业的术语不少于几万条 影响语音识别的因素: Ø口音识别 音素作为组成单词的最小声音单位,与它们所出现的上下文密切相关例如在美国英语中,字母t在two, true, 和butter中的发声不同其次,声音上的多变可能来自环境以及传感器的位置与特性说话者本身也有一些可变因素,比如生理或者情绪状态,说话的速度,话音质量等等最后,社会语言背景,方言,以及声带大小与形状也会带来说话者之间的可变因素 Ø规则句式与自由句式 识别结构化的句式比较容易,因为它有规则可循,有一定的范围;而人们说话大多采用任意句式,增加了计算机识别的难度。

      Ø识别速度的快慢与准确率的高低 u2.7.4 语音识别的基本原理及过程 语音识别属于模式识别,它与人的认知过程一样,语音识别分为训练和识别两个过程在训练阶段,语音识别系统对人类的语言进行学习,学习结束把学习内容组成语音库存储起来;在识别阶段就可以把人们当前输入的语音在语音库中查找相应的词义或语义 从信号处理的角度来看,任何一个语音识别系统都可以如图2-13来表示 图2-13 语音识别系统框图 Ø前端处理(Analysis System)在语音识别系统中,前端处理的主要作用是对输入的语音进行分析,提取出包含语义的语音参量此外,在孤立词识别中,前端处理还包括语音的端点检测一般情况下,直接的语音波形信号由于包含太多的说话人特征和噪声等冗余信号,与人的听觉特征也不符合,并且数据量太大不利于词库的存储,因此波形信号不适合作语音识别的特征信号 Ø模型训练(Pattern Training) 语音模型现在流行的有三种:动态规划(DTW)、隐马尔可夫(HMM)和神经网络语音库中可以以每个词为一个模型,也可以以音素等为模型在中小词量的识别系统中,一般以词为单位的较多;在大词汇量的情况时,多以音素为单位。

      语音识别的方法主要以语音模型的不同来区分 Ø模型识别(Pattern Classifier)在识别阶段,前端处理后的语音特征参量进入该模块,根据不同的识别模型相应与词库中每个模型计算逻辑距离 Ø判决逻辑(Decision Logic) 在这个模块中确定识别的判决方式并最后确定识别结果根据不同的语音识别系统的类型,判决逻辑有简有繁对于连续词的识别,该模块还完成词的上下文关联及语法判决 u2.7.5 中文语音识别软件-ViaVoice 在国外早已出现了非连续语音识别技术,即要求使用者在语音录入时所读出的词汇间有一定停顿,使计算机能够逐个词地进行识别但中文语音识别又有其特殊性和一定的难度,这是因为汉语句子中词和字的界限不分明,字在句子中有时作为独立的单字词,有时又作为词的语素,这使得计算机的词汇库很难应付这么多变化更何况我们不能强迫人们在句子中的每个词间加上生硬的停顿所以非连续语音识别技术对汉语而言并不实用,汉语识别只有采用连续语音识别(Continuous Speech Recognition)技术才行得通 在语音识别领域,IBM在世界上一直处于领先地位,并在这一领域拥有一百多项专利。

      迄今为止,共有13种语言的连续语音识别产品1997年9月,IBM推出了ViaVoice中文连续语音识别系统,引起人们的极大关注这一高度智能化的语音系统是IBM三十年的语音技术研究成果和本地人才智慧的结晶它成功地解决了汉语同音字多、有声调、口音复杂等难题,为汉字快速方便地输入提供了有效的方法,因而被广泛认为是汉字输入的重要里程碑在1999年底推出的ViaVoice中文语音识别系统,除了具有非特定人、无限词汇量、连续语音识别、高识别率,专业文章智能分析、理解等强大的语音功能外,还为广大上网的用户提供了轻松上网的功能,实现网上语音聊天的梦想 针对中文同音字多、有声调、词界不明、新词不断出现的特点,IBM的ViaVoice的推出,给我国的中文连续语音识别技术的推广注入了催化剂有人称ViaVoice是汉字输入的一次根本性革命,使计算机向人性化迈出了重要的一步,是中文信息处理技术发展的一个重要里程碑 ViaVoice中文语音识别系统,是在Windows上使用的中文普通话语音识别听写系统及相应的开发工具由于采用连续语音识别技术,汉字输入速度快且识别率高,无需指定说话人,无需专门训练,自由句式输入,每分钟可输入150个汉字,平均识别率超过90%,自定词组32000个,用户可添加词组28000个。

      可以说,ViaVoice中文版代表了当前汉语语音识别的最高水平另外,ViaVoice语音识别系统本身是智能化的,在不断使用的过程中,识别率也会不断地提高 ViaVoice只是一个普及型产品,它可以满足人们日常的使用要求如果再进一步发展ViaVoice所采用的技术,可将ViaVoice系统作为一个技术平台,再在这个平台上开发出一些特定行业的专用系统,向各个领域延伸,获得的应用还将更多u2.7.6 中文语音识别技术的应用展望 随着科学技术的发展,中文语音识别技术可以应用到4个方面:语音到文字的转换输入系统、人机对话系统、人机控制系统和同声翻译系统语音到文字转换系统是将人们所说的话逐字逐句地记录下来,它可以用于日常的文字输入工作,还可用于许多特定的场合,如会议记录整理、采访录音整理、电视台的时事字幕制作系统等等;人机对话会系统是指人和计算机在特定的领域中交换信息,以达到查询信息等任务他可以用于各种信息咨询领域,如查询电力、电信和煤气等各种费用,咨询股票、天气、号码、航班车票等各种信息,方便人们通过快捷地获取各种信息;人机控制系统是指人们通过语音命令控制计算机,它可用于声音导航、工业控制等多个领域;同声翻译系统能够进行多语种之间的同声翻译,帮助不懂外语的人自由地与外国人交谈。

      从现有的需求和技术条件来看,语音界面将会是未来操作系统的外壳现在的技术已经发展到可以采用语音录入文字以及驱动字处理系统,甚至还出现了语音Email在现实生活中,语音也正在逐步显示其强大的生命力语音录入的速度和方便程度是其他任何方式所无法比拟的 自动翻译全称自动同声翻译,是指两个说不同语言的人在打时,由电脑自动将一种语言翻译成另一种语言,并用声音传给对方,不需通过第三方翻译就可直接对话,中间也不会因翻译而产生迟延,就如同国内打一样方便在信息产业为主流的今天,自动翻译的实现,不再是遥远的幻梦有关专家预测,自动翻译在2005年前可实用化,2010年即将进入千家万户 技术的发展为人们带来了极大的方便可以预计,进入21世纪,中文语音识别技术不仅会发展成为PC上的标准应用平台或配置,而且会出现在越来越多的嵌入式系统中,用来解决各种形式的输入问题和复杂的操作问题当自然语言理解技术成熟后,中文语音识别技术将会得到更为广泛的应用,真正成为人们生活的一部分可以想象,我们站在家门口说"芝麻,开门"的一天将不再遥远。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.