
多媒体技术简介.ppt
46页多媒体技术简介,第三、四讲,主要内容,多媒体数据的获取技术 数字化技术 编码技术 压缩技术 多媒体技术标准 存储格式1 多媒体数据的获取技术,计算机本身可以创建的媒体:文本、图形、动画和MIDI音乐 从外部输入到计算机内的媒体:图像、音频和视频 图像、音频和视频这三种媒体需要数字化,才能让计算机处理2 数字化技术,数字化:将模拟信号变成数字信号的过程 采样:把连续时间或者连续空间分布转化为离散值的过程,必须遵循奈奎斯特定理 量化:把连续的采样值转化为离散值的过程,分为线性量化和非线性量化 编码:把量化值表示成数字形式的过程 音频数字化、图像数字化、视频数字化3 编码技术,编码模型 压缩编码分类 统计编码:哈夫曼(Huffman)编码、香农-费诺编码、算术编码、游程编码(RLC)和LZW编码(第二类编码) 预测编码 变换编码 分形编码 矢量化编码 子带编码4 压缩技术,编码压缩的必要性与可能性 多媒体数据存在着大量的冗余:空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余、图像区域的相同性冗余和纹理的统计冗余 文本压缩技术 图像压缩技术 音频压缩技术 视频压缩技术5 多媒体技术标准,多媒体压缩标准 音频压缩标准 图像压缩标准 视频压缩标准 多媒体表示标准 同步多媒体集成语言 MHEG标准 多媒体元数据标准。
6 存储格式,文本存储格式:.doc、.rtf、.pdf 图像存储格式 音频存储格式: .WAV、.MP3、.MID、其它格式 视频存储格式音频,声音包含三个要素:音调、音强和音色 基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示 谐波与音色:n×ωo称为基波ωo的n次谐波分量(n就是高次谐波的方次,n×ωo就是基波ωo的n次谐波),也称为泛音音色是由混入基音的泛音所决定的 幅度与音强:信号的幅度是从信号的基线到当前波峰的距离幅度决定了信号音量的强弱程度幅度越大,声音越强音频数字化,连续的音频波形可通过麦克风等输入设备转化为连续的电信号,要使计算机能够处理和传输音频信号,必须经过模/数转换过程 采样对声音波形的采样就是按采样的频率间隔、不断地获取幅度的量值,使连续的声音波形转变为离散的数字量 量化将信号范围分割成固定数量图像数字化,采样(Sampling)是对图像空间坐标的离散化,它决定了图像的空间分辨率,就是用一个网格(如右图所示)把待处理的图像覆盖 ,把每一小格上模拟图像的各个亮度取平均值,作为该小方格中点的值 把采样后所得的各像素灰度值从模拟量到离散量的转换称为图像灰度的量化。
编码压缩的必要性与可能性,众所周知,多媒体量化所需数据量大音频、图像和视频的庞大数据对计算机的处理速度、存储容量都提出过高的要求因此必须进行数据量压缩 从传送的角度来看,在信道带宽、通信链路容量一定的前提下,采用编码压缩技术,减少传输数据量,是提高通信速度的重要手段因此,更要求数据量压缩多媒体数据存在着大量的冗余,众所周知,视频由一帧一帧的图像组成,而图像的各像素之间,无论是在行方向还是在列方向,都存在着一定的相关性,即冗余度应用某种编码方法提取或减少这些冗余度,便可以达到压缩数据的目的图形,图形不直接描述数据的每一点,而是描述产生这些点的过程与方法,在计算机图形学和数字图像处理中,图像是位图的概念,基本元素是像素;图形则是向量图的概念,基本元素是图元,即图形指令图像,编码模型(图像),一个压缩系统包括两个不同的结构块:一个编码器和一个解码器,从原理来看主要分为三个阶段,第一阶段将输入数据转换为可以减少输入图像中像素间冗余的数据的集合第二阶段设法去除原图象信号的相关性,例如对电视信号就可以去掉帧内各种相关,还可以去除帧间相关这样有利于编码压缩第三阶段就是找一种更近于熵,又利于计算机处理的编码方式。
压缩编码分类,统计编码,统计编码属无损编码,它是根据消息出现概率的分布特性而进行的压缩编码统计编码又可分为定长码和变长码,常分为如下几类: 哈夫曼(Huffman)编码 香农-费诺编码 算术编码 游程编码(RLC) LZW编码预测编码,预测编码是根据离散信号之间存在着一定的相关性,利用前面的一个或多个信号对下一信号进行预测,然后对实际值和预测值的差(预测误差)进行编码 预测编码中典型的压缩方法有脉冲编码调制(PCM, Pulse Code Modulation)、差分脉冲编码调制(DPCM,Differential Pulse Code Modulation)、自适应差分脉冲编码调制(ADPCM,Adaptive Differential Pulse Code Modulation)等 预测编码可分为无损预测编码和有损预测编码变换编码,变换编码的原理如右图所示从图中看出,存储或传输都是在变换域中进行的,即传输或存储都不是空域图像而是变换域系数,分一般正交变换和小波变换分形编码,分形编码与分形几何相关所谓分形几何就是研究无限复杂但具有一定意义下的自相似图形和结构的几何学分形编码正是利用分形几何中自相似的原理来实现数据压缩的。
首先对图像进行分块,然后再去寻找各块之间的相似性,这里相似性的描述主要是依靠仿射变换来确定的,一旦找到了每块的仿射变换,就保存下这个仿射变换的系数,由于每块的数据量远大于仿射变换的系数,因而图像得以大幅度地压缩 分形图像编码和解码不够成熟,产生的压缩比不够高压缩效果还不十分理想,在当前图像压缩编码中还不能占据主导地位子带编码,由于人眼对不同频域段的敏感程度不同,图像信号可以划分为不同的频域段子带编码的基本思想是利用一滤波器组,将采样将输入信号分解为高频分量和低频分量,然后分别对高频和低频分量进行量化和编码解码时,高频分量和低频分量经过插值和共轭滤波器而合成原信号矢量化编码,矢量量化编码利用相邻图像数据间的高度相关性,将输入图像数据序列分组,每一组由m个数据构成一个M维矢量,一起进行编码,即一次量化多个点根据香农失真率理论,对于无记忆信源,矢量量化编码总是优于标量量化编码,矢量量化编码是有损编码文本压缩技术,文本压缩必须是无损压缩 哈夫曼(Huffman)编码 词典编码 LZ77 LZW图像压缩技术,典型的图像压缩系统主要由三部分组成:变换部分、量化部分和编码部分,音频压缩技术,音频信息编码技术主要可分为三类 波形编码:这种方法主要基于语音波形预测,它力图使重建的语音波形保持原有的波形状态。
常用的波形编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等 参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可显然参数编码压缩比很高,但计算量大它主要用于在窄带信道上提供4.8kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)最常用的参数编码法为线性预测(LPC)编码 混合编码:是指同时使用两种或两种以上的编码方法进行编码的过程由于每种编码方法都有自己的优势和不足,若是用两种或两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的视频压缩技术,视频压缩技术两个要点: 在空间上,图像数据采用JPEG压缩算法 在时间上,图像数据采用移动补偿算法 三种图像 I图像 利用图像自身的相关性压缩, 提供压缩数据流中的随机存取的点,采用基于ADCT的编码技术,压缩后,每个像素为1b-2b P图像 用最近的前一个I图像(或P图像)预测编码得到(前向预测) B图像 B图像在预测时, 既可使用了前一个图像作参照, 也可使用下一个图像做参照或同时使用前后两个图像作为参照图像(双向预测)。
空间冗余,这是静态图像存在的最主要的一种数据冗余一幅图像记录了画面上可见景物的颜色同一景物表面上各采样点的颜色之间往往存在着空间连贯性,从而产生了空间冗余时间冗余,在视频的相邻帧间,往往包含相同的背景和移动物体,因此,后一帧数据与前一帧数据有许多共同的地方,即在时间上存在大量的冗余结构冗余,在有些图像的纹理区,图像的像素值存在着明显的分布模式例如,方格状的地板图案等我们称这种冗余为结构冗余知识冗余,有些图像的理解与某些知识有相当大的相关性例如,人脸的图像有固定的结构这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余视觉冗余,事实表明,人类的视觉系统对图像场的敏感性是非均匀的和非线性的然而,在记录原始图像数据时,通常假定视觉系统是线性的和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码更多的数据,这就是视觉冗余图像区域的相同性冗余,是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余纹理的统计冗余,有些图像纹理尽管不严格服从某—分布规律,但是它在统计的意义上服从该规律利用这种性质也可以减少表示图像的数据量,所以我们称之为纹理的统计冗余。
哈夫曼(Huffman)编码,其编码思想与Shannon-Fano编码方法基本一致,但构造二叉树的方法则相反,不是自上而下,而是自下而上、从树叶到树根生成二叉树具体编码过程如下: 将信源符号按概率递减顺序排列; 把两个最小的概率加起来,作为新符号的概率; 重复步骤(1)和(2),直到概率达到“1”为止; 在每次合并消息时,将被合并的消息赋于“1”和“0”或“0”和“l”; 寻找从每一信源符号到概率为“1”处的路径,记录下路径上的“l”和“0”; 对每一符号写出从码树的根到终结点的“l”、“0”序列香农-费诺编码,简称为S-F编码,是一种变长编码,其基本思想是按信源符号出现的概率大小进行排序,出现概率大的分配短码,反之则分配长码具体编码过程如下: 信源符号按概率递减顺序排列 把符号序列分成上下两部分,使上下两部分的概率和相等或接近相等 对上部分子序列编码为“0”,相当于左子树,对下部分子序列编码为“1”,相当于右子树 重复上述步骤,直到每个子序列只包含一个符号为止算术编码,算术编码也是一种信息熵编码方法,它用0到1之间的一个实数对输入的信息进行编码用到两个基本的参数,一是信源符号的概率,二是信源符号对应和编码区间。
一般的信源符号集x可表示为:,游程编码(RLC),行程编码(RLE)通过统计信源符号中的重复个数,并以格式来编码适用于压缩包含大量重复信息的信源其基本思想是:按行存储一个颜色值和相同色值的像素个数,如下图LZW编码,词典编码主要是利用编码数据本身存在字符串重复特性来实现数据压缩的算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余词典编码又可分为两类: 第一类词典编码的思想是:查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,并将指向重复字符串的指针作为输出编码指针P指向了重复字符串“abc”,所以,当再次出现相同字符串时,则输出指针P第二类词典编码,第二类词典编码的思想是:从输入的数据中创建一个由短语组成的“编码词典”,编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中短语的“索引号”,而不是短语本身,如下图:,WAV文件格式,WAV是Microsoft Windows提供的音频格式这个格式是目前通用音频格式,它通常用来保存一些没有压缩的音频目前所有的音频播放软件和编辑软件都支持这一格式 WAV文件由三部分组成:文件头(标明是WAV文件、文件结构和数据的总字节数)、数字化参数(如采样频率、声道数、编码算法等),最后是实际波形数据。
一般来说,声音质量与其WAV格式的文件大小成正比MP3文件格式,MP3是第一个实用的有损音频压缩编码技术在MP3出现之前,一般的音频编码即使以有。
