
第10章--多媒体信息检索ppt课件.ppt
96页第10章 多媒体信息检索第10章 多媒体信息检索10.1 基于内容的图像信息检索10.2 图像特征提取10.3 图像相似量度10.4 基于内容的视频信息检索10.5 基于内容的音频信息检索10.6 小结思考题第10章 多媒体信息检索10.1 基于内容的图像信息检索第10章 多媒体信息检索随着网络带宽的增加,通过网络提供音频、视频服务成为可能第十六次中国互联网络发展状况统计报告表明,最受欢迎的八大热门服务中,音乐占45.6%,影视占37.8%可见,包含音视频等多媒体的信息服务已经成为互联网络上的热点但是,如何在浩如烟海的网络中找到所需要的多媒体信息呢?前面的章节已经学习了文本检索的相关技术,在某种程度上,这些技术同样适用于多媒体信息检索,但多媒体信息本身具有独特的性质,所以多媒体信息检索还需要特殊的处理技术随着网络带宽的增加,通过网络提供音频、视频服务成为可能第10章 多媒体信息检索多媒体信息检索是根据用户的要求,对图像、文本、声音、视频等多媒体信息进行检索,得到用户所需的信息本章将从网络图像、音频、视频等三方面展开多媒体信息检索技术的学习多媒体信息检索主要分为两种:基于关键字的多媒体信息检索和基于内容的多媒体信息检索。
前者通过对多媒体信息作文字标注或描述来建立索引,后者则通过提取多媒体信息的内容特征来建立索引从网络上进行多媒体信息检索的流程示意图如图10-1所示多媒体信息检索是根据用户的要求,对图像、文本、声音、视频第10章 多媒体信息检索图10-1 网络多媒体信息检索流程示意图图10-1 网络多媒体信息检索流程示意图第10章 多媒体信息检索可见,多媒体信息检索的流程类似于普通的信息检索流程,所不同的主要是解析和特征提取两个步骤在解析时,不丢弃图像、音频、视频等信息,而是需要对它们进行一定的预处理,例如对图像来说,每个网页上的图像非常多,但大多数是网页的装饰图,并不是真正反映网页内容的图像所以,应该把这些图像去掉,去掉的原则可以根据具体的情况制定,如像素值小于某个阈值,或者图像的长宽比例大于某个阈值的图像先被去掉,初筛后留下的图像才送去进行特征提取可见,多媒体信息检索的流程类似于普通的信息检索流程,所不第10章 多媒体信息检索采取文本标注的方式建立索引,一般需要人工进行,随着多媒体数据的飞速增长,人工标注变得越来越不现实,而且受到语言种类的限制所以,基于内容的多媒体信息检索引起了极大的关注本章也将重点介绍基于内容的多媒体信息检索以及相关的特征提取技术。
多媒体信息资源包括图形图像,音频和视频等信息,多媒体信息检索除了可以按照传统的关键字检索外,还可以按照多媒体资源中涵盖的内容来检索,如可以检索所有含有老虎的图像,虽然可能错误地检索出含有猫的图像,但比起传统的检索方法,已经有了本质的不同本章重点介绍基于内容的多媒体信息检索,并且根据多媒体资源的表现形式,把它分为基于内容的图像检索、基于内容的视频检索、基于内容的音频检索三大类采取文本标注的方式建立索引,一般需要人工进行,随着多媒体第10章 多媒体信息检索10.1 基于内容的图像信息检索基于内容的图像信息检索可以说,几乎每一个Web页面上都有图像,这些图像有些是和页面主题相关的,而大部分是一些Logo或广告图像如何有效地检索出所需的网络图像是一个难题传统的按照关键字的图像检索仍然起着重要的作用,如著名网站Google,它提供的图像检索基本是按照关键字进行的,Google 分析页面上图像附近的文字、图像标题以及许多其他元素来确定图像的内容,Google 还使用复杂的算法来删除重复的内容,并确保在搜索结果中首先显示质量最好的图像目前,可通过Google检索到的图像超过3.9亿幅这种检索方法的检索性能关键要看对内容的描述是否准确,相对于基于内容的图像检索来说,按照关键字检索图像准确率效果更好。
10.1 基于内容的图像信息检索可以说,几乎每第10章 多媒体信息检索但是按照关键字的检索具有如下缺点:(1)面对WWW上成千上万幅的图像,对它们进行正确的文本索引,是非常困难的事情2)文本描述不可避免地带有主观性,不同的人从同一幅图像里读出的信息可能大相径庭3)一幅图像胜似千言万语,多少关键词才可能代表一幅图像呢?(4)依赖于文本描述所使用的语言种类基于内容的图像检索(Content-Based Image Retrieval,CBIR)可以在一定程度克服上述缺陷CBIR提取每幅图像的视觉内容(如色彩、纹理和形状等)作为其索引,用户选择具有代表性的一幅或多幅例子图像,依据图像视觉特征的相似度进行查询,然后由系统查找与例子图像在视觉内容上相似的图像,按相似度大小排列返回给用户,或者用户制定图像的主要视觉特征,如红色,按照指定的颜色来检索一般来说,基于内容的网络图像检索流程如图10-2所示但是按照关键字的检索具有如下缺点:(1)面对WW第10章 多媒体信息检索图10-2 基于内容的网络图像检索流程示意图图10-2 基于内容的网络图像检索流程示意图第10章 多媒体信息检索首先将机器人下载回来的图像进行视觉特征分析,主要包括颜色、形状和纹理特征的提取,形成特征索引;用户检索时,通过提交例图或直接的特征查询,再通过同样的颜色、形状和纹理特征提取,形成特征向量;然后,将该特征向量和索引库中的特征向量进行相似度计算;最后输出超过阈值或者按相似度大小排列的图像。
可见,基于内容的图像检索关键在于特征提取和相似度的计算,所以,这也是本章重点讲述的内容目前国内外已有不少应用于实验环境的CBIR系统,其中比较有名的有IBM公司开发的最早商业化QBIC系统,哥伦比亚大学研发的WebSEEK系统、麻省理工学院研发的Photobook系统首先将机器人下载回来的图像进行视觉特征分析,主要包括颜色第10章 多媒体信息检索1 QBICQBIC1是基于图像内容查询的英文缩写(Query By Image Content)QBIC系统是由国际商用机器公司IBM(International Business Machinery)Almaden研究中心研发的第一个商业化的基于内容的图像检索系统该系统的框架和采用的技术对后来的图像检索系统产生了深刻的影响QBIC系统支持基于范例图像的查询方式,也支持通过由用户构造的草图、轮廓和选定的色彩与纹理样式的查找方式,以及其他一些查询方式在QBIC的最新版系统中,基于文本的关键字查找方式与基于内容的相似性查找方式相结合,共同完成查找功能1 QBICQBIC1是基于图像内容查询的英第10章 多媒体信息检索2 VirageVirage2是由Virage有限公司开发的基于内容的图像检索引擎。
同QBIC系统一样,它也支持基于色彩、色彩布局、纹理和结构特征(对象边缘)的视觉查询功能但 Virage比QBIC在技术上向前迈了一步,Virage支持以上四种基本查询的任意组合的查询方式用户还可以根据需要来调整一些基本图像特征的权重Jeffery等人进一步提出了图像管理的开放式框架,他们将图像的视觉特征分为两类:一类是通用特征(如色彩、形状或纹理),一类是领域相关的特征(如用于人脸识别、癌细胞检测的特征)根据不同领域的具体需要,各种专用的基本特征就可以加入到这个开放式结构中来2 VirageVirage2是由Virag第10章 多媒体信息检索3 PhotobookPhotobook3是美国麻省理工学院的多媒体实验室所开发的用于图像查询和浏览的交互式工具它由三个子系统组成,分别负责提取形状、纹理、人脸特征这样一来,用户就可以分别在这三个子系统中根据相应的特征来进行查找然而,对于不同的领域,没有哪一种“最好”的特征能够完美地描述一幅图像,所以,在Photobook更新一些的版本FourEyes中,Picard等人提出了把用户加入到图像注释和检索过程中的想法更进一步,由于人的感知是主观的,他们又提出了“模型集合”来结合人的因素。
实验表明,这种方法对于交互式图像注释来说非常有效3 PhotobookPhotobook3是第10章 多媒体信息检索4 VisualSEEK和和WebSEEKVisualSEEK4是美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的基于内容的搜索引擎,而WebSEEK是一种面向WWW的文本或图像搜索引擎,也都是由哥伦比亚大学开发的这两个系统的主要技术特点是采用了图像区域之间空间关系和从压缩域中提取的视觉特征,包括颜色特征和基于小波变换的纹理特征为了加快检索速度,系统采用基于二叉树的索引算法VisualSEEK可同时支持基于视觉特征的查询和基于空间关系的查询比如,用户如果要查找一幅“日落”的图像,那用户的查询可以是一幅草图:草图的上半部分是桔红色的区域,下半部分是蓝绿色的区域而WebSEEK是一个面向WWW的搜索引擎,它不仅支持基于关键字的查找,还支持基于视觉内容的查找4 VisualSEEK和WebSEEKVisu第10章 多媒体信息检索5 MARSMARS5是伊利诺斯大学Urbana-Champaign分校(UIUC)开发的多媒体分析和检索系统(Multimedia Analysis and Retrieval System)的英文缩写。
MARS无论在研究角度还是应用领域都和其他的图像检索系统有很大的差异这主要体现在MARS是一个多学科交叉融合的产物,包括计算机视觉、数据库管理系统以及传统的信息检索技术MARS在科研方面的主要特点包括数据库管理系统DBMS和信息检索技术IR的结合(如何进行分级的精确匹配),索引和检索技术的融合(即检索算法如何发挥底层索引结构的优点),以及计算机和人的融合(相关反馈技术)MARS系统的重点并不在于找到所谓“最好”的图像特征,而在于根据实际的应用环境和用户需要在检索框架中动态地组合调整各种不同的图像特征MARS在图像检索领域正式提出了相关反馈的体系结构相关反馈的技术在各种层次上融合到检索的过程中,包括查询向量的优化、相似度算法的自动选择以及图像特征权重的调整5 MARSMARS5是伊利诺斯大学Urba第10章 多媒体信息检索 10.2 图像特征提取图像特征提取10.2.1 颜色特征颜色特征1 颜色模型颜色模型颜色、形状和纹理是图像中三种最重要的低层视觉特征,相比之下,其中的颜色特征提取方法又较为成熟在基于内容的图像检索中,希望提取出来的特征具有尺度不变性、旋转不变性、平移不变性等优良特性,以使图像在发生了缩放、移动或旋转等变化后,不影响检索的效果,或影响很小。
图像中的颜色具有鲜明的特点,颜色特征提取的方法很多,相对形状特征和纹理特征而言,颜色特征提取方法较为有效和成熟,在基于内容图像检索中颜色特征得到了广泛的应用10.2 图像特征提取10.2.1第10章 多媒体信息检索颜色特征的提取可以选择不同的颜色模型进行,其提取的效果也会截然不同,直接影响检索的效果下面分别介绍几种常用的颜色模型6,针对不同的应用,可选择合适的颜色模型根据颜色模型的用途,常用的颜色模型可分为两类:一类是面向诸如彩色显示器或打印机之类的硬设备的颜色模型,如RGB模型、CMY模型等;另一类是面向视觉感知的颜色模型,这类模型更接近人的视觉感知,适合用来分析图像特征,如HSI模型、HSV模型、Lab模型等,本节重点介绍RGB模型和HSI模型颜色特征的提取可以选择不同的颜色模型进行,其提取的效果也第10章 多媒体信息检索1)RGB模型RGB模型是面向硬设备的最常用的颜色模型,如图10-3所示根据人眼结构,所有颜色都可看做是三个基本颜色红、绿、蓝的不同组合,用(R,G,B)表示,例如:(255,0,0)表示红色,(0,0,0)表示黑色每种颜色分量的值在0,255区间变化将RGB模型建立在笛卡儿坐标系统里,其中3个轴分别为R、G、B,如图10-3所示。
RGB模型的空间是个正方形,从黑到白的灰度值分布在从原点到离原点最远顶点间的连线上,而立方体内其余各点对应不同的颜色,可用从原点到该点的向量表示有时为了计算方便,将立方体归一化为单位立方体,让所有的R、G、B的值都在区间0,1之中1)RGB模型RGB模型是面向硬设备的最常用的颜第10章 多媒体信息检索图10-3 RGB色彩立方体图10-3 RGB色彩立方体第10章 多媒体信息检索面向硬设备的颜色模型与人类的视觉感知有一定距离,很难将一个颜色和一个(R,G,B)向量画上等号,换句话说,看到一种颜色,不太可能知道它对应的RGB分量值,或者反过来,看到一个RGB向量,不可能很快直觉到它的颜色所以,为了分析图像的颜色特征,一般不直接采用RGB模型,而是将它转换成其他与人的视觉感知接近的颜色模型面向硬设备的颜色模型与人类的视觉感知有一定距离,很难将一第10章 多媒体信息检索2)HSI模型HSI模型如图10-4所示,它是面向颜色处理的最常见的模型,其中H表示色调,S表示饱和度,I表示亮度,人区分颜色就常用这三种基本特征量亮度与物体的反射率成正比,一般来说,如果一个图像无色彩,那么就只有亮度这一个分量。
对彩色来说,颜色中渗入白色越多就越明亮,渗入黑色越多亮度就越小色调是与混合光谱中主要光波长相联系的饱和度与一定色调的纯度有关,纯光谱色是完全饱和的,随着白光的加入饱和度逐渐减少色调和饱和度合起来又称为色度,所以颜色可用亮度和色度共同表示2)HSI模型HSI模型如图10-4所示,它是面第10章 多媒体信息检索图10-4 HSI模型的坐标系统6图10-4 HSI模型的坐标系统6第10章 多媒体信息检索从图10-4可见HSI模型的坐标系统接近圆柱坐标系统对其中的任意一个色点P,其H值对应指向该点的向量与R轴的夹角这个点的S值与指向该点的向量长度成正比,越长越饱和在这个模型中,I的值与该点所在平面与最下对应黑色点的距离成正比如果色点在I轴上,则其S值为零而H没有定义,这些点也称奇异点奇异点的存在是HSI模型的一个缺点,而且在奇异点附近,R、G、B值的微小变化会引起H、S、I值的明显变化RGB空间的彩色图像可以方便地转换到HSI空间如果一帧图像的R、G、B分量都已经归一化到了0,1区间,则其对应的HSI模型中的H、S、I分量可由下面的公式计算求得:从图10-4可见HSI模型的坐标系统接近圆柱坐标系统。
第10章 多媒体信息检索(10-1)(10-2)(10-3)由公式直接算出的H值在0,360之间,为使H落在0,1之间,可令H=H/360进行转换当S=0时,H没有意义,此时可定义H为0;另外,当I=0或I=1时,讨论S也没有意义10-1)(10-2)(10-3)由公式直接算出的H值第10章 多媒体信息检索2 颜色特征提取颜色特征提取颜色特征的表达方法有很多,常用的有直方图法、累加直方图法、局部累加直方图法等本节重点介绍这3种方法,并作简要的比较1)颜色直方图颜色直方图是表示图像颜色统计特征的最直观的方法,就是在选定颜色模型的基础上,统计出每种分量在各个颜色级别的像素数占图像像素总数的比例,得到图像各种颜色分量的比例分布,即直方图直方图可以用数学公式表示为(10-4)2 颜色特征提取颜色特征的表达方法有很多,常用第10章 多媒体信息检索式中:k代表颜色特征值的级别;L是颜色特征级别的总数;nk是图像中具有K级别颜色特征值的像素的个数;N是图像像素总数图10-5(a)用三个级别构造了一帧图像,假设这三个级别的颜色的I分量分别为I1、I2和I3,例图中I分量为I1和I2的像素数均占总像素数的25%,I分量为I3的像素数占总像素数的50%,所以得出的I分量直方图如图10-5(b)所示。
上述的颜色直方图也称为统计直方图图10-6是原图及它的缩放图、旋转图和位移图图10-7是原图及其缩放图、旋转图和位移图的RGB分量和灰度直方图,其各分量的直方图是一样的,这是一个非常优美的特性式中:k代表颜色特征值的级别;L是颜色特征级别的总数;第10章 多媒体信息检索图10-5 直方图统计方法示例图10-5 直方图统计方法示例第10章 多媒体信息检索图10-6 原图及其缩放、旋转和位移图图10-6 原图及其缩放、旋转和位移图第10章 多媒体信息检索图10-7 原图及其缩放图、旋转图和位移图的RGB分量和灰度直方图图10-7 原图及其缩放图、旋转图和位移图的RGB分量和灰第10章 多媒体信息检索一般来说,统计直方图具有如下一些优点:(1)缩放不变性图像进行缩放,不引起颜色直方图变化2)旋转不变性图像进行旋转,不引起颜色直方图的变化3)位移不变性图像进行移动,不引起颜色直方图的变化4)双峰特性如果图像中的前景和背景分明,直方图出现明显的双峰特性但是,颜色直方图也有一些缺点,不利于表征图像的内容本质,如:颜色直方图只是对颜色分量级别的像素点进行了统计,完全丢失了空间信息,由此造成两幅不同内容的图像,颜色直方图却可能相同,如图10-8所示。
一般来说,统计直方图具有如下一些优点:(1)缩放第10章 多媒体信息检索图10-8 两幅不同的图像具有相同的颜色直方图图10-8 两幅不同的图像具有相同的颜色直方图第10章 多媒体信息检索对图10-8所示的这种情况,如果单凭颜色直方图来辨识图像,就会跟实际情况发生很大的偏差这时可采用分块计算直方图的方法,稍后介绍分块直方图另外,当图像中的颜色级别不能取遍所有级别时,统计直方图中会出现一些零值这些零值的出现会对计算直方图的相交带来很大影响,从而使得算出的匹配值并不能正确地反映两图间的颜色差别这个问题在一定程度上可通过加大图像特征取值的间隔(即量化间隔),减少特征取值数量来克服但这种简单量化存在一个问题以色调特征为例,对两个相近颜色,量化既可能将它们量化到同一个色调上,也可能将其量化到不同的两个色调上,即量化可能拉近它们的距离也可能拉大它们的距离这种问题多出现在量化间隔的边界附近,由量化本身造成另外一种解决方法是采用累积直方图(或累加直方图),累积直方图能大大减少原统计直方图中出现的零值数量,使两种颜色在特征轴上的距离保持与它们之间的相似度成正比对图10-8所示的这种情况,如果单凭颜色直方图来辨识图像第10章 多媒体信息检索2)累加直方图在选定颜色模型的基础上,统计每种颜色分量的像素数占图像像素总数的比例,并把前面i级颜色分量的比例累加起来,得到一个逐渐递增的直方图,这就是累加直方图,如图10-9所示。
累加直方图用数学公式表示为(10-5)式中:k表示特征的取值;L是特征可取值的个数;nk是图像中具有特征值为K的像素的个数;N是图像像素总数2)累加直方图在选定颜色模型的基础上,统计每种颜第10章 多媒体信息检索图10-9 累加直方图的计算示例图10-9 累加直方图的计算示例第10章 多媒体信息检索图10-9(b)是图10-9(a)的累加直方图,图中横轴表示按照从低到高的颜色分量级别,不难理解,最后那个级别的值为100%累加直方图比起一般直方图有它的优越性,基本解决了前面提到的“零值”问题图10-9(b)是图10-9(a)的累加直方图,图中横轴第10章 多媒体信息检索3)分块直方图为了克服统计直方图丢失空间信息带来的问题,将图像划分为不同的块,对每个块再计算直方图,这种方法叫做分块直方图正如图10-8所示,因为统计直方图丢失了空间信号,两幅完全不同的图像,它们的统计直方图表示可能完全相同为了克服这个问题,有人提出分块直方图的方法7-8利用分块直方图进行检索时,首先把整幅图像进行划分,这样图像就由划分出的小块组成;然后对每小块图像计算统计直方图;最后,计算并累加不同图像对应小块的直方图距离,并据此进行图像的相似匹配,完成图像的检索。
这种方法找回了部分的空间信息,所以,可以部分解决上面提到的问题该算法由于在图像各小块的基础上探讨颜色的比例关系,因而掺入了图像的部分空间信息读者可以想象,假如分块足够小,小到只有一个像素,这时会出现什么情况呢?3)分块直方图为了克服统计直方图丢失空间信息带来第10章 多媒体信息检索使用分块直方图方法,最重要的是如何分块块分得越大,计算量的增加虽然不会太大,但掺入的空间信息会越粗;块分得越小,计算量越大,但掺入的空间信息越多如何分块,需要针对实际应用问题进行权衡Stricker认为图像中最有意义的区域位于图像的中心部分,因而将图像固定分为5块,如图10-10(a)所示MARS检索系统则将图像分为55块还有很多分块的方法,图10-10(b)是一种规则的分块方法,所分块的大小可变使用分块直方图方法,最重要的是如何分块块分得越大,计第10章 多媒体信息检索图10-10 分块方法图例图10-10 分块方法图例第10章 多媒体信息检索分块直方图的计算方法很简单,下面介绍两种计算方法1)首先,将一幅图像P分成MM个小块(M不宜太大),每一块用Pi表示,其中i=1,2,MM然后,分别对每一小块Pi,用前面介绍的一般直方图的方法计算各小块的一般直方图,得到:(10-6)式中:Hi(k)为Pi的颜色统计直方图;k表示颜色级别;L是颜色级别总数;nik是分块Pi中颜色级别为K的像素的个数,Ni是分块Pi的像素总数。
分块直方图的计算方法很简单,下面介绍两种计算方法第10章 多媒体信息检索然后,把每个块的颜色统计直方图结合起来,得到一个L(MM)维向量,它可作为图像P的颜色特征这种方法能够很好地表达图像的空间分布信息,但它的缺点是增大了颜色特征的维数,增大了要储存的信息量,也增大了计算量2)首先,将一幅图P分成MM个小块(M可取较大值),每一块用Pi表示,其中i=1,2,MM然后,分别计算每一小块Pi的颜色分量平均值,可得:(10-7)其中,Di为分块Pi的区域,f(x,y)为像素点(x,y)的颜色值,Ni是分块Pi的像素总数计算所得的MM维向量H(i)便可作为图像P的特征向量然后,把每个块的颜色统计直方图结合起来,得到一个L(M第10章 多媒体信息检索10.2.2 形状特征提取形状特征提取形状是刻画物体的本质特征之一,利用形状来检索图像无疑可提高检索的准确率利用形状进行匹配有3个问题值得注意6:首先,要获得有关目标的形状参数,常要先对图像进行分割、增强,从而得到图像中物体的边界点;其次,目标形状的描述是一个非常复杂的问题,要受到人的主观感受的影响;最后,从不同视角角度获取的图像中目标形状可能会有很大差别,为准确进行匹配,需要解决平移、尺度、旋转不变性的问题。
通常形状表达可分成两类:基于边界的和基于区域的,前者利用的是形状的外边界,而后者则利用整个形状区域10.2.2 形状特征提取形状是刻画物体的本质特征之第10章 多媒体信息检索基于边界的描述主要有:多边形描述、样条曲线拟合和傅里叶描述子等基于区域的特征描述法有区域的面积、圆形度、形状的纵横比(Aspect Ration)、不变矩(Invariant Moment)等不变矩在形状特征表达中具有重要的作用,本节重点介绍Hu9的不变矩Hu在1962年首先基于代数不变量引入矩不变量,通过对几何矩的非线性组合,导出了一组对于图像平移、旋转、尺度变化的不变矩,可用于图像的检索下面主要介绍Hu不变矩的计算9:定义定义10-1 大小为MN的二维图像,f(i,j),i=0,1,2,M;j=0,1,2,N,其p+q阶矩定义如下式所示:(10-8)基于边界的描述主要有:多边形描述、样条曲线拟合和傅里叶描第10章 多媒体信息检索其中,p和q可取所有的非负整数值特殊地,当p=0,q=0时,其零阶矩为(10-9)对于二值图像,令其背景值为0,形状区域内值为1,则零阶矩表示该形状区域的面积定义定义10-2 图像的p+q阶中心矩:为了保证形状特征的位置不变性,还必须计算中心矩,即以物体的质心为原点计算图像的不变矩值,p+q阶中心矩定义如下:(10-10)式中,(,)是图像的质心,其定义如下:其中,p和q可取所有的非负整数值。
特殊地,当p=0,q=第10章 多媒体信息检索(10-11)再利用下式对中心矩进行归一化处理,得到归一化的中心矩pq:(10-12)Hu将中心矩进行不同的组合,得到7个具有平移、旋转和尺度不变性的矩:(10-11)再利用下式对中心矩进行归一化处理,得到归一第10章 多媒体信息检索(10-12)(10-12)第10章 多媒体信息检索为了加深读者对Hu矩的理解,特构造了如图10-11的原图、缩放图、平移图及旋转图,分别计算它们的7个Hu矩利用本节的定义,计算上述各图的7个不变矩,得到结果如表10-1所示为了加深读者对Hu矩的理解,特构造了如图10-11的原图第10章 多媒体信息检索图10-11 原图及其平移图、缩小图、放大图和旋转图图10-11 原图及其平移图、缩小图、放大图和旋转图第10章 多媒体信息检索第10章-多媒体信息检索ppt课件第10章 多媒体信息检索从表中数据清晰地看到,这7个矩具有平移、尺度和旋转不变的优美特性利用这些不变矩可以检索到即使经过了平移、旋转、缩放的相似图像从表中数据清晰地看到,这7个矩具有平移、尺度和旋转不变的第10章 多媒体信息检索10.2.3 纹理特征提取纹理特征提取目前,图像的纹理尚无统一明确的定义,不同的学者对纹理有不同的理解,但涵义基本相同。
Hawkins 10认为纹理标志具有三个要素:局部的空间变化次序在更大的区域内不断重复;次序是由基本元素非随机排列而组成;纹理区域内任何地方都有大致相同的结构尺寸Duda11认为纹理可以看成是表示灰度空间分布的属性Haralick12则认为纹理是由大量或多或少相似的纹理元(texton)或模式组成的一种结构,即组成纹理的基元及它们之间的相互关系,这二者构成了纹理的两个基本特征徐建华13则把纹理理解为图像灰度在空间上的变化和重复,或图像中反复出现的局部模式(纹理单元)和它们的排列规则图10-12是选自Brodatz纹理图像库中的具有典型纹理特征的一些纹理图像10.2.3 纹理特征提取目前,图像的纹理尚无统一明第10章 多媒体信息检索图10-12 Brodatz纹理图像图10-12 Brodatz纹理图像第10章 多媒体信息检索如何识别出图像中的纹理,方法有很多,可分为两大类:结构方法和统计方法结构方法主要描述纹理单元及其周期性排列的空间几何特征和排列规则,如形态学、图论、拓扑等方法;将复杂的纹理图像通过特征提取和分割,得到局部基元和它们的属性及其相互关系,对纹理基元及其排列规则进行描述、分析和解释。
统计方法是以人的直观感觉为基础的,它根据像素灰度的统计特征确定纹理特征,如直方图统计特征法、自相关函数法等相比之下,纹理的统计分析方法占主导地位,纹理的统计分析方法可进一步分为传统的统计方法、基于模型的统计方法、基于频谱分析的方法纹理识别的关键是纹理特征的表示方法下面就介绍两种常用的纹理特征描述方法如何识别出图像中的纹理,方法有很多,可分为两大类:结构方第10章 多媒体信息检索1 Tamura纹理特征纹理特征从图10-12这些典型的纹理图像中可以发现,图像中的纹理是像素值在空间分布上呈现一定的规律,使感官上的纹理呈现出一定的方向性、粗细、线像性、对比性等Tamura在人类视觉心理学的基础上,提出了一种数学方法来描述纹理的这些特征14,包括:粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、线像度(line likeness)、规整度(regularity)和粗略度(roughness)其中,前三个分量对于图像检索来说尤其重要,下面简要介绍这些纹理特征参数的定义粗糙度:一幅大小为MN的二维图像,f(i,j),i=0,1,2,M;j=0,1,2,N,粗糙度定义为如下计算公式:1 Tamura纹理特征从图10-12这些典型第10章 多媒体信息检索式中,Sbest(i,j)=2k,而每个像素点k值的计算可以通过使式(10-14)中的E值最大获得:(10-13)(10-14)而平均像素强度Ak(i,j)由式(10-15)求得:(10-15)式中,Sbest(i,j)=2k,而每个像素点k值的计第10章 多媒体信息检索上述的粗糙度计算结果是一个数,对于一幅大而复杂的图像,这种定义未免粗糙,所以,有人也使用直方图方式来描述Sbest的分布,这种改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域,因此对图像检索更为有利。
对比度:对比度定义为公式(10-16):(10-16)其中,A是图像灰度的四阶中心矩,是图像的标准方差对比度值从某个角度反映了整幅图像的全局灰度分布状况方向度:方向度的计算需要首先计算每个像素处的梯度向量该向量的模和方向分别定义为(10-17)上述的粗糙度计算结果是一个数,对于一幅大而复杂的图像,这第10章 多媒体信息检索其中H和V分别是通过图像卷积图10-13所示的两个33操作符所得的水平和垂直方向上的变化量图10-13 梯度计算的卷积算子(10-18)其中H和V分别是通过图像卷积图10-13所示的两个3第10章 多媒体信息检索在图像阵列上移动卷积算子,即可得到每个像素点的梯度向量在此基础上,定义方向直方图HD(k)如下:(10-19)式中:N(k)表示满足的像素点个数,t是梯度阈值如果一幅图像的纹理具有明显的方向性,在方向直方图上就会表现出局部峰值;反之,如果是没有明显方向性的图像,其方向直方图则无明显的峰值表现为了更定量地表达图像总体的方向性,Tamura还通过采用统计每个峰值二阶矩的方法来定义,具体如下所示:在图像阵列上移动卷积算子,即可得到每个像素点的梯度向量第10章 多媒体信息检索式中:p代表方向直方图中的某个峰值;np为方向直方图中所有的峰值个数;p代表该峰值p所对应的谷范围;而fp是峰值p对应的位置;r是影响离散化水平的一个规范化因子。
线像度:如果一幅图像的纹理是由一些线条组成的,那么该图像的线像度很高,为此首先构造一个大小为MM的方向共生矩阵PDd矩阵的元素PDd(i,j)是两个距离相隔为d的像素之间的相关性,其中一个像素的方向值为i,另外一个像素的方向值为j,这里的方向值可以用上述的梯度方向来表示则纹理的线像度定义为(10-20)式中:p代表方向直方图中的某个峰值;np为方向直方图中所第10章 多媒体信息检索规整度:纹理的规整度定义为Fcrs、Fcon、Fdir、Fltn的标准方差和,计算公式如下:(10-21)(10-22)粗略度:根据心理学实验,该参数计算方法如下:(10-23)上述公式给出了Tamura纹理特征的计算方法该方法的优点是从视觉的心理学角度出发提出了纹理表示方法,各个性质都具有直观的视觉意义,所以,在QBIC和MARS系统中都包含了这一特征规整度:纹理的规整度定义为Fcrs、Fcon、Fd第10章 多媒体信息检索2 基于灰度共生矩阵的纹理特征基于灰度共生矩阵的纹理特征20世纪70年代,Haralick等提出了著名的灰度共生矩阵纹理特征表示方法,主要的依据是他们认为纹理是通过灰度的空间相关性展现出来的,所以,该方法首先根据图像像素之间的关系,构造一个灰度共生矩阵(gray tone cooccurrence matrix),再从中提出有意义的统计数据作为纹理特征的表示。
灰度共生矩阵以统计成对灰度值出现的概率为基础设M是某幅图像的灰度共生矩阵,则每个矩阵元素表示方向上相隔d像素远的一对像素分别具有灰度级i和j的出现概率,可用式(10-24)计算:(10-24)2 基于灰度共生矩阵的纹理特征20世纪70年代,第10章 多媒体信息检索式中,N(d,)表示处于位置关系(d,)的像素对的个数,N(i,j|d,)表示处于位置关系(d,)的像素对中,一对像素分别具有的灰度级i和j的像素对个数相应的矩阵可记为M(d,)请注意,方向可以有0、45、90、135等,如图10-14所示图10-14 灰度级分别为i和j,相距d=1的一对像素点的示意式中,N(d,)表示处于位置关系(d,)的像素对的个数第10章 多媒体信息检索一般来说,图像的灰度有256级,灰度共生矩阵的构建需要消耗很大的计算量和存储量,为了减少计算和存储开销,往往采取降低灰度级数的方法下面举例说明如何构造灰度共生矩阵例【例10-1】设有一帧44大小的图像,灰度级别是0、1、2和3共4个级别,图像点阵的灰度分布如下所示,试构建灰度共生矩阵M(1,0)一般来说,图像的灰度有256级,灰度共生矩阵的构建需要消第10章 多媒体信息检索解解:根据题意,d=1,=0,灰度级别的组合(i,j)可以有(0,0)、(0,1)、(0,2)、(0,3)、(1,0)、(1,1)、(1,2)、(1,3)、(2,0)、(2,1)、(2,2)、(2,3)、(3,0)、(3,1)(3,2)(3,3)等几种情况,则有:N(0,0|1,0)=#(1,1),(1,2),(1,2),(1,1),(2,1),(2,2),(2,2),(2,1)=4N(0,1|1,0)=#(1,2),(1,3),(2,2),(2,3)=2N(0,2|1,0)=#(3,1),(3,2)=1N(0,3|1,0)=#=0N(1,0|1,0)=#(1,2),(1,3),(2,2),(2,3)=2N(1,1|1,0)=#(1,3),(1,4),(1,4),(1,3),(2,3),(2,4),(2,4),(2,3)=4N(1,2|1,0)=#=0N(1,3|1,0)=#=0解:根据题意,d=1,=0,灰度级别的组合(i,j第10章 多媒体信息检索N(2,0|1,0)=#(3,2),(3,1)=1N(2,1|1,0)=#=0N(2,2|1,0)=#(3,2),(3,3),(3,3),(3,2),(3,3),(3,4),(3,4),(3,3),(4,1),(4,2),(4,2),(4,1)=6N(2,3|1,0)=#(4,2),(4,3)=1N(3,0|1,0)=#=0N(3,1|1,0)=#=0N(3,2|1,0)=#(4,3),(4,2)=1N(3,3|1,0)=#(4,3),(4,4),(4,4),(4,3)=1而N(d,)=24,用N(d,)去除上述各项,得到共生矩阵的各个元素P,比如:P(0,0|1,0)=4/24,其他各项略,最后得到灰度共生矩阵M(1,0)如下:N(2,0|1,0)=#(3,2),(3,1)第10章 多媒体信息检索从上面的求解过程可以清晰地看到,=0的灰度共生矩阵反映了水平方向的成对灰度分布状况,一定程度上表征了图像的纹理特征。
读者可以试着计算M(1,45)、M(1,90)等由于灰度共生矩阵体现了图像的纹理特征,从该矩阵得到的一些统计参数可以定量地描述这些纹理特征,常用的参数有灰度共生矩阵熵、惯性矩、能量、对比度、均匀性等,它们可分别使用下面的公式来计算从上面的求解过程可以清晰地看到,=0的灰度第10章 多媒体信息检索熵:(10-25)能量(二阶矩):(10-26)对比度(惯性矩):(10-27)均匀度(局部平稳):(10-28)熵:(10-25)能量(二阶矩):(10-26)对比度(第10章 多媒体信息检索熵表示图像中纹理的非均匀程度或复杂程度,纹理越均匀,熵越大;纹理越复杂,熵越小能量是对图像灰度均匀性的测量熵表示图像中纹理的非均匀程度或复杂程度,纹理越均匀,熵越第10章 多媒体信息检索10.3 图像相似量度图像相似量度 上一节介绍的颜色、形状和纹理等低级视觉特征的提取,是基于内容的图像检索的基础和关键,它可以将图像的内容用数学的方法进行定量的表示,接下来就是如何比较待检索的图像和数据库中的图像,看它们是否相似,是否可以作为检索结果输出给用户相似性度量方法的好坏影响到图像检索的性能;而相似性度量的计算复杂性影响到图像检索的用户响应时间。
所以,选择一种恰当的相似量度计算方法,可以提高图像检索的性能相似度量实际上可以使用两个向量间的距离来量度,两个向量间的距离越大,相似度越小反之,两个向量间的距离越小,相似度越大10.3 图像相似量度 上一节介绍的颜色第10章 多媒体信息检索下面介绍几种常见的距离量度15首先定义D(e,d)为示例图像e和图像数据库中图像d之间的距离量度,Hd(k)和He(k)分别为图像d、e的特征量(一般是向量)下面介绍几种常见的距离量度15首先定义D(e,d第10章 多媒体信息检索1 Minkowski量度量度Minkowski距离可以定义为(10-29)如果图像特征的每维元素都同等重要,那么可以使用Minkowski距离来表示两幅图像之间的距离,距离越大,相似度越小可以使用距离的倒数来表征相似度上面的定义中,p=1,2,3,对应的D(e,d)分别被称为L1,L2,L3距离当p=2时,此时的Minkowski距离称为欧式距离当p=1时,Minkowski距离变成如下的形式(L1距离):(10-30)1 Minkowski量度Minkowski距离第10章 多媒体信息检索直方图相交法可以认为是L1距离的一种特殊形式,图像e和图像d的直方图之间的相交距离(也叫city-block距离)定义为(10-31)直方图相交法可以认为是L1距离的一种特殊形式,图像e和图第10章 多媒体信息检索2 Quadratic量度量度 Minkowski量度对所有的特征向量平均对待,而没有考虑特征向量之间的关系。
然而在实际情况下,各个特征向量之间是有关联的,为了解决这个问题,可以采用以下Quadratic量度:(10-32)这里A=Aij为一个对称矩阵,表示特征向量之间的相关性,元素Aij表示特征i和特征j之间的相似程度相对于欧氏距离,Ouadratic量度考虑到各特征向量之间的相关性,检索结果更加符合人的视觉感观,只是要计算出特征间的相关性是一件费时耗力的工作2 Quadratic量度 Minkowski量第10章 多媒体信息检索3 Mahalanobis量度量度当特征向量之间具有相关性,而且各个特征向量对图像内容展现的贡献大小不同时,一般可以采用Mahalanobis量度Mahalanobis量度定义为(10-33)式中,C表示特征向量协方差矩阵可以作如下的定义来表示两个图像向量之间的相似程度:(10-34)式中,di表示图像库中第i个图像当样例图e和待比较图d完全相似时,S(e,d)=1当样例图e和待比较图d完全不相似时,S(e,d)=03 Mahalanobis量度当特征向量之间具第10章 多媒体信息检索10.4 基于内容的视频信息检索基于内容的视频信息检索多媒体信息检索中,视频信息检索是一个不可分割的分支,广泛应用于电视台、传媒、教学、安防等多种行业。
要完成视频信息检索,首先要了解视频信息的特点视频信息可以看成由一系列连续的视频帧构成,在一个镜头下拍摄下来的连续视频帧构成一个镜头,镜头内的视频帧内容变化不大,所以可以用关键帧来描述镜头;表达某个特定独立故事或语义的镜头构成场景,即场景是由一些语义相关的镜头组成,值得注意的是构成场景的镜头不一定在时间上连续图10-15是一个视频帧、镜头和场景的示意图10.4 基于内容的视频信息检索多媒体信息检索第10章 多媒体信息检索图10-15 数字视频序列结构图10-15 数字视频序列结构第10章 多媒体信息检索视频帧是组成一段视频最基本的单元一系列的视频帧组成人眼所看见的连续的视频为了方便地检索视频,一般先将视频进行镜头分割(镜头边界检测)、关键帧提取;得到关键帧以后,就可以按照图像检索的方法来检索视频了所以视频检索的关键是进行镜头分割和关键帧提取视频序列被分割为镜头,并提取出关键帧及其特征作为镜头的描述后,就可以建立基于关键帧的视频检索框架了用户可以根据需要,给出一幅类似的图像、手绘的图像轮廓、大致的对象形状等根据用户的例子,系统计算得到相应的特征,然后跟存储下来的视频关键帧相应的特征进行匹配,最后将关联的视频序列或其指针按相似度大小排序输出给用户。
视频帧是组成一段视频最基本的单元一系列的视频帧组成人第10章 多媒体信息检索10.4.1 镜头分割镜头分割镜头是视频数据的基本单元,大部分视频是通过编辑一个个镜头连接而成,所以首先要把视频自动地分割成一个个的镜头,作为基本的索引单元,这个过程就称为镜头分割,或镜头边界检测(Shot Boundary Detection)它是实现基于内容的视频检索的第一步,直接影响到视频检索的效果,镜头边界的检测算法按处理对象可分为16:非压缩域镜头边界检测算法和压缩域镜头边界检测算法非压缩域(像素域)镜头边界检测算法是针对未经压缩的数字视频的,它可以利用视频帧的像素域信息,提取其特征向量,然后比较在连续的时间段内,相邻两帧视频图像的特征向量在某个时刻是否发生了质的变化(比如差值是否超过了设定的阈值),如果是,就认为在该时刻发生了镜头的切换,标记为镜头的边界10.4.1 镜头分割镜头是视频数据的基本单元,大部第10章 多媒体信息检索 压缩域镜头边界检测算法主要是针对MPEG压缩视频的由于越来越多的视频数据以MPEG压缩形式进行捕捉、传输和存储,因而有必要对MPEG压缩视频进行研究近年来开始出现的直接对压缩视频进行镜头检测的算法,主要有以下两类:一类以日本的Yasuyaki17和美国普林斯顿的Yeo18为代表,他们都是利用I帧的DC序列,考察前后两个I帧DC图的色度相似性,在镜头转换时,色度变化一般较大。
这类方法的缺点是检测精度不高,因为镜头转换可能发生在两个I帧之间,另外没有利用运动信息,难以区分镜头运动和渐变压缩域镜头边界检测算法主要是针对MPEG压缩视频的第10章 多媒体信息检索另一类方法以Zhang19为代表,利用B帧和P帧的运动向量,在镜头转换时,B帧和P帧中采用预测编码的宏块数较少,这类方法虽然比较简单,但是I帧中没有运动向量,且MPEG中运动估计采用了块匹配方法,运动向量不一定表示真实的运动,因而检测精度不高按出发点的不同,镜头边界检测算法可分为:基于帧间差的方法和基于模型的方法;基于帧间差的方法因其简单有效,使用较为广泛,下面就介绍这种方法另一类方法以Zhang19为代表,利用B帧和P帧的运第10章 多媒体信息检索在发生镜头转换时视频数据将发生一系列的变化,这种变化表现在颜色差异突然增大、对象形状的改变和运动的不连续性等各方面一般而言,同一个镜头内的各帧之间差异较小,不同镜头的帧间差异较大基于帧间差的方法就是利用某种特征,对视频帧进行比较,当帧间差大于某个阈值时就认为是镜头的边界基于帧间差的方法必须选择合适的阈值,同时镜头渐变时帧间差增大不够明显,而镜头内的运动也会引起帧间差的增大,可能造成镜头的误判。
在发生镜头转换时视频数据将发生一系列的变化,这种变化表现第10章 多媒体信息检索按计算帧间差使用特征向量的不同,镜头边界检测算法又可分为:基于像素或块的方法、基于直方图的方法、基于边缘特征的方法、基于运动向量的方法和基于DCT系数的方法等这些方法各有优缺点,基于像素或块的方法由Nagasaka和Tanaka提出,它计算前后两帧对应像素(或块)亮度差或颜色差的绝对值之和它的一种改进是计算亮度差或颜色差的绝对值超过某一阈值的像素总数这类方法的缺点是对噪声和运动比较敏感,因为它严格地局限于像素的位置,噪声和物体运动都会使帧间差增大,从而导致错误的镜头边界检测按计算帧间差使用特征向量的不同,镜头边界检测算法又可分为第10章 多媒体信息检索10.4.2 关键帧提取关键帧提取关键帧是指在一个镜头内存在的一帧或者若干视频帧,能够表达该镜头的主要内容提取关键帧之后,就可以用很小的数据量把一个镜头的特性表示出来,从而达到压缩庞大检索容量的目的视频关键帧的提取算法一般分为静态关键帧提取和动态关键帧提取两种类型静态关键帧提取是以镜头为单位来提取的静态关键帧提取一般只适合于静止的镜头动态关键帧提取则是根据镜头内视频帧之间的变化程度来动态地将镜头分割成分镜头,进而对每个分镜头提取关键帧。
根据关键帧提取机理的不同,关键帧提取算法又可分为特定关键帧法20、帧平均法21和基于边缘信息特征的方法等10.4.2 关键帧提取关键帧是指在一个镜头内存在的第10章 多媒体信息检索1 特定帧提取法特定帧提取法特定帧提取算法就是在一个镜头或分镜头内选定特定位置的视频帧作为关键帧它分为静态特定帧法和动态特定帧法两种类型静态特定帧法是在已经分好的镜头内选取特定位置的视频帧作为关键帧,比如可以选取镜头或者分镜头的首帧、中间帧、尾帧来作为该镜头或者分镜头的关键帧静态特定帧算法简单,计算量非常小,但是它往往不能够正确地放映镜头内视频内容的变化,不适用于在运动变化较多的视频内提取关键帧1 特定帧提取法特定帧提取算法就是在一个镜头或分第10章 多媒体信息检索动态特定帧法则首先根据镜头内视频内容的变化情况,用帧间差比较的方法来划分镜头,对每个被划分出来的分镜头选取特定位置的视频帧作为该分镜头的关键帧动态特定帧法通常用镜头或者分镜头的第一帧作为关键帧,然后将后续的视频帧与其比较,当发现当前帧和关键帧的帧间差大于某个阈值时,则认为镜头内发生了较大的变化或者运动较为激烈,将当前帧设定为关键帧,后续的视频帧序列继续与其作比较来提取关键帧。
因此,动态特定帧法可以看成是将一个镜头划分为多个分镜头,提取每个分镜头的首帧作为关键帧其流程图如图10-16所示动态特定帧法则首先根据镜头内视频内容的变化情况,用帧间差第10章 多媒体信息检索图10-16 动态特定关键帧提取算法流程图图10-16 动态特定关键帧提取算法流程图第10章 多媒体信息检索特定帧算法的特点是计算简单,计算量小,获得的关键帧数目最少,特别适合于内容活动性很小或者基本不变的镜头,但该方法对于提取的关键帧往往并不是最好的代表帧,其视频检索的性能可能较差特定帧算法的特点是计算简单,计算量小,获得的关键帧数目最第10章 多媒体信息检索2 帧平均法帧平均法帧平均法选取镜头中特性与镜头内所有视频帧的平均特性最为接近的视频帧作为该镜头的关键帧一般存在两种计算视频段帧平均的方法:像素帧平均计算法和直方图帧平均计算方法像素帧平均方法计算视频段中所有视频帧在每一个像素点位置的平均值作为视频段在该点的平均值,直方图帧平均法则是计算视频段中所有视频帧的直方图的平均值作为帧平均值一般采用直方图帧平均方法来计算视频段的帧平均,直方图帧平均法的优点是能够抑止视频运动对帧平均计算和关键帧提取的影响,并且计算量相对较小。
2 帧平均法帧平均法选取镜头中特性与镜头内所有视第10章 多媒体信息检索对于视频关键帧提取的帧平均法,也分为静态帧平均法和动态帧平均法两种类型静态帧平均法对于已经划分好的镜头,选取其中直方图与镜头内所有视频帧的直方图的平均值最接近的视频帧作为关键帧静态帧平均法计算简单,计算量小,所计算出的关键帧比静态特定帧法所提取的关键帧更具代表性,但也如静态特征帧法一样不能很好地反映镜头的内容,其检索性能较差动态帧平均法对用帧间差比较计算得到的分镜头,选取其中直方图与分镜头的所有视频帧的直方图的平均值最接近的视频帧作为关键帧动态帧平均法既用帧间差比较的方法来动态地划分提取关键帧的分镜头,又用帧平均方法来选取视频内容具有代表性的视频帧,这种方法虽然增加了一定的计算量,但是可获得较好的检索性能对于视频关键帧提取的帧平均法,也分为静态帧平均法和动态帧第10章 多媒体信息检索10.5 基于内容的音频信息检索基于内容的音频信息检索音频信息是除视频信息以外最重要的信息,约占多媒体信息构成的20%,目前音频信息检索多集中在音乐文件的检索,如百度的MP3检索这样的音频检索主要依赖于基于关键词的检索技术,检索时查找跟用户输入的关键词相匹配的音频文件名或某种特定格式的音频文件的内容描述信息。
这样的检索还远不能满足用户的需求,主要原因在于:音频文件名不一定能够反映音频本身的内容,比如有个音频文件名为20061102,这样的文件名对描述音频内容没有任何意义;音频文。












