
一种基于语义子空间谱聚类的自动图像标注的方法.doc
5页一种基于语义空间谱聚类的自动图像标注方法一种基于语义空间谱聚类的自动图像标注方法郭玉堂1,2,韩昌刚21.合肥师范学院计算机科学与技术系,合肥 2306012.安徽大学计算机科学与技术学院,合肥 230039 摘摘 要要: : 由于“语义鸿沟”的存在,低层特征相同或相似的图像,其语义有可能完全不同如 何挖掘图像的高层语义与低层特征之间的内在联系是当前图像标注领域研究的难点之一 在详细分析现有的图像标注方法优缺点的基础上,提出了一种基于语义一致性的谱聚类图 像标注方法该方法首先在语义空间内,对训练图像先按语义聚类,使得语义相同或相近的 图像处于同一类中,再对每个语义类按区域特征聚类,把相似区域聚类到同一个块中,然后 运用多伯努利模型求出语义类中每个块与语义间的联合概率分布,利用该联合概率分布模 型为未标注图像进行标注实验结果表明所提出的方法明显提高了标注准确度能有效地建 立图像的低层特征与语义特征间的一致性 关键词关键词: : 图像标注 K-调和均值 图谱聚类 语义鸿沟Automatic Image Annotation Using Semantic Subspace graph spectral clustering AlgorithnGuo Yu-tang1 , Han Chang-gang21.Department of Computer Science and Technology in Hefei Normal College, Hefei 230061,China2.School of Computer Science and Technology in Anhui University, Hefei 230039,Chinaaieyt@Abstract: Due to existing the semantic gap, images with the same or similar low level features are possibly totally different on semantic level. How to find the underlying relationship between the high-level semantic and low level features is one of the difficult problems for image annotation. In this paper, a new image annotation method based on graph spectral clustering with the consistency of semantics is proposed with detailed analysis on the advantages and disadvantages of the existed image annotation methods. This method firstly cluster image into several semantic classes by semantic similarity measurement in the semantic subspace. Within each semantic class, images are re-clustered with visual features of.region Then, the joint probability distribution of blobs and words was modeled by using Multiple-Bernoulli Relevance Model. We can annotate a unannotated image by using the joint distribution. Experimental results show the the effectiveness of the proposed approach in terms of quality of the image annotation, the consistency of high-level semantics and low level features is efficiently achieved.Key Words: image annotation, K-Harmonic Means, graph spectral clustering, semantic gap 1 引言引言自动图像标注指的是指借助计算机视觉、机器学习与模式识别等多学科技术,从一组已标注好的图像集合中学习图像特征与文本标注两种模基 金项 目:安徽省自然科学基金项目(11040606M134)、安徽省高校自然科学基金重点项目(KJ2009A150)态间的相关性,为未标注的图像推理出最为可能的标注或关键字。
一旦图像被成功标注,图像检索问题就可以转化就可以用这样一组关键词来进行,当前技术已相当成熟的文本检索方法就可以用于图像检索[1]中因此,图像语义标注得到了国内外相关领域的研究人员的广泛重视目前,国内外已经有许多学者提出了各种不同的方法,并取得了相当多的成果如共现模型[2]、翻译模型 [3-4]、交叉媒体相关模型 [5]和多伯努利相关模型[6]等聚类分析是机器学习领域中的一个主要分支,是人们认识和探索事物之间内在联系的有效手段近几年来,基于聚类分析的自动图像标标注技术运应而生,并取得了可喜的效果在参考文献[7-8]中,聚类用于一组训练图像的低层特征,利用统计学方法获得低层特征与标注词间的一组映射用获得的映射规则标注图像这些方法都基于一种假设:视觉特征相同或相似的图像,其语义也应相同相似由于语义鸿沟的存在,实际情况并非如此,那些有着相似的视觉特征的图像它们的语义并不相同,甚至相差很远如“天空”与“大海”是不同的语义,但它们的视觉特征却很相似如何挖掘图像的高层语义与低层特征之间的内在联系是当前图像标注领域中研究难点之一本文提出基于语义子空间谱聚类的图像自动标注方法为了建立图像的低层视觉特征与标注文本特征间的相关性,在训练集上分别提取图像的低层视觉特征和语义特征。
在语义子空间内,以图像标注词作为特征向量,利用调和均值谱聚类算法对图像进行聚类,形成若干个语义类用每个类的中心词作为该类的标签,再在图像空间内对每个语义类中的图像分割成区域,提取每分割后的每区域的低层特征,根据区域的低层特征的相似关系,再次利用谱聚类算法把同一语义类中的相似区域聚类到同一个块中,形成若干个块然后运用多伯努利模型求出语义类中每个块与主题词的联合概率分布,通过两次聚类有效地建立图像的低层特征与语义特征间的一致性这样,我们就在图像语义与低层特征之间架建了一座桥梁利用该联合概率分布我们可以为未标注图像进行自动标注2..基于语义子空间谱聚类的图像自动标注基于语义子空间谱聚类的图像自动标注2.1 基于基于 K-调和均值谱聚类调和均值谱聚类如果把一幅图像看作一个文档,图像的标注词看作文档的关键词,那么我们对图像的标注词为特征进行聚类,就采用文本聚类方法对图像进行聚类了目前流行的聚类方法主要有以K-Means为代表的基于划分的方法和谱聚类方法等谱聚类方法是基于图理论,根据数据间的相似性进行聚类,由于与数据点的维数无关,只与数据点的个数有关,因此适用于非测度空间它得到广泛关注[9]但传统的谱聚类算法对初始中心选择的比较敏感,使得其运行结果不稳定,且易于陷入局部极小点。
同时,文本聚类问题本身也有其特殊性,文本向量通常为稀疏向量,含有较多的0,这也为聚类中心的选择带来困难为此,我们通过引入K-调和均值,改善谱聚类算法的性能K-调和均值(K-Harmonic Means,KHM)算法[10]是一种基于中心的聚类算法,该算法通过计算数据点到聚类中心距离的调和平均来构造其性能函数算法表述如下:算法算法1:基于基于 K-调和均值谱聚类算法调和均值谱聚类算法输入:n个数据点,聚类数目k),(21nxxxXL输出:数据点集的类别Step 1: 构造相似矩阵,其中nnRA,) 2||||exp(22ji ijxxa,ij其中是参数. 0iiaStep 2: 构造Laplacian矩阵其2/12/1ADDL中是对角矩阵,D njijiiaD 1Step 3: 计算的前k个最大的特征值所对应的特L征向量,生成矩阵keeeL21, ;kn kReeZ],,[1LStep 4: 将矩阵的行向量转变为单位向量,得到Z矩阵 jijijZZY2/12)/(Step 5: 采用KHM算法,把矩阵的每行聚成k类;Y由于KHM算法用数据点与所有聚类中心的距离的调和平均替代了数据点与聚类中心的最小距离,克服了对初始值敏感的问题。
2.2 基于语义子空间的图像聚类基于语义子空间的图像聚类设是用于标注图像的关键词},...,{21mtttL 词汇表,m是词汇表的大小,设是训练图像集,)},(),...,,(),,{(2211nnwIwIwIT 是图像的一组标注词如果把图像LwiiI看作一个文档,则可视为文档的关键词对iIiw每个图像,我们构造其关键词的矢量TIi如果词汇表中第k个关键},...,,{21imiiixxxX 词,则由此我们ikwt 1ikx0ikx可得到训练图像集中图像的标注词特征向量:(1) T nXXXX...21两特征向量,之间的距离定义为iXjX,利用余弦距离计算的),(jiXXd),(jiXXd值在文本空间内,以图像标注词向量作为特X征,利用K-调和均值谱聚类算法对进行聚类,形成n个语义类用每个类的中),, 2 , 1(niCiL心词作为该类的语义(类标签)},,{21i liiiwwwLL2.3 图像低层特征与语义映射关系图像低层特征与语义映射关系在每个语义类中,我们把图像分割成区域,提取分割后的区域的低层特征(包括形状、空间位置、颜色和纹理等)用特征矢量表示。
采ff用24维矢量表示根据区域的低层特征的相似关系,再次利用K-调和均值谱聚类算法把同一语义类中的相似区域聚类到同一个块(blob)中,形成K个块通过优化块的个数K,使得每), 2 , 1(kibiL块内尽可能集中,块与块间距尽可能远离为了确定最优K值,通过设置不同的K进行多次聚类,对不同的K值,计算各块之间的距离和每个块内距),(intjierXXd)(intiraXd根据Davies-Bouldin指数[11],式(2):(2) ),()()( max1intintint1jierjrairakijiXXdXdXdk取得最小值时的K应为最优的K值,也即:(3) ),()()( max1minargintintint1jierjrairakijikXXdXdXdkk从而,在每个语义类内,我们获得了k个块这些块继承了所在类的语义iL通过两次聚类,训练图像集被分割成若干T 个语义类,每个语义类用可用块),, 2 , 1(niCiL的中心特征和该类的关键词表示: },,{21i liiiwwwLL};,,{21ii kii iLbbbCL(4) },,;,,{2121i liii kiiwwwbbbLL在一个语义类中,块与关键词的ibii jLw 联合概率分布通过下式求得:)()|,(),(iiii jii jCpCbwpbwp(5))()|(),|(iiiii。












