
SOM算法研究与应用(论文资料).docx
7页SOM算法研究与应用1引言聚类分析在数据挖掘研究中占有重要的位置,聚类是一个将数据集划分为若干类的过 程,并使得同一个类内的数据对彖具冇较高的相似度而不同类的数据对象Z间的区别较 大聚类分析屈丁一种无教师监督的学习方法,其基本的指导思想是最大程度地实现类中 对象相似度最大类间对彖相似度最小本文介绍了一种基于自组织映射网络的数据聚类方 法该方法分别从其研究背景和算法以及算法的设计与实现进行说明脑科学的研究表明,人类大脑皮层中的细胞群存在着广泛地自组织现彖处于不同区 域的神经元具有不同的功能,它们具冇不同特征的输入信息模式,对不同感官输入模式的 输入信号具有敏感性,从而形成大脑中各种不同的感知路径并且这种神经元所具冇的特 性不是完全来自生物遗传,而是很大程度上依赖于后天的学习和训练而本文所介绍的自 组织特征映射网络(SOM)就是根据这种理论而捉出的R组织映射(Self-OrganizingFeatureMaps, SOM)网络也称为Kohonen网络,该模型是由 芬兰的赫尔辛基大学神经网络专家TeuvoKohonenT1981年捉出,现在已成为应用最为广泛 的自组织神经网络方法TeuvoKohonen认为处丁•空间中不同区威的神经元冇不同的分工, 当一个神经网络接受外界输入模式时,将会分为不同的反应区域,各区威对输入模式具冇 不同的响应特征。
这种网络模拟大脑神经系统自组织特征映射的功能它是一种竞争型神 经网络,采用无监督学习算法进行网络训练,此网络广泛地应用于样本分类、排序和样本 检测等方而2 SOM算法SOM算法是由To Kohonen于1982年捉出来的一种基丁•竞争学习的单层神经网络模 型它在对数据进行矢量量化的同时还能实现对数据的非线性降维映射,该映射具冇拓扑 保持的优良特性,从而使SOM算法成为一种常用的聚类和可视化工具在SOM算法中, 作为数据代表的神经元被固定在一个低维常规网格上,采用邻域学习方式最终可达到神经 元在该网格上的拓扑有序从网络结构上来说,SOM网络最大的特点是神经元被放置在一维、二维或者更高维的 网格节点上如图1就是最普遍的自组织特征映射二维网格模型iN图1二维SOM网格模型SOM网络的一个典型特性就是可以在一维或二维的处理单元阵列上,形成输入信号的 特征拓扑分布,因此SOM网络具有抽取输入信号模式特征的能力SOM网络一般只包含有 一维阵列和二维阵列,但也可以推广到多维处理单元阵列中去下面只讨论应用较多的二 维阵列输入层是一维的神经元,具有N个节点,竞争层的神经元处于二维平面网格节点上, 构成一个二维节点矩阵,共有M个节点。
输入层与竞争层的神经元Z间都通过连接权值进 行连接,竞争层临近的节点Z间也存在着局部的互联SOM网络中具有两种类型的权值, 一种是神经元对外部输入的连接权值,另一种是神经兀Z间的互连权值,它的大小控制着 神经元Z间相互作用的强弱在SOM网络中,竞争层又是输出层SOM网络通过引入网格 形成了自组织特征映射的输出空间,并且在齐个神经兀Z间建立了拓扑连接关系神经元 Z间的联系是由它们在网格上的位置所决定的,这种联系模拟了人脑中的神经元Z间的侧 抑制功能,成为网络实现竞争的基础3算法的设计层次型结构,具有竞争层典型结构:输入层,竞争层如图2所示图2层次型结构SOM网络的主要目的是将任意维数的输入转换为一维或二维的离散映射,并且以拓扑 有序的方式自适应实现这个过程生物学基础实验表明,外界信息对于神经元的刺激并非是单一的,而是以某一细胞为 中心的一个区域;并且刺激强度有强弱之分,大脑神经的刺激趋势和强度呈墨西哥草帽形 状;神经元受刺激的强度以中心最人,随着区域半径的增人逐渐减弱;远离中心的神经元 相反会受到抑制作用根据这个原理,当某类模式输入时,输出层某节点(神经元)得到最 人刺激而获胜,获胜者以及其周围节点的权值会向着输入模式向量的方向进行修正。
随着 输入模式的变化,相应获胜神经元也发生变化,网络即通过自组织的方式在大量样本数据 的训练下,使得输出层特征图能够反映出输入样本数据的分布情况SOM网络采用的学习算法为无监督聚类法,它能将任意模式的输入在输出层映射成为 一维或二维离散图形,并保持其拓扑结构不变学习过程分为三个主要过程,分别是:(1) 竞争:对每个输入模式,网络中的神经元计算它们各自的判别函数的值这个判别函 数对神经元之间的竞争提供基础具有判别函数最大值的特定神经元成为获胜者2) 合作:获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供相邻神经元合作的基础3) 权值调整:兴奋神经元通过对它们突触权值的适当调节以增加关于该输入模式的判别 函数值,从而使得该神经元对以后相似的输入有一个增强的响应4算法的实现4.1分类与输入模式的相似性分类是在类别知识等导师信号的指导下,将待识别的输入模式分配到各自的模式类 中,无导师指导的分类称为聚类,聚类的目的是将相似的模式样本划归一类,而将不相似 的分离开来,实现模式样本的类内相似性和类间分离性由于无导师学习的训练样本中不 含期望输岀,因此对于某一输入模式样本应屈于哪一类并没冇任何先验知识。
对于一组输 入模式,只能根据它们Z间的相似程度来分为若干类,因此,相似性是输入模式的聚类依 据4.2相似性测量神经网络的输入模式向量的相似性测量可用向量之间的距离来衡量常用的方法有欧 氏距离法和余弦法两种1) 欧式距离法设x,x,•为两向量,其间的欧式距离(1)d = ||X -X,|| = J(X-x,)(x-xyd越小,X与X,越接近,两者越相似,当d=0时,X=Xi;以d"(常数)为判据, 可对输入向量模式进行聚类分析:由于山2,〃23,〃3】均小于 T,右5,〃56,〃46 均小于 T,而几•> 八:=4,5,6) , d2i > T(i = 4,5,6), d3i > T(i = 4,5,6),故将输入模式X|,X2,X3,X4,X5,X6分为类1和类2两大类2) 余弦法设X,X,为两向量,其间的夹角余弦(2)X = Xi;同样以(p =(Po为XX Tcos^=mX与Xj越接近,两者越相似;当卩=0时,cose = l,判据可进行聚类分析4.3竞争学习竞争学习规则的生理学基础是神经细胞的侧抑制现象:当一个神经细胞兴奋后,会对 其周围的神经细胞产生抑制作用最强的抑制作用是竞争获胜的“唯我独兴=这种做法称 为“胜者为王"(Winner-Take-All, WTA)。
竞争学习规则就是从神经细胞的侧抑制现象获 得的它的学习步骤为:(1)向量归一化对自组织网络小的当前输入模式向量X、竞争层中齐神经兀对应的内星权向量 旳心=1,2,…冲)全部进行归―•化处理,如图3所示,得到乂和谚厂XiWjWjk图3向量归一化(2)寻找获胜神经元将F与竞争层所有神经兀对应的内星权向量叫0 = 1,2,•••,〃?)进行相似性比较最相似 的神经元获胜,权向量为眄r=> X-Wr =y](X- Wr )(X - Wr )T =^jXXT - 2Wr XT + WfWfT =^2(l-WfXT)^>WfXT =max(WjXT) (4)(3) 网络输岀与权调整按WTA学习法则,获胜神经元输出为T”,其余为0W:[ • _ ・*力(/ + 1)= 7 = \ ⑸[0 j H J只有获胜神经元才有权调整其权向量%•・O其权向量学习调整如下:0 + 1) = wr ⑴ + AWf = Wp (f) + q(F — %•) (46)旳(/ + 1) =硏⑴ “0
为了更好地说明竞争学习算法的聚类分析效果,下面以一具体实例进行计算⑹结论聚类分析在数据挖掘研究中占有重要的位置,在SOM算法中,作为数据代表的神经元被間定在一个低维常规网格上,采用邻域学习方式最终可达到神经元在该网格上的拓扑 有序典型结构包括输入层,竞争层SOM算法聚类的过程,包括分类与输入模式的相似 性,相似性测量方法,竞争学习过程。
