
模糊k均值分类器.pptx
32页毕业论 文•论文题目 模糊k均值分类器•指导老师•论文完成人论文结构设计• 前言 • 1 模糊集合理论 • 2 模糊聚类分析方法 • 3 模糊k均值分类器的算法实现 • 4 模糊k均值分类器运用实例 • 5 结论、致谢词、参考文献• 对于一个普通的集合 ,空间中任一元素 ,要 么 要么 ,二者必居其一如果利用特 征函数法来描述元素属于集合的程度,则对于 集合 ,其特征函数 可以标记为:• 从上式可以看出,对于任意给定的 都有 唯一确定的特征函数 与之对应,因此可 以将集合 表示为:• 其中 是从 到 的一个映射,它唯一确 定了集合 1.1 经典集合与特征函数 由此可见,经典集合A 与其特征函数 u A 是 一一对应的. 由于uA 只取0和1两个值,故经典集合A 只能用来描述界限分明的研究对象,对界限不 分明的对象却无能为力比如,对“年轻”这个 模糊概念,用经典集合就无法给出合理的描 述而在自然界和现实生活中,模糊现象是普 遍存在的因此,必须把经典集合扩充,使之 能够刻划模糊现象和解决模糊性问题1.2模糊集合的定义L.A.Zadeh 教授于1965年提出了模糊集合概念,具 体定义如下:定义1.2.1模糊集合:论域 上 X 的模糊集合 由 隶属度 来表征,其中 在实轴的闭区间[0,1]上取 值, 的值反应了 中的 元素 对于 的隶属 程度。
X [ 0,1 ], 所确定的集合 为 X 上的模糊集合,而称 为模 糊集合 的隶属函数,μA ( u )称为元素 u 对于 的隶属 度1图1.1隶属度函数•由此可见, 模糊集合 是一个抽象的概念, 其元素是不确定的, 我们只能通过隶属函数 来认识和掌握 . (u)的数值的大小反映了 论域X 中的元素 u 对于模糊集合 的隶属程 度, (u)的值越接近于1 ,表示u隶属于 的 程度越高;而μ (u)的值越接近于0,表示u隶 属于 的程度越低.特别地, •若 (u) =1,则认为u完全属于 ; •若 (u) =0,则认为u完全不属于 .因此, 经典集合可看作是特殊的模糊集合.换言之,模糊集合是经典集合的推广• 1.3 模糊集合的表示方法 • 1 扎德表示法 例1.3.1:设U ={u1 , u2 , u3 , u4 , u5 },则表示论域U 上 u1 对于A 的隶属度为0.87 , u2 对于A 的隶属度为0.75 , u3 对于A 的隶属度为 0.96 , u4 对于A 的隶属度为0.78 , u5 对于A 的隶属度为0.56 的模糊集合 2. 向量表示法当论域U ={u1 , u2 , … , un }时, A F ( U ) 也可用如下向量来表示:A=(A(u1 ) ,A(u2), …,A( un)) (1 )例如,例1.2.1中的模糊集合A也可表示为A=(0.87 ,0.75, 0.96,0.78,0.56)由于A( ui ) [0,1](i=1,2,…,n ),故称式 (1)所示的向量为模糊向量。
1.4 模糊关系与模糊矩阵 1.4.1 普通关系与Boole矩阵 例如 设U表示某校全体学生的集合,R={(u, v)| v是u的同学}.则R表示U上的“同学”关系 定1.4.2 设U={u1,u2, …, um}, V={v1,v2, …, vn}, R∈P(U×V), 令rij=R (ui, vj)(i=1,2,…,m ; j=1,2,…,n), 则R=(rij)m×n 为一个m×n 矩阵, 由于故R=(rij)m×n是一个布尔矩阵 .这说明:有限论域间的普通关系可由Boole矩阵来表示.1.4.2 模糊关系与模糊矩阵定义1.3.3 设U, V 为两个论域, 若R∈F(U×V)则 称R为U到V的一个模糊关系. 对(u, v)∈U×V , 称 R(u, v)为u对v具有模糊关系R的相关程度.特别地(1) 称R∈F(U×U) 为U上的模糊关系;(2) 若(u, v)∈U×U,有 则称R为U上的恒等关系 , 这时记R = I ;(3) 若(u, v)∈U×V, 有R(u, v)=0,则称 R为U到 V的零关系 ,这时记R = 0 ;(4) 若(u, v)∈U×V,有R(u, v)=1, 则称R为全称 关系 ,这时记R = E .由定义可见, R(u, v)反映了u对于v的相关程度,若R(u, v) 越接近于1,则u与v对R的关系越密切;若R(u, v)越接近于 0,则u与v对R的关系越稀疏.特别地,当R(u, v) ∈{0,1}时, 与u与v对R具有明确关系.因此,模糊关系是普通关系的 推广,它能从更深刻的意义上表现出事物的更广泛的联 系. 定义3.1.4 设U={u1,u2, …, um}, V={v1,v2, …, vn}, R∈F(U×V), 则可以用一个m×n阶矩阵来表示,即R=(rij)m×n ,其中 rij=R (ui, vj)(i=1,2,…,m ; j=1,2,…,n),由于R (ui, vj) ∈[0,1],故称R=(rij)m×n为模糊矩阵 .由于{0,1} [0,1], 故模糊矩阵是Boole矩阵的推广.例1.4.1设U={u1,u2, u3, u4} 为生产资料商品集, V ={v1,v2}为两种消费品的集合, W={w1,w2, w3}为三个市场的细分,以R表示U到V的原料供 应关系,以Q表示V到W的市场占有关系。
模糊 关系矩阵表示如下:主要内主要内 容容3.1 算法简介 3.2 算法原理 3.3 算法实例 3.4 分类器算法步骤 3.5 流程图3 模糊k均值分类器的实现2模糊聚类分析方法• 1 分类数不定(根据不同要求对事物进行动 态聚类) • 2 分类数确定(主要是基于目标函数的聚类 如模糊k均值聚类分析) • 3 在摄动有意义的情况下的聚类3.1算法简介• k-means算法,也被称为k-平均或k-均值, 是一种得到最广泛使用的聚类算法 它是 将各个聚类子集内的所有数据样本的均值 作为该聚类的代表点,算法的主要思想是 通过迭代过程把数据集划分为不同的类别 ,使得评价聚类性能的准则函数达到最优 ,从而使生成的每个聚类内紧凑,类间独 立• 3.2 算法原理 • 聚类:将物理或抽象对象的集合分组成为由类似的对象 组成的多各类的过程被称为聚类所形成的类是一组数 据对象的集合,这些对象与同一个类中的对象彼此相似 ,与其他类中的对象相异 • 对于数据聚类的效果,可以使用类内距离来描述在空 间中,定义两个对象的距离,使用欧式空间的距离公式设x1 ,x2 是两个样本数据,分别有n 个属性 • 则其空间距离定义为 :• 类内总距离定义为:其中K表示的是分类数, 表示类别点, 表示第 i类的中心 ,表示属于第 i类的第几个点。
•Step1:为中心向量 , ,…, 初始化k 个种子 •Step2: 分类:将样本分配给距离其最近的中心向量 表示各聚类中心点(类距离平均值) •Step3:确定中心:用各个聚类的中心向量作为新的中心 •Step4:计算准则函数E :若 的值和前一次分类的 不相等,重复分类和确定中心 的步骤,直至算法收敛• 3.3 算法实例Oxy10220031.50450552数据对象集合S见表1,作为一个聚类分析的二维 样本,要求的类的数量k=2 (1)选择 , 为初始的簇中心即 , (2)对剩余的每个对象,根据其与各个类中心的距 离,将它赋给最近的类对 :显然 ,故将 分 配给Oxy10220031.50450552• 对于 :• 因为 所以 将 分配给 • 对于 :• 因为 所以 将 分配给 • 更新得到新的分类 和 • 计算平方误差准则,单个方差为,总体平均方差是:(3)计算新的类的中心 重复(2)和(3),得到O1分配给C1;O2分配给C2,O3分配给C2 ,O4分配给C2,O5分配给C1。
更新,得到新类和 中心为 , 单个方差分别为 总体平均误差是 : 由上可以看出,第一次迭代后,总体平均误差值52.25~25.65,显 著减小由于在两次迭代中,类中心不变,所以停止迭代过程, 算法停止 Oxy10220031.50450552k-means算法的性能分析n主要优点:u是解决聚类问题的一种经典算法,简单、快速 u对处理大数据集,该算法是相对可伸缩和高效率的 u当结果类是密集的,而类与类之间区别明显时, 它的效果较好n主要缺点u在类的平均值被定义的情况下才能使用,这对于处理符号属性的数据 不适用 u该算法对于连续型数据的分聚类有较好效果,不适用于离散型数据 u必须事先给出k(要生成的类的数目),而且对初值敏感,对于不同的 初始值,可能会导致不同结果• 3.4 分类器算法步骤输入:类的数目 和包含M ×N个数据其中M为样本数目,N为样本 属性(维数)输出:k 个类,使平方误差准则最小 算法步骤: 1.为每个聚类确定一个初始聚类中心,这样就有 k个初始聚类中 心 2.将样本集中的样本按照最小距离原则分配到最邻近聚类3.更新簇的平均值,即类中心,重新计算每个类中对象的平均值 ;4.如果新的平均值发生改变,转至(2)步;5.新的平均值不在发生改变,算法聚类结束,得到k个聚类 。
• 3.5 流程图 • k均值算法流程图开始输入聚类样本的属性(维数),样本 数目,类别(簇)数K对新生成的类重新计算平均值新的平 均值改 变结束聚类NY4实例演示例: 为了检验分类器的效果,我们抽取出宁夏磁窑 堡井田的煤层地址条件进行模糊分类,从而说明模 糊K均值分类器在工业实际上的重要应用选择磁 窑堡井田某煤层的12个煤层段作为分类对象的集合 :• 并且采用如下煤层分类特性指标:煤层厚度用 ; • 煤层倾角 ; • 煤厚标准率 :式中 M为大于可采厚度的钻孔数,n 为煤层内钻孔 个数;• 煤厚离差系数 :离差系数 r是一种离散性参数,它 反映煤层内煤厚偏离平均厚度的大小,即式中 为煤厚的标准差,即这里 为煤层的平均值 , 为煤层内各钻孔的煤厚 , 为煤层内钻孔个数于是对于分类煤层集合 中任一对象 均对应一个 分类特性指标四维向量:分类煤层集合 中各煤层段的特性指标见表4.1:• 表4.1 各煤层的特性指标• 打开分类器输入样本属性(维数)数目、样 本数目、分类数(见图4.1):图(4.1)• 录入样本 • (见图4.2):图(4.2)• 运行得出分类结果(见图4.6):图(4.6)• 从分类结果分成的三类煤层段我们可以得知 ,各煤层段分为如下三类: • 第一类:1,4,5,10,12; • 第二类:3,6,7,8,9,11; • 第三类:2。
致谢词感谢各位老师的听解及指导在这里特 别感谢我的指导老师—刘志伟老师的辛勤指 导!结束结束 再见!再见!2012.5.17。
