k-means
15页1、K-means聚类算法,k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。 它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。,划分聚类方法对数据集进行聚类时包括如下 三个要点: (1)选定某种距离作为数据样本间的相似性度量 上面讲到,k-means聚类算法不适合处理离散型 属性,对连续型属性比较适合。因此在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧式距离。下面我给大家具体介绍一下欧式距离。,假设给定的数据集 ,X中的样本用d个描述属性A1,A2Ad来表示,并且d个描述属性都是连续型属性。数据样本xi=(xi1,xi2,xid), xj=(xj1,xj2,xjd)其中, xi1,xi2,xid和xj1,xj2,xjd分别是样本xi和xj对应d个描述属性A1,A2,Ad的具体
2、取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj)来表示,距离越小,样本xi和xj越相似,差异度越小;距离越大,样本xi和xj越不相似,差异度越大。 欧式距离公式如下:,(2)选择评价聚类性能的准则函数 k-means聚类算法使用误差平方和准则函数来 评价聚类性能。给定数据集X,其中只包含描述属性,不包含类别属性。假设X包含k个聚类子集X1,X2,XK;各个聚类子集中的样本数量分别为n1,n2,nk;各个聚类子集的均值代表点(也称聚类中心)分别为m1,m2,mk。则误差平方和准则函数公式为:,(3)相似度的计算根据一个簇中对象的平均值 来进行。 (1)将所有对象随机分配到k个非空的簇中。 (2)计算每个簇的平均值,并用该平均值代表相应的簇。 (3)根据每个对象与各个簇中心的距离,分配给最近的簇。 (4)然后转(2),重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。,K-均值聚类示例,输入: 簇的数目k 和包含n 个对象的数据库。 输出: k 个簇, 使平方误差准则最小。 方法:基于簇中对象的平均值。 ( l) 任意选择k 个对象作为初始的簇中心;
《k-means》由会员小**分享,可在线阅读,更多相关《k-means》请在金锄头文库上搜索。
2020年高考真题——理科综合(全国卷Ⅲ)+Word版含答案
2021年绝味鸭脖策划书
2021年熟食店创业方案
2021年熟食店开店策划
2021年卤菜店创业计划书
2021年周黑鸭网络营销策划方案
东大21年1月考试《现代设计方法》考核作业
谈我国行政管理效率的现状及其改观对策(论文)
单证员考试-备考辅导-复习资料:无贸易背景信用证案分析.docx
土木工程毕业生答辩自述.docx
建筑学毕业后工作状态真实写照.doc
C#代码规范(湖南大学).doc
xx区食药监局2019年工作总结及2020年工作计划
2019年中医院药物维持治疗门诊工人先锋号先进事迹
2019年度xx乡镇林长制工作总结
2019年性艾科工作计划书
2019年人才服务局全国扶贫日活动开展情况总结
关于组工信息选题的几点思考
摘了穷帽子 有了新模样
2019年某集团公司基层党支部书记培训班心得体会
2024-01-31 15页
2024-01-31 21页
2024-01-31 37页
2024-01-31 30页
2024-01-31 22页
2024-01-31 48页
2024-01-31 32页
2024-01-31 40页
2024-01-31 31页
2024-01-31 20页