电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

k-means

15页
  • 卖家[上传人]:小**
  • 文档编号:93283153
  • 上传时间:2019-07-19
  • 文档格式:PPT
  • 文档大小:321.50KB
  • / 15 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、K-means聚类算法,k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。 它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。,划分聚类方法对数据集进行聚类时包括如下 三个要点: (1)选定某种距离作为数据样本间的相似性度量 上面讲到,k-means聚类算法不适合处理离散型 属性,对连续型属性比较适合。因此在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧式距离。下面我给大家具体介绍一下欧式距离。,假设给定的数据集 ,X中的样本用d个描述属性A1,A2Ad来表示,并且d个描述属性都是连续型属性。数据样本xi=(xi1,xi2,xid), xj=(xj1,xj2,xjd)其中, xi1,xi2,xid和xj1,xj2,xjd分别是样本xi和xj对应d个描述属性A1,A2,Ad的具体

      2、取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj)来表示,距离越小,样本xi和xj越相似,差异度越小;距离越大,样本xi和xj越不相似,差异度越大。 欧式距离公式如下:,(2)选择评价聚类性能的准则函数 k-means聚类算法使用误差平方和准则函数来 评价聚类性能。给定数据集X,其中只包含描述属性,不包含类别属性。假设X包含k个聚类子集X1,X2,XK;各个聚类子集中的样本数量分别为n1,n2,nk;各个聚类子集的均值代表点(也称聚类中心)分别为m1,m2,mk。则误差平方和准则函数公式为:,(3)相似度的计算根据一个簇中对象的平均值 来进行。 (1)将所有对象随机分配到k个非空的簇中。 (2)计算每个簇的平均值,并用该平均值代表相应的簇。 (3)根据每个对象与各个簇中心的距离,分配给最近的簇。 (4)然后转(2),重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。,K-均值聚类示例,输入: 簇的数目k 和包含n 个对象的数据库。 输出: k 个簇, 使平方误差准则最小。 方法:基于簇中对象的平均值。 ( l) 任意选择k 个对象作为初始的簇中心;

      3、(2 ) r e p e a t , (3 ) 根据簇中对象的平均值, 将每个对象(重新) 赋给最 类似的簇: (4 ) 更新簇的平均值, 即计算每个簇中对象的平均值; (5) u n t i l 不再发生变化。,K-means算法2个核心问题: 1.度量记录之间的相关性的计算公式,此处采用欧式距离。 2.更新簇内质心的方法,此处采用平均值法,即means。,算法 k-means算法 输入:簇的数目k和包含n个对象的数据库。 输出:k个簇,使平方误差准则最小。 (1)assign initial value for means; /*任意分配到k个对象作为簇的平均值*/ (2) REPEAT (3) FOR j=1 to n DO assign each xj to the closest clusters; (4) FOR i=1 to k DO / *更新簇平均值*/ (5) Compute /*计算准则函数E*/ (6) UNTIL E不再明显地发生变化。,数据对象集合S见表1,作为一个聚类分析的二维样本,要求的簇的数量k=2。 (1)选择 , 为初始的簇中心,即 , 。 (2)

      4、对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。 对 :,显然 ,故将 分配给 ;同理,将 分配给 , 分配给 。 更新,得到新簇 和 计算平方误差准则,单个方差为,例子,,,。,总体平均方差是: (3)计算新的簇的中心。,重复(2)和(3),得到O1分配给C1;O2分配给C2,O3分配给C2 ,O4分配给C2,O5分配给C1。更新,得到新簇 和 。 中心为 , 。显影的单个方差分别为,总体平均误差是:,由上可以看出,第一次迭代后,总体平均误差值52.2525.65,显著减小。由于在两次迭代中,簇中心不变,所以停止迭代过程,算法停止。,k-means算法的性能分析,主要优点: 是解决聚类问题的一种经典算法,简单、快速。 对处理大数据集,该算法是相对可伸缩和高效率的。因为它的复杂度是0 (n k t ) , 其中, n 是所有对象的数目, k 是簇的数目, t 是迭代的次数。通常k n 且t n 。 当结果簇是密集的,而簇与簇之间区别明显时, 它的效果较好。 主要缺点 在簇的平均值被定义的情况下才能使用,这对于处理符号属性的数据不适用。 必须事先给出k(要生成的簇的数目),

      5、而且对初值敏感,对于不同的初始值,可能会导致不同结果。 它对于“躁声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。,k-modes 算法:实现对离散数据的快速聚类,保留了k-means算法的效率同时将k-means的应用范围扩大到离散数据。 K-modes算法是按照k-means算法的核心内容进行修改,针对分类属性的度量和更新质心的问题而改进。 具体如下: 1.度量记录之间的相关性D的计算公式是比较两记录之间,属性相同为0,不同为1.并所有相加。因此D越大,即他的不相关程度越强(与欧式距离代表的意义是一样的); 2.更新modes,使用一个簇的每个属性出现频率最大的那个属性值作为代表簇的属性值。,k-means算法的改进方法k-mode 算法,k-Prototype算法:可以对离散与数值属性两种混合的数据进行聚类,在k-prototype中定义了一个对数值与离散属性都计算的相异性度量标准。 K-Prototype算法是结合K-Means与K-modes算法,针对混合属性的,解决2个核心问题如下: 1.度量具有混合属性的方法是,数值属性采用K-means方法得到P1,分类属性采用K-modes方法P2,那么D=P1+a*P2,a是权重,如果觉得分类属性重要,则增加a,否则减少a,a=0时即只有数值属性 2.更新一个簇的中心的方法,方法是结合K-Means与K-modes的更新方法。,k-means算法的改进方法k-prototype算法,k-中心点算法:k -means算法对于孤立点是敏感的。为了解决这个问题,不采用簇中的平均值作为参照点,可以选用簇中位置最中心的对象,即中心点作为参照点。这样划分方法仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。,k-means算法的改进方法k-中心点算法,

      《k-means》由会员小**分享,可在线阅读,更多相关《k-means》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.