电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

聚类分析原理及步骤[行业参考]

5页
  • 卖家[上传人]:壹****1
  • 文档编号:457178710
  • 上传时间:2023-09-02
  • 文档格式:DOC
  • 文档大小:46.50KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、聚类分析原理及步骤将未知数据按相似程度分类到不同的类或簇的过程1 传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。典型应用1 动植物分类和对基因进行分类2 在网上进行文档归类来修复信息3 帮助电子商务的用户了解自己的客户,向客户提供更合适 的服务主要步骤1 数据预处理选择数量,类型和特征的标度(依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数据行为或模型的数据)2 为衡量数据点间的相似度定义一个距离函数既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域一个简单的距离度量,如Euc

      2、lidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性3 聚类或分组将数据对象分到不同的类中【划分方法(划分方法一般从初始划分和最优化一个聚类标准开始 ,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中)和层次方法(基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类)是聚类分析的两个主要方法,另外还有基于密度的聚类,基于模型的聚类,基于网格的聚类】4 评估输出评估聚类结果的质量(它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的

      3、最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集合。)聚类分析的主要计算方法原理及步骤划分法1 将数据集分割成K个组(每个组至少包含一个数据且每一个数据纪录属于且仅属于一个分组),每个组成为一类2 通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好(标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好,使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法)层次法1“自底向上”方案将每个数据单独作为一组,通过反复迭代的方法,把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止,代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等2“自顶向下”方案主要算法原理及步骤 K-MEANS算法 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利

      4、用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 k-means 算法的工作过程说明如下:1从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;2计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。K-MEDOIDS算法K-MEANS有其缺点:产生类的大小相差不会很大,对于脏数据很敏感。 改进的算法:kmedoids 方法:选取一个对象叫做mediod来代替上面的中心的作用,这样的一个medoid就标识了这个类。步骤: (1)、任意选取K个对象作为medoids(O1,O2,OiOk)。 以下是循环的: (2)、将余下的对象分到各个类中去(根据与medoid最相近的原则); (3)、对于每个类(Oi)中,顺序选取一个Or,计算用Or代替Oi后的消耗E(Or)。选择E最小的那个Or来代替Oi。这样K个medoids就改变了,下面就再转到2。 (4)、这样循环直到K个medoids固定下来。 这种算法对于脏数据和异常数据不敏感,但计算量显然要比K均值要大,一般只适合小数据量Clara算法K-medoids算法不适合于大数据量的计算,Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids。Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的(O1,O2OiOk),然后在这当中选取E最小的一个作为最终的结果。Clarans算法 Clara算法的效率取决于采样的大小,一般不太可能得到最佳的结果在Clara算法的基础上,又提出了Clarans的算法,与Clara算法不同的是:在Clara算法寻找最佳的medoids的过程中,采样都是不变的。而Clarans算法在每一次循环的过程中所采用的采样都是不一样的。与上次课所讲的寻找最佳medoids的过程不同的是,必须人为地来限定循环的次数1谷风教资q

      《聚类分析原理及步骤[行业参考]》由会员壹****1分享,可在线阅读,更多相关《聚类分析原理及步骤[行业参考]》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.