聚类分析原理及步骤[行业参考]
5页1、聚类分析原理及步骤将未知数据按相似程度分类到不同的类或簇的过程1 传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。典型应用1 动植物分类和对基因进行分类2 在网上进行文档归类来修复信息3 帮助电子商务的用户了解自己的客户,向客户提供更合适 的服务主要步骤1 数据预处理选择数量,类型和特征的标度(依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数据行为或模型的数据)2 为衡量数据点间的相似度定义一个距离函数既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域一个简单的距离度量,如Euc
2、lidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性3 聚类或分组将数据对象分到不同的类中【划分方法(划分方法一般从初始划分和最优化一个聚类标准开始 ,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中)和层次方法(基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类)是聚类分析的两个主要方法,另外还有基于密度的聚类,基于模型的聚类,基于网格的聚类】4 评估输出评估聚类结果的质量(它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的
《聚类分析原理及步骤[行业参考]》由会员壹****1分享,可在线阅读,更多相关《聚类分析原理及步骤[行业参考]》请在金锄头文库上搜索。
高中信息技术选修课《VB程序设计》教学设计
转正主题的总结(2篇).doc
凉山关于成立天花吊顶公司可行性报告模板
2022年敬老院活动总结合集9篇
重型自卸汽车举升液压系统设计
物业经理求职信【四篇】
旅行社销售实习报告
夏季幼儿常见疾病预防小常识
广场舞活动方案
压铸件的缺陷分析及检验
二年级下册语文教案3 开满鲜花的小路∣人教
北京市高三数学文综合练习58 Word版含答案
鱼亮沟发电厂安全检查表
吉林省汪清县七年级地理下册7.2东南亚导学案1无答案新版新人教版
最新护士专业实习总结
2023暑假计划标准范文(五篇).doc
高校搜索APP创业项目实施计划书
2022年考博英语-黑龙江大学考试内容及全真模拟冲刺卷(附带答案与详解)第44期
盆栽郁金香的种植技术和注意事项
让我们一起等待教育随笔文案
2022-12-27 13页
2023-10-01 31页
2022-09-24 12页
2023-10-03 11页
2024-01-11 8页
2023-10-02 17页
2023-08-02 60页
2023-03-06 4页
2023-08-11 9页
2023-10-22 23页