第九讲 聚类分析与判别分析
22页1、第十讲 聚类分析与判别分析,内容概要,概述 系统聚类 K-均值聚类 聚类分析案例 Fisher判别分析 Bayes判别分析 判别分析案例,概述,聚类分析:顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals, objects or subjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。,基本思想,指标:描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。“距离”和“相似系数”,假定研究对象均用所谓的“点”来表示。 一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类! 严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。,分类: Q型聚类对样本进行分类处理; R型聚类对变量进行分类处理。 方法: 系统聚类法 K
2、-均值聚类法 有序样品聚类法,个体之间距离的度量方法,针对连续变量的距离测量: 欧式距离; 欧式距离平方; 切比雪夫距离; 布洛克距离; 明可夫斯基距离; 自定义距离; 夹角余弦; 皮尔逊相关系数,针对计数变量的距离测度: 卡方距离; Phi方距离; 针对二值变量的距离测度: 二值欧式距离; 二值欧式距离平方; 不对称指数; 不相似性测度; 方差,一般聚类个数在46类,不宜太多,或太少;,聚类分析应注意的问题,所选择的变量应符合聚类的要求; 各变量的变量值不应有数量级上的差异; 各变量间不应有较强的线性相关关系。,系统聚类/层次聚类,凝聚式聚类和分解式聚类。 基本思想:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 步骤: 第一步:每个样品独自聚成类,共n个类; 第二步:把距离较近的两个样品聚合为一类,形成n-1类; 第三步:将n-1个类中“距离”最近的两个类进一步聚成一类,形成n-2类; 直至所有样品全聚成一类。,个体与小类,小类与小类“亲疏程度”度量方法,组间平均连接距离:个体与小类中每个个体距离的平均值; 组内平均连
《第九讲 聚类分析与判别分析》由会员小**分享,可在线阅读,更多相关《第九讲 聚类分析与判别分析》请在金锄头文库上搜索。
2020年高考真题——理科综合(全国卷Ⅲ)+Word版含答案
2021年绝味鸭脖策划书
2021年熟食店创业方案
2021年熟食店开店策划
2021年卤菜店创业计划书
2021年周黑鸭网络营销策划方案
东大21年1月考试《现代设计方法》考核作业
谈我国行政管理效率的现状及其改观对策(论文)
单证员考试-备考辅导-复习资料:无贸易背景信用证案分析.docx
土木工程毕业生答辩自述.docx
建筑学毕业后工作状态真实写照.doc
C#代码规范(湖南大学).doc
xx区食药监局2019年工作总结及2020年工作计划
2019年中医院药物维持治疗门诊工人先锋号先进事迹
2019年度xx乡镇林长制工作总结
2019年性艾科工作计划书
2019年人才服务局全国扶贫日活动开展情况总结
关于组工信息选题的几点思考
摘了穷帽子 有了新模样
2019年某集团公司基层党支部书记培训班心得体会
2024-01-31 15页
2024-01-31 21页
2024-01-31 37页
2024-01-31 30页
2024-01-31 22页
2024-01-31 48页
2024-01-31 32页
2024-01-31 40页
2024-01-31 31页
2024-01-31 20页