电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第7章 聚类分析

163页
  • 卖家[上传人]:我***
  • 文档编号:137677731
  • 上传时间:2020-07-11
  • 文档格式:PPT
  • 文档大小:2.69MB
  • / 163 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、第7章 聚类分析 (Cluster Analysis),聚类分析是根据研究对象的特性,对样本或变量进行定量分类的一种多元统计方法。,主要内容,7.1 聚类分析概述 7.2 分类统计量 7.3 系统聚类法 7.4 用SPSS进行聚类分析,聚类的目的,根据已知数据,计算各观察个体或变量之间亲疏关系的统计量。在没有先验知识的情况下自动进行分类的方法,聚类分析根据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。,聚类分析的应用例子,不同地区城镇居民收入和消费状况的分类研究。 区域经济及社会发展水平的分析及全国区域经济综合评价 市场营销中按照消费者的特征对消费者分类,按照产品特征对产品分类,从而进行市场分层、建立目标市场 为多种动物群体昆虫、哺乳动物和爬行动物的区分建立生物分类学 动物界节肢动物门昆虫纲膜翅目细腰亚目蜜蜂科蜜蜂,两类:(001 002) (003 004 005) 三类:(001 002) (003) (004 005),例如,上述分类的原则:依据学生成绩的差距,差距较小的为一类 分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生

      2、分类结果.,7.1 聚类分析概述,聚类分析是根据对象的特性对其进行定量分类的一种多元统计方法 ,是从数值分类学中分离出的一种科学的分类法。 常用的聚类方法有系统聚类法、模糊聚类法、动态聚类法、有序样本聚类法、分解法、加入法等等。,聚类分析概述,聚类分析是将数据中的观测值或变量按相似度加以归类在各个类别内 这些类不是事先给定的 而是直接根据数据的特征确定的 聚类的原则是“组(类)内同质,组(类)间差异” 类别内部的“差异”尽可能小 而类别之间的“差异”尽可能大,聚类分析特点,聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据只有原始数据,可能事先没有任何有关类别的信息可参考 严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体 一般不涉及统计量分布,也不需显著性检验 聚类分析更象是一种建立假设的方法,而对相关假设的检验还需要借助其他统计方法,聚类分析注意,聚类分析主要用于探索性研究,其分析结果可提供多个可能的解,最终解的选择需要研究者的主观判断和后续分析 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性

      3、的影响 不管实际数据中是否存在不同的类别,利用聚类分析都能得到分成若干类别的解,聚类分析的分类,在实际问题中,收集n个样品,对每一个样品测量 p 个指标: Q型聚类 根据p个指标值对n个样品进行分类 如,根据多项经济指标(指标)对不同的地区(样品)进行分类 R型聚类 根据n个样品对p个指标进行分类 根据不同地区的样本数据对多个经济指标进行分类,两者没有本质区别,实践中人们更感兴趣的通常是Q型聚类,聚类分析的基本步骤,(1) 选择描述事物对象的变量(指标)。 (2) 建立样品数据资料矩阵。 (3) 确定数据是否要标准化。 (4) 确定表示对象距离或相似程度的统计量。 (5) 选择适当的聚类方法,进行聚类。,分层聚类,(一)思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类 其次,将最“亲密”的个体聚成一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止 可见,随着聚类的进行,类内的“亲密”性在逐渐减低 一旦个案(变量)被聚为一类,以后分类结果不会改变,分

      4、层聚类,(一)思路 以分解的方式聚类 首先,所有个体都属于一类 其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出去 重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止 可见,随着聚类的进行,类内的亲密性在逐渐增强,7.2 分类统计量,变量分类,间隔尺度变量:指标用连续的实值变量表示, 如长度、重量、时间 有序尺度变量:用该指标度量时无数量表示,只 表示次序,如产品质量的等级; 名义尺度变量:该指标只代表某些分类或属性, 不代表大小和次序,如性别。,本章重点介绍间隔尺度变量 的聚类分析方法,数据分类(计量尺度):分类数据、顺序数据和数值型数据,m个指标X1,X2,X3,Xm,数据资料矩阵为,X1, , Xm,m个指标,n次观测,数据资料矩阵,为消除各个变量所用量纲的影响,以保证各变量在分析中处于同等地位,对数据资料矩阵做标准化处理,变换后各指标均值为0,标准差为1。,距离和相似系数,距离:此处我们将每个样品看成是m维空间中的一个点,并在空间中定义距离。 根据样本间距离的远近将样本进行划分。,以dij表示第i个样品与第j个样

      5、品之间的距离,作为p维空间中两点距离,要满足: dij0 ,对一切i,j dij0 ,当第i个样品与第j个样品p个指标都相同 dij dji ,对一切i,j dij dik+ dkj ,对一切i,j,k,距离是用来描述样品间亲疏程度的分类统计量,q=1时,绝对值距离,q=2时,欧氏(Euclidean )距离,闵氏距离适 用于一般p 维欧氏空间。 缺点是没有 考虑变量之 间的相关性。,闵氏(Minkowski )距离,二维空间欧式距离,s=(sij),分别为第i号样品和第j号样品各指标的均值,马氏距离适用于衡量来自正态总体的样品点之间接近程度的距离; 优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲 缺点:需要计算协方差阵(有可能是奇异阵),实际使用效果不是很好,马氏(Mahalanobis)距离,切比雪夫距离(CHEBYCHEV),以cij表示第i个指标与第j个指标之间的相似系数,要满足: cij1 ,对一切i,j cij1 ,当且仅当 xixj cij cji,对一切i,j,指标的相似系数与指标间的距离的关系,相似系数是用来描述指标间亲疏程度的分类统计量。,相似系数

      6、,两个变量相似系数的绝对值越接近于1,说明这两个变量的关系越密切,性质越接近。 相似系数绝对值大的变量归为一类,相似系数绝对值小的变量归属于不同的类。,Pearson相关系数,2) 夹角余弦,若将第i个变量的n个观测值(x1i,x2i,xni)T和第j个变量的n个观测值(x1j,x2j,xnj)T看成n维空间中的两个向量,则正好是这两个向量的夹角余弦。 若夹角余弦越大,则夹角越小,则两个变量越相似。,夹角余弦与相关系数示意图,xi,xj,相关系数是对 数据做标准化处 理后的夹角余弦,1.用距离作为亲疏程度的度量值时,距离越小,样品之间的关联性越大;用相似系数作为亲疏程度的度量值时,相似系数的绝对值越大,意味着指标之间的关联性越大。,2.有时样品之间也可以用相似系数来描述它们的亲疏程度,变量之间也可以用距离来描述它们的亲疏程度。 3.聚类分析时到底选择哪一种分类统计量,有时并无最优或唯一选择,通常也可尝试性地多选择几个不同的度量值进行聚类,通过比较分析确定。,几点说明:,应注意的问题,(1)在聚类分析中,应根据不同的目的选用不同的指标, 例如选拔运动员所用的指标(身体形态、身体素质、心理

      7、素质、生理功能等)与分课外活动小组所选用的指标不相同,对啤酒按价格分类与按成分分类所用的指标也不相同。 一般来说,选择哪些变量应该具有一定的理论支持,但在实践中往往缺乏这样强有力的理论基础,一般根据实际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的目标密切相关,反映分类对象的特征,在不同研究对象上的值具有明显差异,变量之间不应该高度相关。,选变量时并不是加入的变量越多,得到的结果越客观。有时,加入一两个不合适的变量就会使分类结果大相径庭。变量之间高度相关相当于加权 有两种处理方法: (1)首先进行变量聚类,从每类中选一代表性变量,再进行样品聚类; (2)进行主成分分析或因子分析,降维,使之成为不相关的新变量,再进行样品聚类。,(2 )标准化问题 指标选用的度量单位将直接影响聚类分析的结果。例如将高度的单位由米改为英寸,或者将重量单位由千克改为磅,可能产生非常不同的聚类结构。一般来说,所用度量单位越小,变量的值域就越大,对聚类结果的影响也越大。为了避免对变量单位选择的依赖,数据应当标准化。数据量纲不同时,必须进行标准化;但如果量纲相同,可数量级相差很大,这时也应该进行标准

      8、化。,7.3 系统聚类法,系统聚类法的聚类效果一方面取决于分类统计量的选择,另一方面还取决于类间距离的定义。 系统聚类分析方法主要有:最短距离法、最长距离法、中间距离法、重心法、类平均法、类间平均连接法、类内平均连接法和离差平方和法。,一.类与类之间的距离,1.最短距离法(Nearest neighbor) 2.最长距离法(Furthest neighbor) 3.中间距离法(Centroid clustering) 4.类平均法(Median clustering) 5.可变类平均法(flexible-beta method) 6.重心法(centroid method) 7.Ward离差平方和法(Wards minimum-variance method),8.Mcquitty的相似分析法(Mcquittys similarity analysis) 9.最大似然估计法(Exact Maximum Likelihood EML) 10.密度估计(density linkage) 11.两阶段密度估计法(two-stage density linkage),考虑类Gp与类Gq之间的距

      9、离,并假设类Gp中共有f个元素(样品或统计量),类Gq中共有f个元素。用,和,表示两个类的重心(即类均值)。,1. 最短距离法(Nearest neighbor),DN(p,q)=mindjkjGp,kGq,两类间的距离定义为两类中距离最近的两个个案之间的距离,最短距离示意图,Dpq,Gp,Gq,A*,B*,*C,*D,例(最短距离法),设随机抽取5个样品,每个样品只测了一个指标,分别是1,2,3.5,7,9.,样品间距离(采用绝对值距离,建立D(0) ),例 (最短距离法),由D(0)中非对角线最小元素为1:G1 与G2合并成一个新类,记为G6=x1, x2; 计算新类与其他类的距离,得距离阵D(1).,由D1中非对角线最小元素为1.5:将G3 ,G6合并成一个新类, 记为G7 =x1, x2 , x3 ;重新计算新类与其它类之间的距离, 得到D(2).,例(最短距离法),由D(2)中非对角线最小元素为2:将G4 ,G5合并成一个新类, 记为G8=x4, x5 ;重新计算新类与其它类之间的距离, 得到D(3).,最后,将G7 ,G8合并成G9=x1 , x2 , x3 , x4, x5 , 聚类结束.,例7.2 (最短距离法),谱系图,分为两类: x1,x2,x3、x4,x5,分为三类: x1,x2,x3、x4、x5,分为四类: x1,x2、x3、x4、x5,最短距离法的缺陷,有链接聚合的趋势:因为类与类之间的距离为所有距离中的最短者,两类合并以后,它与其他类间的距离缩小了,这样容易形成一个较大的类,大部分样品被分在一个类中。 聚类效果不好,实际中不提倡使用。,以两个类别各自类别内的所有样品与另一类中的所有样品间的距离最大者作为两类间的距离。,2. 最长距离法(Furthest neighbor),DF(p,q)=maxdjkjGp,kGq,两类间的距离定义为两类中距离最远的两个个案之间的距离,最长距离示意图,Dpq,Gp,Gq,A*,B*,*C,*D,例(最长距离法),设随机抽取5个样品,每个样品只测了一个指标,分别是1,2,3.5,7,9.,样品间距离(采用绝对值距离,建立D(0) ),例 (最长距离法),例(最长距离法),如何分类?,最长距离法

      《第7章 聚类分析》由会员我***分享,可在线阅读,更多相关《第7章 聚类分析》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
  • 2020届中考英语备考复习-作文课件

    2020届中考英语备考复习-作文课件

  • 2019年中考英语复习-专题十五-交际运用(试卷部分)课件

    2019年中考英语复习-专题十五-交际运用(试卷部分)课件

  • 2019届二轮复习-高中英语-情态动词和虚拟语气课件

    2019届二轮复习-高中英语-情态动词和虚拟语气课件

  • 2019届一轮复习苏教版物质的跨膜运输课件

    2019届一轮复习苏教版物质的跨膜运输课件

  • 2019年北师大版英语单元复习课件::Unit17Laughter课件北师大版选修6

    2019年北师大版英语单元复习课件::Unit17Laughter课件北师大版选修6

  • 2021届新中考物理冲刺备考复习-力-弹力-重力课件

    2021届新中考物理冲刺备考复习-力-弹力-重力课件

  • 2019届一轮复习人教版种群的特征和数量变化课件

    2019届一轮复习人教版种群的特征和数量变化课件

  • 2020年高考地理一轮复习--等高线地形图-课件

    2020年高考地理一轮复习--等高线地形图-课件

  • 2019版高考英语一轮复习-Unit-1-Living-well课件

    2019版高考英语一轮复习-Unit-1-Living-well课件

  • 2019届一轮复习人教版孟德尔的遗传定律——基因分离定律课件

    2019届一轮复习人教版孟德尔的遗传定律——基因分离定律课件

  • 2019届高三第二轮复习专题二万有引力定律及其应用课件

    2019届高三第二轮复习专题二万有引力定律及其应用课件

  • 2020最新部编版语文五年级上册23-鸟的天堂课件含课后练习

    2020最新部编版语文五年级上册23-鸟的天堂课件含课后练习

  • 2020版高考(浙江)一轮复习:第7讲-细胞呼吸课件

    2020版高考(浙江)一轮复习:第7讲-细胞呼吸课件

  • 2020年新教材高中英语UNIT4HISTORYANDTRADITIONSSectionⅢDiscoveringUsefulStructures课件必修第二册

    2020年新教材高中英语UNIT4HISTORYANDTRADITIONSSectionⅢDiscoveringUsefulStructures课件必修第二册

  • 2019届高考历史二轮复习阶段三专题十三罗斯福新政与当代资本主义的新变化课件2

    2019届高考历史二轮复习阶段三专题十三罗斯福新政与当代资本主义的新变化课件2

  • 2019版高考生物二轮复习-专题三-细胞的生命历程-考点9-细胞分裂过程图像和坐标曲线的识别课件

    2019版高考生物二轮复习-专题三-细胞的生命历程-考点9-细胞分裂过程图像和坐标曲线的识别课件

  • (通史版)2021版高考历史一轮复习第4部分高考讲座(三)2高考非选择题(12分开放探究题)规范答题讲练课件

    (通史版)2021版高考历史一轮复习第4部分高考讲座(三)2高考非选择题(12分开放探究题)规范答题讲练课件

  • 2019届高三地理复习第五讲--《区际联系与区域协调发展》课件

    2019届高三地理复习第五讲--《区际联系与区域协调发展》课件

  • 2021人教部编版历史九年级上册习题课件:第18课美国的独立

    2021人教部编版历史九年级上册习题课件:第18课美国的独立

  • 2020学年新教材高中英语Unit1FoodforthoughtPeriodTwoStartingout课件

    2020学年新教材高中英语Unit1FoodforthoughtPeriodTwoStartingout课件

  • 点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.