好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

聚类分析原理与SPSS实现.ppt

100页
  • 卖家[上传人]:飞***
  • 文档编号:50738370
  • 上传时间:2018-08-10
  • 文档格式:PPT
  • 文档大小:2.83MB
  • / 100 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 聚类分析1n聚类分析是研究分类问题的一种多元统计方法所谓类,就是指相似元素的集合n聚类分析的研究目的把相似的东西归成类,根据相似的程度将研究目标进行分类§1 什么是聚类分析2n聚类分析的研究对象nR型分析----对变量进行分类nQ型分析----对样品进行分类n聚类分析研究的主要内容n如何度量事物之间的相似性 ?n怎样构造聚类的具体方法以达到分类的目的?3例 对10位应聘者做智能检验3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力其 得分如下,选择合适的统计方法对应聘者进行分类应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424我们的问题是如何来选择样品间相似性的测度指标 ,如何将相似的类连接起来?4一、相似性的测度n距离:测度样品之间的亲疏程度将每一个样品 看作p 维空间的一个点,并用某种度量测量点与 点之间的距离,距离较近的归为一类,距离较远 的点应属于不同的类n相似系数:测度变量之间的亲疏程度§2 距离和相似系数52、常用的距离明氏距离特别地,当k=1时,即为绝对值距离(1) 明氏距离令表示样品与的距离 设原始数据为6明氏距离当k=2时,即为欧氏距离当k=∞时,即为切比雪夫距离71 2 3 4 520 18 10 4 47 10 5 5 325.2 36.3 28.9 11.5 17欧氏距离切比雪夫距离8明考夫斯基距离有以下两个缺点:①明氏距离的数值与指标的量纲有关。

      当 各变量的测量值相差悬殊时,常发生“大数吃小数” 的现象,为消除量纲的影响,通常先将每个变量进 行标准化②明氏距离的定义没有考虑各个变量之间 相关性的影响年龄收入家庭人口 数 甲3030001 乙40320039(2) 标准化的欧氏距离设原始数据为1011(3)马氏距离由印度著名统计学家马哈拉诺比斯(Mahalanobis) 所定义的一种距离,其计算公式为:=12n马氏距离又称为广义欧氏距离n马氏距离考虑了观测变量之间的相关性如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离n马氏距离不受指标量纲及指标间相关性的影响 13二、变量间相似系数的算法变量和的相关系数: (2)夹角余弦(1)相关系数14n系统聚类法直观,易懂n快速聚类法(动态聚类法)快速,动态n有序聚类法保序(时间顺序或大小顺序)各种聚类方法15§3 系统聚类法系统聚类法的基本思想先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离选择距离最近 的两类合并成一个新类,计算新类和其它类(各当 前类)的距离,再将距离最近的两类合并这样, 每次合并减少一类,直至所有的样品都归成一类为 止。

      16系统聚类法的基本步骤:1. 计算n个样品两两间的距离 ,记作D= 2. 构造n个类,每个类只包含一个样品 3. 合并距离最近的两类为一新类 4. 计算新类与各当前类的距离 5. 重复步骤3、4,合并距离最近的两类为新类,直到所 有的类并为一类为止 6. 画聚类谱系图 7. 决定类的个数和类171. 最短距离法2. 最长距离法• 中间距离法 • 重心法 • 类平均法 1. 离差平方和法(Ward法)系统聚类方法:上述 6 种方法归类的基本步骤一致,只是 类与类之间的距离有不同的定义18定义类p与q之间的距离为两类最近样品的距离,即xq1•xp2•xq2•xp1•xq3•一、最短距离法19设类p与 q合并成一个新类,记为k,则k与任一类r 的距离是p qkr20例 最短距离法 设抽取5个样品,每个样品观察2个指标 , :您每月大约喝多少瓶啤酒,:您对“饮酒是人生的快乐”这句话的看法如何? 观察数据如下,对这5个样品分类1 2 3 4 520 18 10 4 47 10 5 5 321② ③ ④ ⑤ ① ② ③ ④3.6 10.2 16.12 16.499.43 14.87 15.656 6.3221.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2. 合并距离最小的两类为新类,按顺序定为第6类。

      ⑥=223、计算新类⑥与各当前类的距离,得距离矩阵如下:② ③ ⑥ ① ② ③3.6 10.2 16.129.43 14.87 623为最小, ⑦=⑥ ⑦ ③ ⑥6 9 .4314.87 4、重复步骤2、3,合并距离最近的两类为新类,直到所有 的类并为一类为止 为最小,⑧=5、246、按聚类的过程画聚类谱系图 45⑥⑨⑧并类距离312⑦7、决定类的个数与类观察此图,我们可以把5个样品分为3类,、、25•••x11•x21••••二、最长距离法定义类p与q之间的距离为两类最远样品的距离,即26设类p与 q合并成一个新类,记为k,则k与任一类r 的距离是p qkr27② ③ ④ ⑤ ① ② ③ ④3.6 10.2 16.12 16.499.43 14.87 15.656 6.3221.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2. 合并距离最小的两类为新类,按顺序定为第6类。

      ⑥=例 最长距离法 283、计算新类⑥与各当前类的距离,得距离矩阵如下:② ③ ⑥ ① ② ③3.6 10.2 16.499.43 15.65 6.3229为最小, ⑦=⑥ ⑦ ③ ⑥6.32 10 .216.494、重复步骤2、3,合并距离最近的两类为新类,直到所有 的类并为一类为止 为最小,⑧=5、306、按聚类的过程画聚类谱系图 45⑥⑨⑧并类距离312⑦7、决定类的个数与类观察此图,我们可以把5个样品分为3类,、、31三、中间距离法定义类与类之间的距离既不采用两类之间最近的距 离,也不采用两类之间最远的距离,而是采用介于 两者之间的距离,故称为中间距离法 •••rpqk32② ③ ④ ⑤ ① ② ③ ④13 104 260 27289 221 24536 4041.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2. 合并距离最小的两类为新类,按顺序定为第6类⑥=例 中间距离法 333、计算新类⑥与各当前类的距离,得距离矩阵如下:② ③ ⑥ ① ② ③13 104 26589 232 3734为最小, ⑦=⑥ ⑦ ③ ⑥37 93.25245.25 4、重复步骤2、3,合并距离最近的两类为新类,直到所有 的类并为一类为止。

      为最小,⑧=5、356、按聚类的过程画聚类谱系图 45⑥⑨⑧并类距离312⑦7、决定类的个数与类观察此图,我们可以把5个样品分为3类,、、36四、重心法(Centroid)••和类与类之间的距离就考虑用重心之间的距离表示设p 与q的重心分别是,则类p和q的距离为37将p和q合并为k,则k类的样品个数为它的重心是某一类 r 的重心是,它与新类k的距离是经推导可以得到如下递推公式:设聚类到某一步,类p与 q分别有样品 、个,38② ③ ④ ⑤ ① ② ③ ④13 104 260 27289 221 24536 4041.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2. 合并距离最小的两类为新类,按顺序定为第6类⑥=例 重心法 393、计算新类⑥与各当前类的距离,得距离矩阵如下:② ③ ⑥ ① ② ③13 104 26589 232 3740为最小, ⑦=⑥ ⑦ ③ ⑥37 93.25245.25 4、重复步骤2、3,合并距离最近的两类为新类,直到所有 的类并为一类为止。

      为最小,⑧=5、416、按聚类的过程画聚类谱系图 45⑥⑨⑧并类距离312⑦7、决定类的个数与类观察此图,我们可以把5个样品分为3类,、、42五、类平均法(Average)定义两类之间的距离平方为这两类元素两两之间距离 平方的平均 •••••pq43将p和q合并为k,则k类的样品个数为设聚类到某一步,类p与 q分别有样品、个,k类与任一类 r 的距离为44② ③ ④ ⑤ ① ② ③ ④13 104 260 27289 221 24536 4041.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2. 合并距离最小的两类为新类,按顺序定为第6类⑥=例 类平均法 453、计算新类⑥与各当前类的距离,得距离矩阵如下:② ③ ⑥ ① ② ③13 104 26689 233 3846为最小, ⑦=⑥ ⑦ ③ ⑥38 96.5249.5 4、重复步骤2、3,合并距离最近的两类为新类,直到所有 的类并为一类为止。

      为最小,⑧=5、476、按聚类的过程画聚类谱系图 45⑥⑨⑧并类距离312⑦7、决定类的个数与类观察此图,我们可以把5个样品分为3类,、、48六、差平方和法(Ward法 )反映样品之间的差异程度 设变量X的n个样品观察值为:n个样品的离差平方和为:49••••••• ••••q••••••••••••• pk设类p和q分别含有np、nq个样品,其离差平方和分别记为和50n直观上容易想到把两群样品聚为一大群,大群的离 差平方和将超过原来两个群的离差平方和之和 如果将p和q并类得到新类k,则类k的离差平方和为把增加的量记为定义类p和q之间的距离为:设类p和q分别含有np、nq个样品,其离差平方和分别记为和51可以推得新类 k与任一类 r 的距离 :52② ③ ④ ⑤ ① ② ③ ④6.5 52 130 13644.5 110.5 122.518 2021.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),2. 合并距离最小的两类为新类,按顺序定为第6类⑥=例 离差平方和法(Ward法) 两样品间的距离的平方恰为它们之间欧氏距离平方的一半。

      533、计算新类⑥与各当前类的距离,得距离矩阵如下:② ③ ⑥ ① ② ③6.5 52 176.6744.5 154.67 24.6754为最小, ⑦=⑥ ⑦ ③ ⑥24.67 62.17245.26 4、重复步骤2、3,合并距离最近的两类为新类,直到所有 的类并为一类为止 为最小,⑧=5、556、按聚类的过程画聚类谱系图 45⑥⑨⑧并类距离312⑦7、决定类的个数与类观察此图,我们可以把5个样品分为3类,、、56最短距离法最长距离法中间距离法重心法类平均法离差平 方和法57动态聚类法系统聚类法是一种比。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.