
统计分析--聚类分析课件.ppt
53页§10 聚类分析(Cluster Analysis))[ [引例引例10-1]10-1]§10 聚类分析(Cluster Analysis))ا10.1 概述ا10.2 §10.2 统计量统计量ا10.3 §10.3 系统聚类(层次聚类)系统聚类(层次聚类)ا10.4 §10.4 快速聚类快速聚类ا10.1 概述•问题的提出•基本思想•主要步骤•基本原则•主要分类§10.1 概述§10.1 概述Ø 问题的提出 聚类分析又称群分析、点群分析、簇群分析等,是研究分类问题(样本或指标)的一种多元统计方法 与其它多元统计分析方法相比,聚类分析方法比较粗糙,理论上尚不完善,目前正处于发展阶段 但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视 §10.1 概述Ø 问题的提出 Ø 基本思想• 假定研究对象之间存在不同程度的相似性(亲疏程度)• 根据观测样本,找出并计算一些能够度量相似程度的统计量(相似系数、相关系数、距离等)• 按照相似性统计量,将相似程度大的聚合到一类,关系疏远的聚合到另一类,直到把所有样本都聚合完毕,形成一个由小到大的分类系统。
• 最后将分类系统直观地用图形表示出来,即谱系图§10.1 概述Ø主要分类•R型聚类分析 对变量进行聚类分析(比较:主成分、公因子)•Q型聚类分析 对样本进行聚类分析(比较:主成分得分、因子得分) §10.1 概述Ø主要分类•系统聚类(hierarchical cluster) 不指定最终的类数,结论将在聚类过程中寻求,这种聚类称为系统聚类 可以对变量和样本进行聚类分析•快速聚类(K-means cluster) 事先指定用于聚类分析的类数 只对样本进行聚类分析,适合大样本数据§10.1 概述Ø 统计量• 为了将样本(或变量)进行分类,需要研究其关系• 目前用得最多的方法有两个:一种方法是用相似系数,比较相似的样本归为一类,不怎么相似的样本归为不同的类• 另一种方法是将一个样本看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类• 对样本进行聚类(Q型聚类),常用的统计量为距离; 对变量进行聚类(R 型聚类),常用的统计量为相似系数§10.2 统计量 相似系数是指衡量全部样本或全部变量中任何两部分相似程度的指标。
主要有内积系数、匹配系数等几项指标,其中内积系数(inner product coefficient)是普通应用于数量数据的相似性指标 两个同维向量 与 的各分量依次相乘再相加,称为两向量的内积(inner product) 内积的数值可以作为一种反映两向量相似程度的指标,称为相似系数Ø 统计量-相似系数• 相似系数( similarity coefficient)§10.2 统计量 为了消除量纲的影响,对内积进行模标准化处理,经过模标准化处理后的内积正好是两个向量在原点处的夹角余弦 Ø 统计量-相似系数• 夹角余弦(Cosine)§10.2 统计量 为了消除量纲的影响,对原始数据进行离差标准化处理,经过离差标准化处理后的内积正好是两个向量的相关系数 Ø 统计量-相似系数• 相关系数(Correlation coefficient)§10.2 统计量 计算任何两个样本(指标) 与 之间的相关系数 ,其值越大表示样本(指标)间接近程度越大,值越小表示接近程度越小 可以根据相似系数矩阵对样本(指标)进行分类。
Ø 统计量-相似系数• 相关系数矩阵§10.2 统计量Ø 统计量-相似系数§10.2 统计量 距离实质上反映的是两个向量相异的指标,它与相似是互补的概念 距离系数的种类很多,但都有一个共同的特征,即当两个向量完全相同时取最小值,完全不同时取最大值 Ø统计量-距离• 距离§10.2 统计量 点与点之间的距离:把每一个样本视为p维空间中的一个点,则两个样本之间的距离可以定义为p维空间中两个点之间的距离 类与类之间的距离:类间距离是基于点间距离定义的,比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离 如果每一类都由一个点组成,那么点间的距离就是类间距离Ø统计量-距离• 距离§10.2 统计量Ø统计量-距离• 明氏距离(Minkowski distance)• 第i个样本与第j个样本间的明氏距离为:• 绝对值距离(absolute value distance) q=1时§10.2 统计量Ø统计量-距离• 欧氏距离(Eculidean distance) q=2时• 切比雪夫离(Chebychev distance)§10.2 统计量欧氏距离是应用最广泛的一种距离系数。
Ø统计量-距离• 马氏距离(Mahalanobis distance) 设样本的协差阵为S,其逆阵为S-1,则第i样本与第j样本间的马氏距离为:§10.2 统计量Ø 统计量-距离§10.2 统计量Ø 类与类之间的距离• 最短距离 设类Gp与类Gq中两个元素之间的最短距离为Gp与类Gq之间的距离• 最长距离 设类Gp与类Gq中两个元素之间的最长距离为Gp与类Gq之间的距离§10.2 统计量Ø 类与类之间的距离• 重心距离 设类Gp与类Gq中两个重心之间的距离为Gp与类Gq之间的距离• 类平均距离 设类Gp与类Gq中任意两个元素之间距离的平均值为Gp与类Gq之间的距离§10.2 统计量Ø 系统聚类 先将每样本(变量)看成一类,然后定义样本(变量)间的距离(或相似系数,在SPSS软件中把相似系数也看成是一种距离系数)和类与类间的距离 选择距离最小的两类将其合并成一新类,再按类间距离的定义计算新类与其它类的距离,再行合并,直至所有样本都聚为一类为止 根据一定的标准确定类的个数§10.3 系统聚类Ø聚类方法①“Between-groups linkage”类间平均法,当两类之间所有样本之间距离的平均值最小时,这两类可以合并为一类。
②“Within- groups linkage”类内平均法,当合并后所有样本的距离的平均值最小时,这两类可以合并为一类③“Nearest neighbor”最短距离法,当两类最近样本之间的距离最小时,这两类可以合并为一类④“Furthest neighbor”最长距离法,当两类最远样本之间的距离最小时,这两类可以合并为一类⑤“Centroid clustering”重心法,当两类重心距离最小时,这两类可以合并为一类⑥“Median clustering”中心法,当两类中心距离最小时,这两类可以合并为一类⑦ “Ward‘s method”离差平方和法,当合并后类内部各个样本距离(欧氏距离)的离差平方和最小时,这两类可合并为一类§10.3 系统聚类Ø 聚类方法§10.3 系统聚类Ø类的个数的确定根据谱系图确定分类个数的准则:•各类间的距离必须较大;•类中包含的元素不要太多;•类的个数必须符合实际应用;•如果采用几种不同的聚类方法处理,则在各种聚类图中应该发现相同的类 §10.3 系统聚类法ØSPSS 软件实现§10.3 系统聚类法选择对变量进行聚类ØSPSS 软件实现§10.3 系统聚类法对原始数据进行离差标准化处理;采用相关系数表征变量之间的相似程度;采用离差平方和最小的方法计算类与类之间的距离。
ØSPSS 软件实现结果分析-数据信息§10.3 系统聚类法ØSPSS 软件实现结果分析-相关系数矩阵§10.3 系统聚类法ØSPSS 软件实现结果分析-聚类凝聚过程表§10.3 系统聚类法Stage 列出步骤序号,Cluster Combined 栏中列出了合并的两个类的序号,Next stage栏是合并的新类再次出现的步骤序号ØSPSS 软件实现结果分析-“Icicle” 冰柱图§10.3 系统聚类法ØSPSS 软件实现对样本进行聚类数据标准化方法:离差标准化(Z score法)点与点间距离的计算:欧氏距离类与类间距离的计算:“Ward's method”离差平方和法§10.3 系统聚类法ØSPSS 软件实现对样本进行聚类§10.3 系统聚类法ØSPSS 软件实现对样本进行主成分聚类主成分提取方法:累积方差贡献率>85% (第八章分析结果)数据标准化方法:离差标准化(Z score法)点与点间距离的计算:欧氏距离类与类间距离的计算:“Ward's method”离差平方和法§10.3 系统聚类法ØSPSS 软件实现§10.3 系统聚类法ØSPSS 软件实现对样本进行因子聚类因子提取方法:主成分法、累积方差贡献率>85% 、方差最大正交因子旋转数据标准化方法:离差标准化(Z score法)点与点间距离的计算:欧氏距离类与类间距离的计算:“Ward's method”离差平方和法§10.3 系统聚类法ØSPSS 软件实现对样本进行因子聚类§10.3 系统聚类法ØSPSS 软件实现§10.3 系统聚类法CLU3-1是全变量聚类结果;CLU3-2是主成分聚类结果;CLU3-2是因子聚类结果ØSPSS 软件实现§10.3 系统聚类法Friedman检验表明:全变量聚类结果、主成分聚类结果、因子聚类结果存在显著性差异Wilcoxom检验表明:全变量聚类结果与主成分聚类结果、因子聚类结果存在显著性差异,但主成分与因子聚类结果无显著性差异。
快速聚类分析的基本思想Ø 在快速聚类过程中,参与聚类分析的变量必须是数值型变量,分类数必须大于等于2,且小于等于观测数Ø 一般情况下,还指定一个标识变量来标明观测的特征,以便于清楚地表明各观测的所属类Ø 快速聚类过程始终遵照所有样本空间的点与这几个类中心的距离取最小值原则,进行反复的迭代计算,最终将各个样本分配到各个类中心所在的类,迭代计算将停止Ø 快速聚类只对样本进行聚类特别合适大样本聚类§10.4 快速聚类法ØSPSS 软件实现§10.4 快速聚类法ØSPSS 软件实现从源变量列表中选择需要聚类分析的变量选择聚类对象和聚类数系统默认的聚类数为2§10.4 快速聚类法ØSPSS 软件实现从源变量列表中选择需要聚类分析的变量选择聚类方法Iterate and classify:表示在迭代过程中不断地更新聚类中心;Classify only: 表示用初始聚类中心对观测量进行聚类,聚类中心不变§10.4 快速聚类法ØSPSS 软件实现从源变量列表中选择需要聚类分析的变量选择聚类方法Read initial from: 用来指定数据文件来源,表明所分析的作为凝聚点的观测来自哪一个文件;Write final as: 用来把聚类过程凝聚点的最终结果保存到指定的数据文件里。
§10.4 快速聚类法ØSPSS 软件实现Iterate 迭代 对话框Maximum Iteration: 输入一个整数限定迭代步数,系统默认值为10;Convergence Criterion: 输入一个不超过1的正数作为判定迭代收敛的标准缺省的收敛标准值为0.02,表示当两次迭代计算的聚心之间距离的最大改变量小于初始聚心间最小距离的2%时终止迭代§10.4 快速聚类法ØSPSS 软件实现Iterate迭代 对话框Cluster membership: 观测量的类别;Distance from cluster center: 各观测量与所属类聚心之间的欧氏距离§10.4 快速聚类法ØSPSS 软件实现Options 选择 对话框Initial cluster centers: 输出初始聚心表,列出每一类中变量均值的初始估计;ANOVA table: 输出方差分析表,这里F检验简单,并没有详细解释检验的各种概率的含义Cluster information for each case:显示每个观测值的聚类信息包括各观测量最终被聚入的类别、各观测量与最终聚心之间的欧氏距离,以及最终各类聚心之间的欧氏距离。
§10.4 快速聚类法ØSPSS 软件实现结果分析-初始聚类中心§10.4 快速聚类法ØSPSS 软件实现结果分析-迭代过程中聚类中心的变化§10.4 快速聚类法表明迭代10次后凝聚点的变化即当初始凝聚点几乎没有变化时,结束迭代过程,迭代次数为10ØSPSS 软件实现结果分析-各观测量所属类§10.4 快速聚类法各观测的所属类Distance表示观测与凝聚点之间的欧氏距离ØSPSS 软件实现结果分析-最终的聚类中心§10.4 快速聚类法ØSPSS 软件实现结果分析-方差分析表§10.4 快速聚类法 从该表中可以看出各变量的类间误差和类内误差原假设是类间无显著性差异,最后一列的概率值表明所选择的分析变量是否能很好地区分类间的差异 由于选择的类使得不同类的观测间的距离达到最大,故这里的F检验只用来做简单检验另外,表中的置信水平并没有因为上面的原因进行修正,因而也不能把检验结果理解为各类均值相等假设检验的结果 由于上述原因,该表仅用于简单描述。
