好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

ClusterAnalysis聚类分析课件实用实用教案.ppt

62页
  • 卖家[上传人]:re****.1
  • 文档编号:571005795
  • 上传时间:2024-08-08
  • 文档格式:PPT
  • 文档大小:1.81MB
  • / 62 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第2讲 聚类分析§2.1 §2.1 聚类分析的基本聚类分析的基本(jīběn)(jīběn)思想思想§2.2 §2.2 相似性的度量相似性的度量(dùliàng)(dùliàng)§2.3 §2.3 类和类的特征类和类的特征(tèzhēng)(tèzhēng)§2.4 §2.4 系统聚类法系统聚类法§2.5 §2.5 非系统聚类法简介非系统聚类法简介第1页/共61页第一页,共62页 ￿§2.1￿聚类分析的基本(jīběn)思想￿1.什么是聚类分析?所谓“类”就是相似元素的集合聚类就是根据研究对象某一方面的相似性将其归类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强或者(huòzhě)使类内对象的同质性最大化和类间对象的异质性最大化2.基本思想根据研究对象的多个观测指标,具体地找出一些能够度量各对象之间相似程度的统计量,然后利用统计量将样品或指标进行归类把相似的样品或指标归为一类,把不相似的归为其他类直到把所有的样品(或指标)聚合完毕.￿第2页/共61页第二页,共62页 §2.1 §2.1 聚类分析的基本聚类分析的基本(jīběn)(jīběn)思想思想3、聚类分析的类型:、聚类分析的类型: 对样品分类,称为对样品分类,称为Q型聚类分析型聚类分析 对变量分类,称为对变量分类,称为R型聚类分析型聚类分析 Q型聚类是使具有相似性特征的样品聚集型聚类是使具有相似性特征的样品聚集(jùjí)在一起,使差异性大的样品分在一起,使差异性大的样品分离开来。

      离开来 R型聚类是使具有相似性的变量聚集型聚类是使具有相似性的变量聚集(jùjí)在一起,差异性大的变量分离开来在一起,差异性大的变量分离开来 R型聚类可在相似变量中选择少数具有代表性的变量参与其他分析,实现减型聚类可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的少变量个数,达到变量降维的目的 第3页/共61页第三页,共62页 §2.2 §2.2 相似性的度量相似性的度量(dùliàng)(dùliàng)一、样本或变量的相似性程度的数量指标:一、样本或变量的相似性程度的数量指标: 1 1、相似系数、相似系数 性质越接近的变量或样品,它们的相性质越接近的变量或样品,它们的相似系数越接近于似系数越接近于1 1或一或一l l,而彼此无关的变量或样品,,而彼此无关的变量或样品,它们的相似系数则越接近于它们的相似系数则越接近于0 0,相似的为一类,不相,相似的为一类,不相似的为不同类;似的为不同类; 2 2、距离、距离 它是将每一个样品看作它是将每一个样品看作p p维空间的一个点,维空间的一个点,并用某种度量方法并用某种度量方法(fāngfǎ)(fāngfǎ)测量点与点之间的距离,测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。

      距离较近的归为一类,距离较远的点应属于不同的类样品分类(样品分类(Q Q型聚类)常以距离刻画相似性型聚类)常以距离刻画相似性变量分类变量分类(R(R型聚类型聚类) )常以相似系数刻画相似性常以相似系数刻画相似性第4页/共61页第四页,共62页 v距离和相似系数有着各种不同的定义,而这些定义距离和相似系数有着各种不同的定义,而这些定义与变量类型有着非常密切的关系与变量类型有着非常密切的关系v变量可分为定性变量和定量变量若按测量尺度的变量可分为定性变量和定量变量若按测量尺度的不同可以分为:不同可以分为:v ((1 1)间隔尺度变量:变量用连续的量来表示,)间隔尺度变量:变量用连续的量来表示,包括包括(bāokuò)(bāokuò)定距和定比尺度,如长度、重量、速定距和定比尺度,如长度、重量、速度、温度等度、温度等v ((2 2)有序尺度变量:变量度量时不用明确的数)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如产品分为一等品、量表示,而是用等级来表示,如产品分为一等品、二等品、三等品等有次序关系二等品、三等品等有次序关系v ((3 3)名义尺度变量:变量用既没有数量关系也)名义尺度变量:变量用既没有数量关系也没有次序关系,只有一些特性状态,如性别、职业、没有次序关系,只有一些特性状态,如性别、职业、产品的型号等。

      产品的型号等v对于间隔尺度变量,聚类时数据单位往往不同,为对于间隔尺度变量,聚类时数据单位往往不同,为为使不同量纲、不同数量级的数据能在一起比较,为使不同量纲、不同数量级的数据能在一起比较,通常需要先进数据变换处理通常需要先进数据变换处理 第5页/共61页第五页,共62页 3.常用的数据变换(biànhuàn)方法 (1) 中心化变换中心化变换(biànhuàn) 变换变换(biànhuàn)后数据的均值为后数据的均值为0,而协差阵不变,而协差阵不变. (2) 标准化变换标准化变换(biànhuàn) 变换变换(biànhuàn)后的数据后的数据,每个变量的样本均值为每个变量的样本均值为0,标标准差为准差为1, 且标准化变换且标准化变换(biànhuàn)后的数据后的数据{x*ij}与变量的量与变量的量纲无关纲无关. (3) 极差标准化变换极差标准化变换(biànhuàn) 变换变换(biànhuàn)后的数据后的数据,每个变量的样本均值为每个变量的样本均值为0,极极差为差为1,变换变换(biànhuàn)后的数据也是无量纲的量后的数据也是无量纲的量.第6页/共61页第六页,共62页。

      (4) 极差正规化变换极差正规化变换(规格化变换规格化变换)变换后的数据变换后的数据0≤ x*ij ≤1;极差为极差为1,也是无量纲的量也是无量纲的量. (5) 对数变换对数变换 可将具有指数可将具有指数(zhǐshù)特征的数据结构化为线性数特征的数据结构化为线性数据结构据结构.第7页/共61页第七页,共62页 二、样品二、样品(yàngpǐn)(yàngpǐn)间相似性的度量:距离间相似性的度量:距离 设有n个样品,每个样品测有p个指标(变量),原始(yuánshǐ)资料阵为:每个样品都可以看成p维空间中的一点,n个样品就是p维空间中的n个点第i个样品与第j个样品之间的距离记为第8页/共61页第八页,共62页 1 1、距离、距离(jùlí)(jùlí)公理:公理:v第i个和第j个样品(yàngpǐn)之间的距离 满足如下四个性质:第9页/共61页第九页,共62页 2 2、常用、常用(chánɡ yònɡ)(chánɡ yònɡ)距离:距离:((1 1)明考夫斯基距离)明考夫斯基距离(Minkowski distance)(Minkowski distance) 明氏距离有三种明氏距离有三种(sān zhǒnɡ)(sān zhǒnɡ)特殊形式:特殊形式: ((1a1a)绝对距离()绝对距离(BlockBlock距离)距离): :当当q=1q=1时时 (1b)欧氏距离(jùlí)(Euclidean distance):当q=2时(1c)切比雪夫距离(jùlí):当 时第10页/共61页第十页,共62页。

      ￿￿￿￿￿缺点缺点:(1) 与各变量的量纲有关与各变量的量纲有关; (2) 没有考虑指标间的相关性没有考虑指标间的相关性; (3) 没有考虑各变量方差的不同没有考虑各变量方差的不同.如欧氏距如欧氏距离离,变差大的变量在距离中的作用变差大的变量在距离中的作用(贡献贡献)就会大就会大,这是不合适的这是不合适的. 合理的方法就是合理的方法就是(jiùshì)对各变量加权对各变量加权,如用如用1/s2 作为权数可得出作为权数可得出“统计距离统计距离”:第11页/共61页第十一页,共62页 v当各变量的单位不同当各变量的单位不同(bù tónɡ)(bù tónɡ)或测量值范围相或测量值范围相差很大时,不应直接采用明氏距离,而应先对各差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数变量的数据作标准化处理,然后用标准化后的数据计算距离常用的标准化处理:据计算距离常用的标准化处理:v 其中其中 为第为第j j个变量的样本均值;个变量的样本均值;v v 为第为第j j个变个变量的样本方差。

      量的样本方差第12页/共61页第十二页,共62页 ((2 2)兰氏距离)兰氏距离(jùlí)(jùlí) 当当 时:时:克服量纲克服量纲(liànɡ ɡānɡ)的影响的影响 未考虑指标未考虑指标(zhǐbiāo)间相关间相关性的影响性的影响适用于变量之间互不相关的情形适用于变量之间互不相关的情形第13页/共61页第十三页,共62页 v((4 4)马氏距离)马氏距离(jùlí)(jùlí)克服量纲克服量纲(liànɡ ɡānɡ)的影响的影响 克服克服(kèfú)指指标间相关性的影标间相关性的影响响缺点:缺点:协方差矩阵协方差矩阵难以确定难以确定第15页/共61页第十五页,共62页 三、变量间相似性的度量三、变量间相似性的度量(dùliàng)(dùliàng):相似系数:相似系数v 相似(xiānɡ sì)系数(或其绝对值)越大,变量之间的相似(xiānɡ sì)性程度越高;反之,越低聚类时,相似(xiānɡ sì)的变量归为一类,不太相似(xiānɡ sì)的变量归为不同的类v 变量 与 的相似(xiānɡ sì)系数用 表示,满足以下三个条件:v 第16页/共61页第十六页,共62页。

      1 1、夹角、夹角(jiā jiǎo)(jiā jiǎo)余弦余弦v 从向量集合的角度所定义的一种测度变量之间亲疏从向量集合的角度所定义的一种测度变量之间亲疏(qīn shū)(qīn shū)程度的相似系程度的相似系数设在n n维空间的向量维空间的向量第17页/共61页第十七页,共62页 2 2、相关系数、相关系数设 和是第 和 个变量(biànliàng)的观测值,则二者之间的相似测度为:相关系数就是相关系数就是(jiùshì)对数据作中心化或标准化对数据作中心化或标准化处理后的夹角余弦处理后的夹角余弦.第18页/共61页第十八页,共62页 至此,我们至此,我们(wǒ men)(wǒ men)可以根据所选择的距离可以根据所选择的距离构成样本点间的距离表:构成样本点间的距离表:…0…0 ┇ ┇ ┇ ┇…0第19页/共61页第十九页,共62页 §2.3￿类和类的特征(tèzhēng)一、类的定义:￿用G表示类,设G中有n个元素,dij表示元素i与j之间的距离类的定义:￿T为一个给定(ɡěi￿dìnɡ)的阈值,若对于任意的i,j∈G,有dij￿≤T,则称G为一个类。

      第20页/共61页第二十页,共62页 二、类的特征:二、类的特征: 设类设类G G中有样品中有样品 n n为为G G内的样品数内的样品数 ((1 1)类均值(或称为)类均值(或称为(chēnɡ wéi)(chēnɡ wéi)重心)重心) ((2 2)离差、协方差矩阵)离差、协方差矩阵 (3)类G的直径(zhíjìng) 第21页/共61页第二十一页,共62页 (4)类的离差平方和 对于聚类前的n个样品,可以(kěyǐ)证明:n个样品总离差平方和=聚成k类后各类内离差平方 之和+类间离差平方和 令T为总离差平方和,Pk为分为K类的类内离差平方之和其中其中(qízhōng) 第22页/共61页第二十二页,共62页 §2.4 §2.4 系统系统(xìtǒng)(xìtǒng)聚类法聚类法一、系统聚类法的基本思想和步骤 1.是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法——事先不用确定分多少类 2.基本思想: 先所有的研究对象各自(gèzì)算作一类,将最“靠近” 的两个类首先聚类,再将这个新类和其余类中最“靠近”的类合并,每次缩小一类,直至所有的对象都合并为一类为止。

      第23页/共61页第二十三页,共62页 系统聚类法的聚类原则决定于样品间的距离系统聚类法的聚类原则决定于样品间的距离( (或相似系数或相似系数) )及类间距离的定义及类间距离的定义, ,类间距离的类间距离的不同定义就产生不同定义就产生(chǎnshēng)(chǎnshēng)了不同的系统聚了不同的系统聚类分析方法类分析方法. .几个记号几个记号: : 用用dijdij表示表示(biǎoshì)(biǎoshì)样品样品X(i)X(i)和和X(j)X(j)之间的之间的距离距离, , 当样品间的亲疏关系采用相似系数当样品间的亲疏关系采用相似系数Cij Cij 时时, , 令令 dij=1-|Cij| ( dij=1-|Cij| (或或 d2ij=1- d2ij=1-C2ij);C2ij); 用用DijDij表示表示(biǎoshì)(biǎoshì)类类GiGi和和GjGj间的距离间的距离. .第24页/共61页第二十四页,共62页 3.3.系统聚类法的基本系统聚类法的基本(jīběn)(jīběn)步骤(以步骤(以Q Q型聚类为例)型聚类为例)第25页/共61页第二十五页,共62页。

      二、最短距离(二、最短距离(Nearest Neighbor)Nearest Neighbor) 1.含义: 类间距离定义(dìngyì)为两类中距离最近样品之间的距离x21•x12•x22•x11•类Gp与类Gq之间的距离(jùlí)Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离(jùlí))第26页/共61页第二十六页,共62页 2.应用(yìngyòng)•对5个样品测量了两个指标(zhǐbiāo),数据如下表:•定义样品间距离为绝对距离,用最短距离法聚类样品1148样品2159样品3104样品481样品562第27页/共61页第二十七页,共62页 根据并类过程(guòchéng)绘制的谱系聚类图 第28页/共61页第二十八页,共62页 三、最长距离(三、最长距离(Furthest Furthest NeighborNeighbor))1.含义(hányì): 定义类间距离为两类中距离最远的样品的距离•••x11•x21••••例题例题(lìtí):数据如:数据如前前第29页/共61页第二十九页,共62页 四、中间四、中间(zhōngjiān)(zhōngjiān)距离法距离法最长距离最短距离中间(zhōngjiān)距离第30页/共61页第三十页,共62页。

      中间(zhōngjiān)距离法的递推公式•若在某步聚类中将类p与q合并为类r,则任一类k与新类r的距离( jùlí):•当β=-0.25时,为三角形中线:第31页/共61页第三十一页,共62页 五、重心五、重心(zhòngxīn)(zhòngxīn)法(法(Centroid clustering):Centroid clustering):含义: 两类间的距离(jùlí)定义为两类重心(均值点)之间的的距离(jùlí)••例题例题(lìtí):数据:数据如前如前第32页/共61页第三十二页,共62页 v样品(yàngpǐn)间距离为欧氏距离时的递推公式GrGt第33页/共61页第三十三页,共62页 重心法虽有较好的代表性重心法虽有较好的代表性, ,但并未充分利用各但并未充分利用各个样品的信息个样品的信息. .比如下面两组类按重心法类间比如下面两组类按重心法类间距离距离(jùlí)(jùlí)相等相等, ,这是不合理的这是不合理的. .第34页/共61页第三十四页,共62页 六、类平均法(Between-group￿Linkage)含义:类间距离为所有样品含义:类间距离为所有样品(yàngpǐn)(yàngpǐn)对间的平均距离。

      对间的平均距离••••••v利用了所有样品(yàngpǐn)对距离的信息第35页/共61页第三十五页,共62页 类与类之间的距离平方为两类样品类与类之间的距离平方为两类样品(yàngpǐn)(yàngpǐn)两两之间的距离平方的平均两两之间的距离平方的平均, ,即即类平均法的类间距离(jùlí):合并合并(hébìng)(hébìng)新类的距离递推公式:新类的距离递推公式: 设某一步将设某一步将GpGp和和GqGq合并合并(hébìng)(hébìng)成成Gr,Gr,它们所包含它们所包含的样品个数分别为的样品个数分别为np ,nqnp ,nq和和nr(nr=np+nq).Grnr(nr=np+nq).Gr与其他类与其他类GkGk的类间距离的递推公式为的类间距离的递推公式为第36页/共61页第三十六页,共62页 七七. .离差平方和法离差平方和法 ( (Ward’s method￿) )v类似(lèi￿sì)于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大￿其中 是由Gp和Gq合并成的Gr类的类内离差平方和。

      可以(kěyǐ)证明离差平方和法的类间递推公式为例题例题(lìtí):数据如:数据如前前第37页/共61页第三十七页,共62页 八、系统(xìtǒng)聚类法的软件实现——SPSS以教材以教材8888页例题页例题1 1为例,为例,SPSSSPSS处理:处理: 1 1、、AnalyzeAnalyze--ClassifyClassify--Hierarchical ClusterHierarchical Cluster 2 2、把、把dxbzdxbz、、czbzczbz、、wmbzwmbz选入选入VariablesVariables 3 3、若对样品聚类(、若对样品聚类(Q Q型聚类):在型聚类):在ClusterCluster选选CasesCases;; 若对变量聚类(若对变量聚类(R R型聚类)则在型聚类)则在ClusterCluster选选VariablesVariables 4 4、选、选PlotsPlots,再点,再点DendrogramDendrogram,则画出树状图;,则画出树状图; 若点若点IcicleIcicle,则画出冰挂图,则画出冰挂图(guàtú)(guàtú),其中,其中OrientationOrientation中中((VerticalVertical为纵向冰挂图为纵向冰挂图(guàtú)(guàtú);;HorizontalHorizontal为横向冰为横向冰挂图挂图(guàtú)(guàtú))。

      …….. ……..第38页/共61页第三十八页,共62页 九、 系统(xìtǒng)聚类法的基本性质 (一) 单调性 在聚类分析过程中,并类距离分别为l k(k=1,2,3,…)若满足(mǎnzú) ,则称该聚类方法具有单调性可以证明除了重心法和中间距离法之外,其他的系统聚类法均满足(mǎnzú)单调性的条件二)空间(kōngjiān)的浓缩和扩张 1、定义矩阵的大小 设同阶矩阵D(A)和D(B),如果D(A)的每一个元素 小于D(B)的每一个元素,则记为 第39页/共61页第三十九页,共62页 ￿￿￿2、空间的浓缩和扩张￿￿￿￿￿￿￿￿￿设有两种系统聚类法A和B,他们在第i步的距离(jùlí)矩阵分别为Ai和Bi(I=1,2,3…),若Ai>Bi￿,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩 3、方法(fāngfǎ)的比较 D(短) D(平),D(重) D(平); D(长) D(平); 当 ,D(变平) D(平); 当 ,D(变平) D(平)。

      第40页/共61页第四十页,共62页 1. 1.由适当的阈值确定由适当的阈值确定 介绍系统聚类法的基本步骤时介绍系统聚类法的基本步骤时, ,由谱系聚类图及临界值由谱系聚类图及临界值, ,即可给出即可给出分类结果分类结果. . 2. 2.根据根据(gēnjù)(gēnjù)数据点的散布图直观地确定类的个数数据点的散布图直观地确定类的个数 3. 3.根据根据(gēnjù)(gēnjù)谱系图确定分类个数的准则谱系图确定分类个数的准则 4. 4.根据根据(gēnjù)(gēnjù)统计量确定分类个数统计量确定分类个数十、确定类个数的几种常见(chánɡ￿jiàn)方法:第41页/共61页第四十一页,共62页 黛米尔曼(黛米尔曼(Demirmen,1972)Demirmen,1972)提出依据树状结构图分类提出依据树状结构图分类(fēn lèi)(fēn lèi)的准的准则:则:第42页/共61页第四十二页,共62页 由由 Rk2的定义的定义 可知可知(kě zhī) , Rk2值越大,也就是值越大,也就是Pk/T越小,表示越小,表示k个类内离差平方和之和个类内离差平方和之和Pk在总离差在总离差平方和平方和T中占的比例越小中占的比例越小,这说明这说明k个类区分得越开个类区分得越开. Rk2的值总是在的值总是在0和和1之间,而且之间,而且Rk2的值总是随着分的值总是随着分类个数类个数k的减少而变小的减少而变小十一、聚类效果(xiàoguǒ)(xiàoguǒ)评价统计量所以我们只能取合适的K,使得R2足够大,而K本身(běnshēn)较小,且随着K的增加, R2的增幅不大。

      1、Rk2统计量第43页/共61页第四十三页,共62页 用于评价聚为K个类的效果(xiàoguǒ)如果聚类的效果(xiàoguǒ)好,类间的离差平方和相对于类内的离差平方和应比较大,所以应该取伪F统计量较大而类数较小的聚类水平 2.伪F统计(tǒngjì)量第44页/共61页第四十四页,共62页 其中WK和WL分别是类K、L的类内离差平方和,BKL是将K和L合并为第M类所增加离差平方和 BKL = WM - WK - WL 为合并导致的类内离差平方和的增量用它评价合并第K和L类的效果,伪 统计量大说明(shuōmíng)不应该合并这两类,应该取合并前的水平3.伪 统计(tǒngjì)量第45页/共61页第四十五页,共62页 §2.5 §2.5 非系统非系统(xìtǒng)(xìtǒng)聚类法简介聚类法简介v动态聚类法动态聚类法: :也叫做逐步聚类法、也叫做逐步聚类法、k-k-均值均值(jūn zhí)(jūn zhí)聚类法、或快聚类法、或快速聚类法速聚类法————事先要确定分多少类事先要确定分多少类第46页/共61页第四十六页,共62页 选择(xuǎnzé)凝聚点分 类修 改(xiūgǎi)分类分类(fēn lèi)是否合理分类结束YesNo第47页/共61页第四十七页,共62页。

      用一个简单的例子来说明动态聚类法的工作过程例如(lìrú)我们要把图中的点分成两类快速聚类的步骤: 1、随机选取两个点 和 作为聚核 2、对于任何点 ,分别计算 3、若 ,则将 划为第一类,否则划给第二类于是得图(c)的两个类 4、分别计算两个类的重心,则得 和 ,以其为新的聚核,对空间(kōngjiān)中的点进行重新分类,得到新分类第48页/共61页第四十八页,共62页 (a)空间(kōngjiān)的群点 (b) 任取两个聚核 (c) 第一次分类(fēn lèi) (d) 求各类中心第49页/共61页第四十九页,共62页 (e) 第二次分类(fēn lèi)第50页/共61页第五十页,共62页 •如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。

      •下面用一个例子下面用一个例子(lì zi)(lì zi)来做来做k-k-均值聚类均值聚类第51页/共61页第五十一页,共62页 •【例】假定( jiǎdìng)我们对A、B、C、D四个样品分别测量两个变量和得到结果见下表•试将以上的样品聚成两类￿第52页/共61页第五十二页,共62页 第一步:按要求取K=2,为了实施K均值法聚类,我们(wǒ￿men)将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标,见下表所示表中的中心坐标是通过原始数据计算得来的,比如(A、￿￿￿B)类的,￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿等等第53页/共61页第五十三页,共62页 第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类对于样品有变动的类,重新(chóngxīn)计算它们的中心坐标,为下一步聚类做准备先计算A到两个类的平方距离:由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新(chóngxīn)分配计算B到两类的平方距离:第54页/共61页第五十四页,共62页 •由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配(fēnpèi)给(C、D)类,得到新的聚类是(A)和(B、C、D)。

      更新中心坐标如下表所示第55页/共61页第五十五页,共62页 ￿￿￿￿￿第三步:再次检查每个样品,以决定是否需要重新分类计算各样品到各中心的距离平方,得结果见下表到现在为止,每个样品都已经(yǐ￿jing)分配给距离中心最近的类,因此聚类过程到此结束最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类表 样品(yàngpǐn)聚类结果第56页/共61页第五十六页,共62页 K-K-均值聚类均值聚类SPSSSPSS处理处理(chǔlǐ)(chǔlǐ):: 1 1、、AnalyzeAnalyze--ClassifyClassify--K-Menas ClusterK-Menas Cluster 2 2、、VariablesVariables:: 3 3、、Number of ClustersNumber of Clusters处选择处选择3 3(想要分的类数)(想要分的类数) 4 4、如果想要知道每个样品分到哪类,则选、如果想要知道每个样品分到哪类,则选SaveSave,再选,再选Cluster MembershipCluster Membership等等注意:注意: k- k-均值聚类只能做均值聚类只能做Q Q型聚类,如要做型聚类,如要做R R型聚类,需要把数型聚类,需要把数据阵进行转置。

      据阵进行转置第57页/共61页第五十七页,共62页 聚类分析步骤聚类分析步骤(bùzhòu):: 确定(quèdìng)待研究的问题 选择聚类用的距离(jùlí)或相似系数 选择聚类方法 确定类别的个数 评估聚类分析的效果 解释聚类分析的结果1.先确定待研究的问题和待分类的对象 1.所选的方法与所选的距离是有关的 2.小样本与大样本3.两者的串联使用1.样品聚类时多采用距离统计量 2.变量聚类时多采用相似系数统计量 3.不同度量单位的影响 透过比较各类别的中心,来识别各个类别的意义,从而给各个类别命名 1.相关的理论或实践上的需要 2.系统聚类法 3.非系统聚类法 第58页/共61页第五十八页,共62页 人有了知识,就会具备各种分析能力,明辨是非的能力所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋通过阅读科技书籍,我们能丰富知识,培养(péiyǎng)逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养(péiyǎng)文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面有许多书籍还能培养(péiyǎng)我们的道德情操,给我们巨大的精神力量,鼓舞我们前进第59页/共61页第五十九页,共62页。

      第60页/共61页第六十页,共62页 感谢您的欣赏(xīnshǎng)!第61页/共61页第六十一页,共62页 内容(nèiróng)总结第2讲 聚类分析1b)欧氏距离(Euclidean distance):当q=2时若在某步聚类中将类p与q合并(hébìng)为类r,则任一类k与新类r的距离:八、系统聚类法的软件实现——SPSS1、Analyze-Classify-Hierarchical Cluster——事先要确定分多少类计算各样品到各中心的距离平方,得结果见下表1、Analyze-Classify-K-Menas Cluster第六十二页,共62页。

      点击阅读更多内容
      相关文档
      【全国硕士研究生入学统一考试政治】2020年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2015年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2010年考研政治真题.docx 【全国硕士研究生入学统一考试政治】1996年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2001年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2016年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2000年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】1997年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2007年考研政治真题.doc 【全国硕士研究生入学统一考试政治】1997年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2004年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2003年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2019年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2009年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2001年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2021年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2014年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2018年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2008年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2011年考研政治真题.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.