
第十一章多元统计分析.ppt
68页第十一章第十一章 多元统计分析多元统计分析1 什么是多元统计分析?什么是多元统计分析? 能够分析能够分析多个指标多个指标、、多个变量多个变量集合集合之间关系以及这些变量个体之间关之间关系以及这些变量个体之间关系的统计方法系的统计方法2可归结为两类问题:可归结为两类问题:1)解决研究对象的)解决研究对象的归属归属问题问题 聚类聚类分析、分析、判别判别分析分析2))降低降低变量变量维数维数、变量、变量独立性独立性 主成分主成分分析、分析、因子因子分析、分析、典型相关典型相关分析分析3第一节第一节 聚聚 类类 分分 析析4线粒体夏娃学说出自线粒体夏娃学说出自线粒体夏娃学说出自线粒体夏娃学说出自2 2个实验室的研究成果,即个实验室的研究成果,即个实验室的研究成果,即个实验室的研究成果,即埃摩埃摩埃摩埃摩里大学的道格拉斯里大学的道格拉斯里大学的道格拉斯里大学的道格拉斯· ·华莱士华莱士华莱士华莱士((((Douglas WallaceDouglas Wallace)和)和)和)和他的同事的实验室和他的同事的实验室和他的同事的实验室和他的同事的实验室和伯克利加利福尼亚大学的阿伦伯克利加利福尼亚大学的阿伦伯克利加利福尼亚大学的阿伦伯克利加利福尼亚大学的阿伦· ·威尔逊威尔逊威尔逊威尔逊((((Allan WilsonAllan Wilson)和他的同事的实验室,他们)和他的同事的实验室,他们)和他的同事的实验室,他们)和他的同事的实验室,他们仔细检查细胞内叫做线粒体的细小器官中的遗传物质仔细检查细胞内叫做线粒体的细小器官中的遗传物质仔细检查细胞内叫做线粒体的细小器官中的遗传物质仔细检查细胞内叫做线粒体的细小器官中的遗传物质脱氧核糖核酸(脱氧核糖核酸(脱氧核糖核酸(脱氧核糖核酸(DNADNA)。
当人类新的胚胎形成,胚胎)当人类新的胚胎形成,胚胎)当人类新的胚胎形成,胚胎)当人类新的胚胎形成,胚胎细胞的线粒体细胞的线粒体细胞的线粒体细胞的线粒体只只只只来自卵子,因此来自卵子,因此来自卵子,因此来自卵子,因此线粒体线粒体DNA只由母只由母系遗传系遗传夏娃学说夏娃学说5由于一些技术上的原因,线粒体由于一些技术上的原因,线粒体由于一些技术上的原因,线粒体由于一些技术上的原因,线粒体DNADNA特别适合经过特别适合经过特别适合经过特别适合经过一代代的追溯去探究进化的过程一代代的追溯去探究进化的过程一代代的追溯去探究进化的过程一代代的追溯去探究进化的过程由于由于由于由于DNADNA是通过母系遗传的,因而追溯过程最后会是通过母系遗传的,因而追溯过程最后会是通过母系遗传的,因而追溯过程最后会是通过母系遗传的,因而追溯过程最后会导向一位单一的女性祖先按照分析的结果,导向一位单一的女性祖先按照分析的结果,导向一位单一的女性祖先按照分析的结果,导向一位单一的女性祖先按照分析的结果,现代现代人可以追溯其祖先到大概人可以追溯其祖先到大概15万年前住在非洲万年前住在非洲的一个女人的一个女人 6 「夏娃学说」引起了许多争议,但是随著遗传学技「夏娃学说」引起了许多争议,但是随著遗传学技「夏娃学说」引起了许多争议,但是随著遗传学技「夏娃学说」引起了许多争议,但是随著遗传学技术的不断成熟,这些争议陆陆续续地尘埃落定。
运术的不断成熟,这些争议陆陆续续地尘埃落定运术的不断成熟,这些争议陆陆续续地尘埃落定运术的不断成熟,这些争议陆陆续续地尘埃落定运用遗传学技术研究人类群体的进化,就是利用一些用遗传学技术研究人类群体的进化,就是利用一些用遗传学技术研究人类群体的进化,就是利用一些用遗传学技术研究人类群体的进化,就是利用一些遗传标记遗传标记遗传标记遗传标记来追溯人类群体起源迁移事件发生的大致来追溯人类群体起源迁移事件发生的大致来追溯人类群体起源迁移事件发生的大致来追溯人类群体起源迁移事件发生的大致时间及路线时间及路线时间及路线时间及路线7 目前研究早期人类进化和迁移最理想的遗传标记,目前研究早期人类进化和迁移最理想的遗传标记,目前研究早期人类进化和迁移最理想的遗传标记,目前研究早期人类进化和迁移最理想的遗传标记,公认是公认是公认是公认是Y染色体拟常染色体非重组区段的染色体拟常染色体非重组区段的SNP标记标记((((NRYNRY) 这是由于人体内只存在一份父系遗传这是由于人体内只存在一份父系遗传这是由于人体内只存在一份父系遗传这是由于人体内只存在一份父系遗传Y Y染色体非重染色体非重染色体非重染色体非重组区,可以有效地组区,可以有效地组区,可以有效地组区,可以有效地排除交换重组的混血干扰排除交换重组的混血干扰排除交换重组的混血干扰排除交换重组的混血干扰;同时;同时;同时;同时SNPSNP突变率低突变率低突变率低突变率低更能更能更能更能稳定地遗传稳定地遗传稳定地遗传稳定地遗传,可以忠实地记录进,可以忠实地记录进,可以忠实地记录进,可以忠实地记录进化事件;再由于以单倍体存在的化事件;再由于以单倍体存在的化事件;再由于以单倍体存在的化事件;再由于以单倍体存在的Y Y染色体,其有效染色体,其有效染色体,其有效染色体,其有效群体大小只有常染色体位点的群体大小只有常染色体位点的群体大小只有常染色体位点的群体大小只有常染色体位点的1/41/4,所以,所以,所以,所以易产生人群易产生人群易产生人群易产生人群特异性的单倍型特异性的单倍型特异性的单倍型特异性的单倍型。
8 20012001年年年年斯坦福大学的昂德希尔斯坦福大学的昂德希尔斯坦福大学的昂德希尔斯坦福大学的昂德希尔((((Peter A. UnderhillPeter A. Underhill))))等人利用变性高效液相层析技术(等人利用变性高效液相层析技术(等人利用变性高效液相层析技术(等人利用变性高效液相层析技术(DHPLCDHPLC),分析),分析),分析),分析得到了得到了得到了得到了218218个个个个 Y Y染色体非重组区(染色体非重组区(染色体非重组区(染色体非重组区(NRYNRY)位点)位点)位点)位点构成的构成的构成的构成的131131个单倍型,在对全球个单倍型,在对全球个单倍型,在对全球个单倍型,在对全球1,0621,062个代表性个体考察结果个代表性个体考察结果个代表性个体考察结果个代表性个体考察结果显示明显的群体亲缘关系显示明显的群体亲缘关系显示明显的群体亲缘关系显示明显的群体亲缘关系 这是目前遗传学技术发展的可用於人类进化和起源研这是目前遗传学技术发展的可用於人类进化和起源研这是目前遗传学技术发展的可用於人类进化和起源研这是目前遗传学技术发展的可用於人类进化和起源研究最多的遗传标记,通过对这究最多的遗传标记,通过对这究最多的遗传标记,通过对这究最多的遗传标记,通过对这218218个个个个NRYNRY在全世界各在全世界各在全世界各在全世界各地区代表群体中多态性分布清晰展示了现代人类的种地区代表群体中多态性分布清晰展示了现代人类的种地区代表群体中多态性分布清晰展示了现代人类的种地区代表群体中多态性分布清晰展示了现代人类的种群大致群大致群大致群大致聚类树聚类树聚类树聚类树。
9Y染色体非重组区单倍型系统树染色体非重组区单倍型系统树2001,,Stanford University,,Peter A. Underhill 10 很显然,最早的分支都发生在非洲人群中,而後再很显然,最早的分支都发生在非洲人群中,而後再很显然,最早的分支都发生在非洲人群中,而後再很显然,最早的分支都发生在非洲人群中,而後再分出欧洲和亚洲美洲和澳洲的分化都发生在亚洲分出欧洲和亚洲美洲和澳洲的分化都发生在亚洲分出欧洲和亚洲美洲和澳洲的分化都发生在亚洲分出欧洲和亚洲美洲和澳洲的分化都发生在亚洲的分化之下这说明人类从非洲人群分出欧洲和亚的分化之下这说明人类从非洲人群分出欧洲和亚的分化之下这说明人类从非洲人群分出欧洲和亚的分化之下这说明人类从非洲人群分出欧洲和亚洲人群,美洲和澳洲人群又起源於亚洲人群洲人群,美洲和澳洲人群又起源於亚洲人群洲人群,美洲和澳洲人群又起源於亚洲人群洲人群,美洲和澳洲人群又起源於亚洲人群 这就是与「夏娃学说」相印证的「这就是与「夏娃学说」相印证的「这就是与「夏娃学说」相印证的「这就是与「夏娃学说」相印证的「亚当学说亚当学说亚当学说亚当学说」。
根」根据突变的速率计算出来的非洲人群分化出欧亚人群据突变的速率计算出来的非洲人群分化出欧亚人群据突变的速率计算出来的非洲人群分化出欧亚人群据突变的速率计算出来的非洲人群分化出欧亚人群的大致时间是十多万年的大致时间是十多万年的大致时间是十多万年的大致时间是十多万年 11p个特征(指标、变量)个特征(指标、变量) n个个样样本本样本相似矩阵样本相似矩阵特征相似矩阵特征相似矩阵§1、样本表示与相似性系数、样本表示与相似性系数Q Q矩阵矩阵矩阵矩阵→→Q Q型聚类型聚类型聚类型聚类R R矩阵矩阵矩阵矩阵→→R R型聚类型聚类型聚类型聚类12如何计算相似矩阵的矩阵元?如何计算相似矩阵的矩阵元?对于样本中的两个同维向量:对于样本中的两个同维向量:13 1 、数据的变换处理、数据的变换处理 所谓数据变换,就是将所谓数据变换,就是将原始原始数据矩阵中的数据矩阵中的每个元素,按照每个元素,按照某种特定的运算某种特定的运算把它把它变成变成为为一个一个新值新值,而且数值的变化不依赖于原始数,而且数值的变化不依赖于原始数据集合中其它数据的新值据集合中其它数据的新值 14(1) 中心化变换中心化变换中中心心化化变变换换是是一一种种坐坐标标轴轴平平移移处处理理方方法法,,每每列列数数据据之之和和为为0,,这这是是一一种种很很方方便便地地计计算算方方差差与与协协方差的变换。
方差的变换15((2)极差规格化变换)极差规格化变换经经过过规规格格化化变变换换后后,,数数据据矩矩阵阵中中每每列列即即每每个个变变量量的的最最大大数数值值为为1,,最最小小数数值值为为0,,其其余余数数据据取取值值均均在在0~1之之间间;;并并且且变变换换后后的的数数据据都都不不再再具具有有量量纲纲,,便便于于不不同同的的变量之间的比较变量之间的比较16((3)标准化变换)标准化变换经经过过标标准准化化变变换换处处理理后后,,每每个个变变量量即即数数据据矩矩阵阵中中每每列列数数据据的的平平均均值值为为0,,方方差差为为1,,且且也也不不再再具具有有量量纲纲,,同样也便于不同变量之间的比较同样也便于不同变量之间的比较17 ((4)对数变换)对数变换 对对数数变变换换是是将将各各个个原原始始数数据据取取对对数数,,将将原原始始数数据的对数值作为变换后的新值即:据的对数值作为变换后的新值即: ((5)指数变换)指数变换 18用来衡量样本间(或特征间)相似性关系的用来衡量样本间(或特征间)相似性关系的两种系数:两种系数: 1)) 相似系数相似系数 2)) 相异系数相异系数191)相似系数)相似系数相似系数相似系数:衡量全部样本或全部变量中任何:衡量全部样本或全部变量中任何两部分相似程度的指标。
两部分相似程度的指标 性质越性质越接近接近的变量或样品,它们的相似系数的变量或样品,它们的相似系数越接近于越接近于1或或 –l ;而彼此;而彼此无关无关的变量或样品的变量或样品它们的相似系数则越接近于它们的相似系数则越接近于0,,相似相似的为的为一类一类,,不相似不相似的为的为不同类不同类20((1)内积系数:)内积系数:适用范围:适用范围: 量纲相同量纲相同 数据相差不大数据相差不大21结论:夹角越小,结论:夹角越小,cosα的值越接近的值越接近1,两向量越相似两向量越相似2)夹角余弦:)夹角余弦:22(3) 方差方差-协方差协方差((variance-covariance)对原始资料进行标准化:对原始资料进行标准化:对原始资料进行标准化:对原始资料进行标准化:对内积的中心化处理对内积的中心化处理对内积的中心化处理对内积的中心化处理23((4)相关系数)相关系数 ((correlation coefficient) 是离差标准化后,两向量的内积是离差标准化后,两向量的内积是离差标准化后,两向量的内积是离差标准化后,两向量的内积思考:思考:思考:思考:夹角夹角夹角夹角coscos与相关系数的关系?与相关系数的关系?与相关系数的关系?与相关系数的关系?24((5)指数相似系数:)指数相似系数:为第为第k个变量的方差个变量的方差 指数相似系数消除了不同变量的指数相似系数消除了不同变量的单位不同单位不同的影响,的影响,也消除了不同变量的也消除了不同变量的自身变异不同自身变异不同的影响。
的影响 25相似系数性质:相似系数性质:⑴⑴⑴⑴ 当且仅当当且仅当当且仅当当且仅当X Xi i====aXaXj j 时时时时,,,,c cij ij====1 1,其中,其中,其中,其中X Xi i 和和和和X Xj j 分别是分别是分别是分别是第第第第 i i 样本和第样本和第样本和第样本和第 j j 样本的观察值向量,样本的观察值向量,样本的观察值向量,样本的观察值向量,a a≠0≠0为常数为常数为常数为常数;;;; ⑵⑵⑵⑵ 对于一切对于一切对于一切对于一切 X Xi i 和和和和 X Xj j ,,,,| | c cij ij |≤1 |≤1;;;; ⑶⑶⑶⑶ 对于一切对于一切对于一切对于一切X Xi i和和和和X Xj j,,,,c cij ij====c cji ji26 相相异异系系数数::衡衡量量全全部部样样本本或或全全部部变变量量中中任任何两部分相异程度的指标何两部分相异程度的指标 将将每每一一个个样样本本看看作作 p 维维空空间间的的一一个个点点,,并并用用某某种种度度量量测测量量点点与与点点之之间间的的距距离离,,距距离离较较近近的的归归为为一一类类,,距距离离较较远远的的点点应应属属于于不不同的类同的类。
2)相异系数(距离系数))相异系数(距离系数)27样本样本样本样本 和和和和明氏距离为:明氏距离为:明氏距离为:明氏距离为:g = 1,绝对值距离,绝对值距离g = 2,欧氏距离,欧氏距离g = ∞,,切比雪夫切比雪夫距离距离(1) 明氏距离明氏距离(Minkowski明考夫斯基明考夫斯基明考夫斯基明考夫斯基distance)28 缺点:缺点: ①①明氏距离的值明氏距离的值与各指标与各指标的的量纲有关量纲有关:: 各各各各变变变变量量量量计计计计量量量量单单单单位位位位的的的的不不不不同同同同使使使使此此此此距距距距离离离离的的的的实实实实际际际际意意意意义义义义难难难难以以以以说清,距离的数值依赖于各变量计量单位的选择说清,距离的数值依赖于各变量计量单位的选择说清,距离的数值依赖于各变量计量单位的选择说清,距离的数值依赖于各变量计量单位的选择 ②②没考虑没考虑各个变量之间的各个变量之间的相关性相关性和和重要性重要性:: 明明明明考考考考夫夫夫夫斯斯斯斯基基基基距距距距离离离离是是是是把把把把各各各各个个个个变变变变量量量量都都都都等等等等同同同同看看看看待待待待,,,,将将将将两两两两个样品在各个变量上的离差简单地进行了综合。
个样品在各个变量上的离差简单地进行了综合个样品在各个变量上的离差简单地进行了综合个样品在各个变量上的离差简单地进行了综合29(2)杰氏距离杰氏距离 这这是是杰杰斐斐瑞瑞和和马马突突斯斯塔塔(Jffreys & Matusita)定定义义的的一种距离:一种距离:30(3)兰氏距离兰氏距离 这这是是兰兰思思和和维维廉廉姆姆斯斯(Lance & Williams)所所给给定定的的一一种距离:种距离: 这这是是一一个个自自身身标标准准化化的的量量,,由由于于它它对对大大的的奇奇异异值值不不敏敏感感,,这这样样使使得得它它特特别别适适合合于于高高度度偏偏倚倚的的数数据据没没有有考虑考虑指标之间的指标之间的相关性相关性31 (4)马氏距离马氏距离((又称为广义欧氏距离又称为广义欧氏距离)) 这这这这 是是是是 印印印印 度度度度 著著著著 名名名名 统统统统 计计计计 学学学学 家家家家 马马马马 哈哈哈哈 拉拉拉拉 诺诺诺诺 比比比比 斯斯斯斯 (P.C. (P.C. Mahalanobis)Mahalanobis)所定义的一种距离,其计算公式为:所定义的一种距离,其计算公式为:所定义的一种距离,其计算公式为:所定义的一种距离,其计算公式为:这里这里在实践应用中,若总体协方差矩阵未知,则可用样在实践应用中,若总体协方差矩阵未知,则可用样本协方差矩阵作为估计代替计算。
本协方差矩阵作为估计代替计算32优点优点:: ①①考虑了考虑了观测变量之间的观测变量之间的相关性相关性②②消除了消除了各个观测指标各个观测指标不同量纲的影响不同量纲的影响 注意注意:: ①①如如果果各各变变量量之之间间相相互互独独立立,,观观测测变变量量的的协协方方差差矩矩阵是对角矩阵阵是对角矩阵 ②②在在聚聚类类时时用用各各个个类类的的样样本本来来计计算算各各自自的的协协方方差差矩矩阵33((5)斜交空间距离)斜交空间距离 由于各变量之间往往存在相关性,用由于各变量之间往往存在相关性,用由于各变量之间往往存在相关性,用由于各变量之间往往存在相关性,用正交空间的正交空间的正交空间的正交空间的距离距离距离距离来计算样本间的距离来计算样本间的距离来计算样本间的距离来计算样本间的距离易变形易变形易变形易变形,所以可以采用斜交,所以可以采用斜交,所以可以采用斜交,所以可以采用斜交空间距离:空间距离:空间距离:空间距离: 当各变量之间当各变量之间当各变量之间当各变量之间不相关不相关不相关不相关时,斜交空间时,斜交空间时,斜交空间时,斜交空间退化为欧氏距退化为欧氏距退化为欧氏距退化为欧氏距离离离离。
r rlklk 是是是是数据标准化数据标准化数据标准化数据标准化下样本下样本下样本下样本l l与与与与k k的的的的相关系数相关系数相关系数相关系数34((6))Orloci距离距离这里这里 和和 分别是第分别是第 i 样本和第样本和第 j 样本向量的模样本向量的模 35((7)发散性系数)发散性系数36((8)堪培拉距离)堪培拉距离z为两事例同一变量的观察值都是为两事例同一变量的观察值都是0的变量数的变量数 37((9)不匹配百分率)不匹配百分率p1:两样本的观察值相同的变量数两样本的观察值相同的变量数p2:两事例的观察值不同的变量数两事例的观察值不同的变量数p1++p2==p:变量总数变量总数不匹配系数:两事例观察值不同的变量占总变量数不匹配系数:两事例观察值不同的变量占总变量数的比重一般用于指标变量一般用于指标变量 38性质性质::39§2、聚类分析、聚类分析 根根据据一一批批样样品品的的许许多多观观测测指指标标,,按按照照一一定定的的数数学学公公式式具具体体地地计计算算一一些些样样品品或或一一些些参参数数((指指标标))的的相相似似程程度度,,把把相相似似的的样样品或指标品或指标归为一类归为一类。
401 1、、、、规规规规定定定定样样样样品品品品之之之之间间间间的的的的距距距距离离离离d dij ij,,,,共共共共有有有有 个个个个将将将将列列列列表表表表 记为记为记为记为 D D(0)(0) 表,该表是一张表,该表是一张表,该表是一张表,该表是一张对称表对称表对称表对称表2、选择、选择 D(0) 表中表中最小最小的的非零数非零数,不妨假设,不妨假设dpq,, 于是将于是将Gp和和Gq合并为合并为一类一类,记,记Gr={Gp , Gq} 3、利用、利用递推公式递推公式计算计算新类新类与与其它类其它类之间的之间的距离距离 分别分别删除删除D(0)表表的的第第p,,q行行和和第第p,,q列列,并,并 新增一行新增一行和和一列一列添上的结果,添上的结果,产生产生D(1)表表一)聚类方法一)聚类方法410 00 00 0D(0) 表表42 1、最长距离法、最长距离法• ••x11•x21••••((二)常用的聚类方法二)常用的聚类方法43采用绝对距离计算距离矩阵:采用绝对距离计算距离矩阵: 0 10 2.51.50 653.50 875.520 【【例例】】 设抽取五个样品,每个样品只有设抽取五个样品,每个样品只有一个变量,它们是一个变量,它们是1,,2,,3.5,,7,,9。
44 0 2.50 63.50 85.520 0 10 2.51.50 653.50 875.520G G6 6与与与与G G3 3,,,,G G4 4和和和和G G5 5的距离如何计算?的距离如何计算?的距离如何计算?的距离如何计算?d(6,3)=max{d(1,3),d(2,3)}=2.5450 02.52.50 08 85.55.50 0 0 2.50 63.50 85.5200 08 80 04647 2、类平均法、类平均法两类间样品的绝对距离的平均数两类间样品的绝对距离的平均数两类间样品的平方距离的平均数两类间样品的平方距离的平均数• ••x11•x21••••48【【例例】】::采用绝对距离平均计算距离矩阵:采用绝对距离平均计算距离矩阵:d=e=10/2=549c=19/2=9.5g=c-d=9.5-5=4.5Distance(C,DE)=(18+20)/2=1950a=b=22/2=11A AB B(CDE)(CDE)A A- -222239.539.5B B- -- -41.541.5(CDE)(CDE)- -- -- -51A AB B(CDE)(CDE)A A- -222239.539.5B B- -- -41.541.5(CDE)(CDE)- -- -- -(AB)(AB)(CDE)(CDE)(AB)(AB)- -40.540.5(CDE)(CDE)- -- -52f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75a=b=22/2=11c=19/2=9.5g=c-d=9.5-5=4.553 0 10 6.252.250 362512.250 644930.2540【【例例】】::采用平方距离平均计算距离矩阵:采用平方距离平均计算距离矩阵:54 0 4.250 30.512.250 56.530.2540 0 10 6.252.250 362512.250 644930.2540(6.25+2.25)/2(36+25)/2(64+49)/2550 04.254.250 043.543.521.2521.250 0 0 4.250 30.512.250 56.530.2540(12.25+30.25)/2(30.5+56.5)/2563、重心法、重心法574、、 最短距离法最短距离法585、离差平方和法、离差平方和法 59以上聚类方法的计算步骤完全相同,仅类与类之间的距以上聚类方法的计算步骤完全相同,仅类与类之间的距离定义不同。
离定义不同Lance和和Williams于于1967年将其统一为:年将其统一为:60 (三)(三)聚类方法选择聚类方法选择 最短距离法最短距离法比较比较简单简单,使用较多,但该方法使,使用较多,但该方法使得得空间收缩空间收缩 最长距离法最长距离法与最短距离法正好相反,合并后产与最短距离法正好相反,合并后产生生空间扩张空间扩张 重心法重心法较好,但计算较好,但计算繁琐繁琐,且,且没有充分利用样没有充分利用样本信息本信息 最常用最常用类平均法类平均法 61 (四)(四)系统聚类的主要步骤系统聚类的主要步骤 1、选择变量、选择变量 ((((1 1)和聚类分析的)和聚类分析的)和聚类分析的)和聚类分析的目的目的目的目的密切相关密切相关密切相关密切相关 ((((2 2)反映要分类变量的)反映要分类变量的)反映要分类变量的)反映要分类变量的特征特征特征特征 ((((3 3)在不同研究对象上的值有)在不同研究对象上的值有)在不同研究对象上的值有)在不同研究对象上的值有明显明显明显明显的的的的差异差异差异差异 ((((4 4)变量之间)变量之间)变量之间)变量之间不能不能不能不能高度高度高度高度相关相关相关相关62 2、计算相似性、计算相似性 相似性是聚类分析中的基本概念,他反相似性是聚类分析中的基本概念,他反映了研究对象之间的亲疏程度,聚类分析就映了研究对象之间的亲疏程度,聚类分析就是是根据对象之间的相似性来分类根据对象之间的相似性来分类的。
的63 3、聚类、聚类 选定选定选定选定了聚类的了聚类的了聚类的了聚类的变量变量变量变量,,,,计算计算计算计算出样品或指标之间的出样品或指标之间的出样品或指标之间的出样品或指标之间的相似程度相似程度相似程度相似程度后,后,后,后,构成构成构成构成了一个了一个了一个了一个相似程度相似程度相似程度相似程度的的的的矩阵矩阵矩阵矩阵 这时主要涉及两个问题:这时主要涉及两个问题:这时主要涉及两个问题:这时主要涉及两个问题: ((((1 1))))选择选择选择选择聚类的聚类的聚类的聚类的方法方法方法方法 ((((2 2))))确定确定确定确定形成的形成的形成的形成的类数类数类数类数64 4、聚类结果的解释和证实、聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行对聚类结果进行解释是希望对各个类的特征进行对聚类结果进行解释是希望对各个类的特征进行对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。
这一步可以准确的描述,给每类起一个合适的名称这一步可以准确的描述,给每类起一个合适的名称这一步可以准确的描述,给每类起一个合适的名称这一步可以借助各种描述性统计量进行分析,通常的做法是借助各种描述性统计量进行分析,通常的做法是借助各种描述性统计量进行分析,通常的做法是借助各种描述性统计量进行分析,通常的做法是计算计算计算计算各类在各聚类变量上的均值,对均值进行比较,还可各类在各聚类变量上的均值,对均值进行比较,还可各类在各聚类变量上的均值,对均值进行比较,还可各类在各聚类变量上的均值,对均值进行比较,还可以解释各类区别的原因以解释各类区别的原因以解释各类区别的原因以解释各类区别的原因65聚类注意事项:聚类注意事项:(1) (1) 变量变量变量变量之间的聚类:常用之间的聚类:常用之间的聚类:常用之间的聚类:常用相似系数相似系数相似系数相似系数来测度来测度来测度来测度(2) (2) 样品样品样品样品之间的聚类:常用之间的聚类:常用之间的聚类:常用之间的聚类:常用距离距离距离距离来测度来测度来测度来测度(3) (3) 对对对对大样本大样本大样本大样本的聚类问题,的聚类问题,的聚类问题,的聚类问题,不适宜不适宜不适宜不适宜选择选择选择选择斜交斜交斜交斜交空间距离空间距离空间距离空间距离(4) (4) 如若在进行聚类分析之前如若在进行聚类分析之前如若在进行聚类分析之前如若在进行聚类分析之前已已已已经对变量的经对变量的经对变量的经对变量的相关性相关性相关性相关性作作作作 了处理,则通常就可采用了处理,则通常就可采用了处理,则通常就可采用了处理,则通常就可采用欧氏欧氏欧氏欧氏距离距离距离距离(5) (5) 若选用若选用若选用若选用离差平方和法离差平方和法离差平方和法离差平方和法,则距离只能选用,则距离只能选用,则距离只能选用,则距离只能选用欧氏欧氏欧氏欧氏距离。
距离66其它聚类方法:其它聚类方法:动态动态动态动态聚类:一种聚类:一种聚类:一种聚类:一种比较成功比较成功比较成功比较成功的聚类方法然而当样本点的聚类方法然而当样本点的聚类方法然而当样本点的聚类方法然而当样本点数量十分庞大时,则是一件非常数量十分庞大时,则是一件非常数量十分庞大时,则是一件非常数量十分庞大时,则是一件非常繁重繁重繁重繁重的工作,且聚类的工作,且聚类的工作,且聚类的工作,且聚类的计算速度也比较的计算速度也比较的计算速度也比较的计算速度也比较慢慢慢慢 模糊模糊模糊模糊聚类:模糊数学聚类:模糊数学聚类:模糊数学聚类:模糊数学图论图论图论图论聚类:图论聚类:图论聚类:图论聚类:图论信息信息信息信息聚类:信息论聚类:信息论聚类:信息论聚类:信息论67小结小结聚类分析是一种聚类分析是一种探索性探索性技术,对于同一技术,对于同一问题,可获得问题,可获得多种结果多种结果,解释需要,解释需要结合结合专业知识专业知识。
