![](https://www.jinchutou.com/images/s.gif)
精编制作厦门大学《应用多元统计分析》第05章_聚类分析PPT课件
96页1、第五章聚类分析 第一节引言 第二节相似性的量度 第三节系统聚类分析法 第四节K均值聚类分析 第五节有序样品的聚类分析法 第六节实例分析与计算机实现 第一节引言 物以类聚 人以群分 对事物进行分类 是人们认识事物的出发点 也是人们认识世界的一种重要方法 因此 分类学已成为人们认识世界的一门基础科学 在生物 经济 社会 人口等领域的研究中 存在着大量量化分类研究 例如 在生物学中 为了研究生物的演变 生物学家需要根据各种生物不同的特征对生物进行分类 在经济研究中 为了研究不同地区城镇居民生活中的收入和消费情况 往往需要划分不同的类型去研究 在地质学中 为了研究矿物勘探 需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类 在人口学研究中 需要构造人口生育分类模式 人口死亡分类状况 以此来研究人口的生育和死亡规律 但历史上这些分类方法多半是人们主要依靠经验作定性分类 致使许多分类带有主观性和任意性 不能很好地揭示客观事物内在的本质差别与联系 特别是对于多因素 多指标的分类问题 定性分类的准确性不好把握 为了克服定性分类存在的不足 人们把数学方法引入分类中 形成了数值分类学 后
2、来随着多元统计分析的发展 从数值分类学中逐渐分离出了聚类分析方法 随着计算机技术的不断发展 利用数学方法研究分类不仅非常必要而且完全可能 因此近年来 聚类分析的理论和应用得到了迅速的发展 聚类分析就是分析如何对样品 或变量 进行量化分类的问题 通常聚类分析分为Q型聚类和R型聚类 Q型聚类是对样品进行分类处理 R型聚类是对变量进行分类处理 第二节相似性的量度 一样品相似性的度量 二变量相似性的度量 一 样品相似性的度量 在聚类之前 要首先分析样品间的相似性 Q型聚类分析 常用距离来测度样品之间的相似程度 每个样品有p个指标 变量 从不同方面描述其性质 形成一个p维的向量 如果把n个样品看成p维空间中的n个点 则两个样品间相似程度就可用p维空间中的两点距离公式来度量 两点距离公式可以从不同角度进行定义 令dij表示样品Xi与Xj的距离 存在以下的距离公式 1 明考夫斯基距离 5 1 明考夫斯基距离简称明氏距离 按的取值不同又可分成 欧氏距离是常用的距离 大家都比较熟悉 但是前面已经提到 在解决多元数据的分析问题时 欧氏距离就显示出了它的不足之处 一是它没有考虑到总体的变异对 距离 远近的影
3、响 显然一个变异程度大的总体可能与更多样品近些 既使它们的欧氏距离不一定最近 另外 欧氏距离受变量的量纲影响 这对多元数据的处理是不利的 为了克服这方面的不足 可用 马氏距离 的概念 2 马氏距离设Xi与Xj是来自均值向量为 协方差为 0 的总体G中的p维样品 则两个样品间的马氏距离为 5 5 马氏距离又称为广义欧氏距离 显然 马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性 如果各变量之间相互独立 即观测变量的协方差矩阵是对角矩阵 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离 马氏距离还考虑了观测变量之间的变异性 不再受各指标量纲的影响 将原始数据作线性变换后 马氏距离不变 3 兰氏距离 5 6 它仅适用于一切Xij 0的情况 这个距离也可以克服各个指标之间量纲的影响 这是一个自身标准化的量 由于它对大的奇异值不敏感 它特别适合于高度偏倚的数据 虽然这个距离有助于克服明氏距离的第一个缺点 但它也没有考虑指标之间的相关性 4 距离选择的原则一般说来 同一批数据采用不同的距离公式 会得到不同的分类结果 产生不同结果的原因 主要是由于不同的距离公式的
4、侧重点和实际意义都有不同 因此我们在进行聚类分析时 应注意距离公式的选择 通常选择距离公式应注意遵循以下的基本原则 1 要考虑所选择的距离公式在实际应用中有明确的意义 如欧氏距离就有非常明确的空间距离概念 马氏距离有消除量纲影响的作用 2 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法 如在进行聚类分析之前已经对变量作了标准化处理 则通常就可采用欧氏距离 3 要考虑研究对象的特点和计算量的大小 样品间距离公式的选择是一个比较复杂且带有一定主观性的问题 我们应根据研究对象的特点不同做出具体分折 实际中 聚类分析前不妨试探性地多选择几个距离公式分别进行聚类 然后对聚类分析的结果进行对比分析 以确定最合适的距离测度方法 二 变量相似性的度量 多元数据中的变量表现为向量形式 在几何上可用多维空间中的一个有向线段表示 在对多元数据进行分析时 相对于数据的大小 我们更多地对变量的变化趋势或方向感兴趣 因此 变量间的相似性 我们可以从它们的方向趋同性或 相关性 进行考察 从而得到 夹角余弦法 和 相关系数 两种度量方法 1 夹角余弦两变量Xi与Xj看作p维空间的两个向量 这两个向量间的夹角
5、余弦可用下式进行计算 5 7 显然 cos ij 1 2 相关系数相关系数经常用来度量变量间的相似性 变量Xi与Xj的相关系数定义为 5 8 显然也有 rij 1 无论是夹角余弦还是相关系数 它们的绝对值都小于1 作为变量近似性的度量工具 我们把它们统记为cij 当 cij 1时 说明变量Xi与Xj完全相似 当 cij 近似于1时 说明变量Xi与Xj非常密切 当 cij 0时 说明变量Xi与Xj完全不一样 当 cij 近似于0时 说明变量Xi与Xj差别很大 据此 我们把比较相似的变量聚为一类 把不太相似的变量归到不同的类内 在实际聚类过程中 为了计算方便 我们把变量间相似性的度量公式作一个变换为dij 1 cij 5 9 或者dij2 1 cij2 5 10 用表示变量间的距离远近 小则与先聚成一类 这比较符合人们的一般思维习惯 第三节系统聚类分析法 一系统聚类的基本思想 二类间距离与系统聚类法 三类间距离的统一性 一 系统聚类的基本思想 系统聚类的基本思想是 距离相近的样品 或变量 先聚成类 距离相远的后聚成类 过程一直进行下去 每个样品 或变量 总能聚到合适的类中 系统聚类过程是
《精编制作厦门大学《应用多元统计分析》第05章_聚类分析PPT课件》由会员ahu****ng3分享,可在线阅读,更多相关《精编制作厦门大学《应用多元统计分析》第05章_聚类分析PPT课件》请在金锄头文库上搜索。
![超过竞争对手的创新能力(145页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/660856a3-73e7-49cb-9c1b-7a49e72e41c2/d87bcce210784eb79e2ee87f4337ee04.gif)
超过竞争对手的创新能力(145页PPT)
![高速公路技术创新点介绍(60页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/1730ae98-554e-49b2-921f-c16eac18b091/a2452b47992e4cc1ac4fc8f8b2ce401d.gif)
高速公路技术创新点介绍(60页PPT)
![设计方法学与创新设计(99页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/a364c574-3bf7-4501-a490-e3aea5a4dbb2/bd0cef4ca3334afd9eb041e32a2b831b.gif)
设计方法学与创新设计(99页PPT)
![菜品创新培训讲义(60页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/ed157278-a562-4ac5-84a7-4b13b0f19896/e8f67849d93946309e6d1ea71909487b.gif)
菜品创新培训讲义(60页PPT)
![结构化研讨的创新实践(128页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/cca94616-13b9-4345-8944-6208ff6dec15/5c04b882e0d04b6abc5f79afd857db57.gif)
结构化研讨的创新实践(128页PPT)
![管理设计以创新(57页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/a9a6e231-8946-4fc2-8160-27b2873b96b5/d3cb324f930a4f13bcd5e1b1b22c5f08.gif)
管理设计以创新(57页PPT)
![课程评价制度的创新教材(52页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/8425863b-b8cc-4c00-8996-e1fdfc710968/c14f973a76fb42f1ad60126625636fef.gif)
课程评价制度的创新教材(52页PPT)
![科技型中小企业技术创新基金申请培训材料(149页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/d754fca4-59e9-4844-b24d-512e9e1d7a53/6809c6c22f6e4a0094729eea0b06b77b.gif)
科技型中小企业技术创新基金申请培训材料(149页PPT)
![科技型中小企业技术创新基(57页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/8fe87882-46f3-4690-aee0-819e2db763a8/9764f0cb67524724a11364036bf5f021.gif)
科技型中小企业技术创新基(57页PPT)
![股权激励与机制创新(2小时)郑翔洲(82页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/948f8feb-7abe-422d-a90d-19435c51c27f/6d89fde9e6eb4bde8ae574d22bfe5f46.gif)
股权激励与机制创新(2小时)郑翔洲(82页PPT)
![研究生科研创新思维的培养王振宁XXXX815(50页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/4d2d709d-899a-43a8-92f0-9b5b1e8d6a8d/c333d607b153442c8e8070f3024c7bf7.gif)
研究生科研创新思维的培养王振宁XXXX815(50页PPT)
![绩效管理赢在考核创新(51页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/f284e1ea-f2d7-427e-a217-0d848031642e/de678ac9b4ce486f8f4c1f8158bf5a52.gif)
绩效管理赢在考核创新(51页PPT)
![标准与创新(66页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/f17d2733-2ec7-43ce-abe0-4a1a7cb1288c/18d1e06650314803b9832deae77a16c7.gif)
标准与创新(66页PPT)
![社会建设与社会管理创新教材(248页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/6119feae-1537-462f-9245-65f10c6f6db9/f3e822afad3547c592b84e614fada4ae.gif)
社会建设与社会管理创新教材(248页PPT)
![科技创新政策解读(50页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/6e163495-781a-491a-afd8-6aab3f0b1737/05a892bad4fc4278be424feaa5cc29b1.gif)
科技创新政策解读(50页PPT)
![苏州村级经济发展路径和模式创新讲义(57页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/2bda5fcb-3602-4c72-8e6a-31fc0228e80f/36a0c84ca0fe45f4bee69f57a332c3c9.gif)
苏州村级经济发展路径和模式创新讲义(57页PPT)
![新常态下的非遗传承与创新课件(50页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/664fdef4-6c5e-4dd3-90f1-f30a2a120cb6/3f4860de3a314561a466e451666d7696.gif)
新常态下的非遗传承与创新课件(50页PPT)
![社会管理创新教材(56页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/390a3260-2d73-4750-879d-b215039a7820/fb3f63db77954f6e9a12afcb17ad8ec9.gif)
社会管理创新教材(56页PPT)
![职业培训及其课程开发与教学模式创新(103页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/9c149b26-09bf-4f6f-bcaf-5a12f95f6d55/2c147829d2cc4bd69fe7e685aa5dc3d4.gif)
职业培训及其课程开发与教学模式创新(103页PPT)
![联盟驱动型创新政策的新发展讲义(68页PPT)](https://img.cdn06.goldhoe.com/2022-10/7/28030246-9ed7-4402-a12f-95b51c194780/87e5ac50ba824733bda0ddccee97b797.gif)
联盟驱动型创新政策的新发展讲义(68页PPT)
![环保监督管理与监测技术培训课件](/Images/s.gif)
2023-09-09 110页
![六氟化硫循环再利用技术](/Images/s.gif)
2023-09-09 107页
![药品检测-检验分析方法的验证和确认](/Images/s.gif)
2023-03-07 70页
![液相色谱培训课程](/Images/s.gif)
2023-03-07 178页
![超级竞争力之沟通高手培训讲义](/Images/s.gif)
2022-07-14 64页
![总裁沟通力及影响力培训课件](/Images/s.gif)
2022-07-14 95页
![超级沟通力培训教材](/Images/s.gif)
2022-07-14 52页
![中层干部的沟通技巧](/Images/s.gif)
2022-07-14 56页
![3性格与沟通知识培训](/Images/s.gif)
2022-07-13 43页
![AE的沟通力培训技巧](/Images/s.gif)
2022-07-13 44页