电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第6章 聚类分析

28页
  • 卖家[上传人]:E****
  • 文档编号:89184309
  • 上传时间:2019-05-20
  • 文档格式:PPT
  • 文档大小:463KB
  • / 28 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、第6章 聚类分析,6.1 距离与相似系数 6.1.1 聚类分析的基本思想及意义 聚类分析是研究分类问题的多元数据分析方法,它是多元数据分析的重要组成部分.聚类分析有极其广泛的应用背景. 数据矩阵 聚类分析两种类型:按样品聚类或按变量(指标)聚类. 基本思想:样品间定义距离,变量间定义相似系数.按距离或相似系数大小,将样品(或变量)逐一归类,关系密切的聚集到小的分类单位,逐步扩大成大的分类单位,形成谱系图.,6.1.2 样品间的相似性度量 个样品, 它是 元空间的 个点. 1.欧氏距离 距离矩阵 2.绝对距离 3.Minkovski 距离 欧氏距离 绝对距离 4.Chebyshev 5.方差加权距离 对标准化数据 计算欧氏距离,即方差加权距离 6.马氏距离,6.1.3 变量间的相似性度量相似系数 相似系数满足 1) 且 2) 3) 1.相关系数 观测值 观测值 相关系数 2.夹角余弦 变量聚类称 型聚类,出发点:相似系数矩阵 它可以相关矩阵,也可以是余弦矩阵.,距离与相似系数的转化,如 6.2 谱系聚类法 谱系聚类法首先视各样品(或变量)自成一类,然后把最相似(距离最小或相似系数最大)的

      2、样品(或变量)聚为小类,最后聚合成一个大类,从而得到一个按相似性大小聚结的谱系图. 6.2.1 类间距离 样品聚类称 型聚类.为讨论重点 两个类 重心,最短距离 最长距离 类平均距离 或 平方距离 重心距离 重心 重心 离差平方和距离 6.2.2 类间距离递推公式 由 合并所得(有 个样品).问题:由 与其他类 的距离 递推计算 与 的距离.,最短距离 证 最长距离 类平均距离 证 注: 公式 重心 5) 离差平方和距离,6.2.3 谱系聚类法的步骤 1) 个样品开始时作为 个类,对称距离矩阵 2)选 中非对角线上最小元素,设为 合并成新类 中消去 所对应的行和列,并加入新类 与剩下的其他未聚合的类间的距离所组成的一行和一列,得到新的距离矩阵 ,为 阶方阵. 3)从 出发重复步骤2的作法得 ,再由 出发,重复上述步骤;直到 个样品聚合为1个大类为止. 4)在合并过程中记下合并样品的编号及两类合并时的水平(即距离)并绘制谱系图. PROC CLUSTER 过程实现谱系聚类.,例 6.3 (续例6.1) 1991年辽宁、浙江、甘肃、青海5省居民消费,指标变量共8个: 人均粮食支出 人均副食

      3、支出 人均烟酒茶支出 人均其他副食支出 人均衣着商品支出 人均日用品支出 人均燃料支出 人均非商品支出 情况见表(单位:元/人) 进行谱系聚类 1)最短距离法 2)最长距离法 3)类平均距离法,解 1) 最短距离法,聚类过程如下: Min NCL类的数目 NCL -Clusters Joined- FREQ Dist 4 河南 甘肃 2 2.2033 -Clusters Joined- 新聚类集 3 CL4 青海 3 2.2159 FREQ新类中样品数 2 辽宁 浙江 2 11.673 Min Dist 最短距离 1 CL1 CL3 5 12.798 第一步将河南、甘肃合并成新类 CL4(CL代表合并的新类,4代表合并后类的总数);第2步将CL4与青海合并成CL3(此时类的总数是3);第3步将辽宁、浙江合并成CL2(此时,类的总数是2);最后将CL2,CL3合并成一个大类. 2)最长距离法,聚类过程如下: Max NCL -Clusters Joined- FREQ Dist 4 河南 甘肃 2 2.2033 3 CL4 青海 3 3.5037 Max Dist 最长距离 2 辽宁 浙

      4、江 2 11.673 1 CL1 CL3 5 24.635 3)类平均距离法,聚类过程如下. Aver NCL -Clusters Joined- FREQ Dist 4 河南 甘肃 2 2.2033 3 CL4 青海 3 2.8598 Aver Dist 类平均距离 2 辽宁 浙江 2 11.673 1 CL1 CL3 5 18.661,例 6.4 十一种欧洲语言: E 英语 N 挪威语 Da 丹麦语 Du 荷兰语 G 德语 Fr 法语 S 西班牙语 I 意大利语 P 波兰语 H 匈牙利语 Fi 芬兰语 以任两种语言对110这十个数字拼写中第一个字母不相同的个数定义两种语言“距离”.距离矩阵如下: E N Da Du G Fr S I P H Fi E N Da Du G Fr S I P H Fi,用下列方法对这11种语言进行谱系聚类,画出谱系图: 1) 最长距离法 (分为4类) 2) 类平均距离法 (分为4类) 解 1)由PROC CLUCTER 过程,聚类过程如下: NCL -Clusters Joined- FREQ Dist 10 N Da 2 1 9 Fr I 2 1 8

      5、 E CL10 3 2 7 CL9 S 3 2 6 Du G 2 5 5 CL7 P 4 5 4 CL8 CL6 5 7 3 H Fi 2 8 2 CL4 CL3 7 9 1 CL2 CL5 11 10 分类结果如下: obs _NAME_ CLUSTER 1 N 1 2 Da 1 3 Fr 2 4 I 2 5 E 1 6 S 2 7 Du 1 8 G 1 9 P 2 10 H 3 11 Fi 4,2) 由 PROC CLUCTER 过程,聚类过程如下: NCL -Clusters Joined- FREQ Dist 10 N Da 2 1 9 Fr I 2 1 8 CL9 S 3 1.5 7 E CL10 3 2 6 CL8 P 4 4 5 CL7 G 4 5 4 CL5 Du 5 5.75 3 CL4 CL6 9 6.9 2 H Fi 2 8 1 CL3 CL2 11 9.0556 分类结果如下: obs _NAME_ CLUSTER 1 N 1 2 Da 1 3 Fr 2 4 I 2 5 S 2 6 E 1 7 P 2 8 G 1 9 Du 1 10 H 3 11 Fi 4 可见

      6、两种分类法分类结果不同.,最长距离法谱系图,6.2.4 变量聚类 变量聚类称为 型聚类,一般从数据的相关矩阵出发,设变量 的数据相关矩阵是 从 矩阵的元素,经变换 得到距离矩阵 它是广义距离,从 出发,用上述各种方法进行变量聚类. 例 6.6 其地超基性岩一批样品,测试6个现矿化有关 元素: 镍 钴 铜 铬 硫 砷,相关矩阵 试对变量 进行聚类分析. 解 变换 得距离矩阵 1) 最长距离法,分为3类. 变量 为1类; 为2类; 为3类. 2) 类平均距离法,分为3类 结果与最长距离法同 3) 最短距离法,分为3类 为1类; 为2类; 为3类.,最长距离法谱系图,6.3 快速聚类法 快速聚类法先将样品粗略地分一个类,然后按某种原则进行修正.直至分类较合理为止. 合理 选择聚点 初始分类 分类是否合理 最终分类 修改分类 不合理 6.3.1 快速聚类法步骤 1.选择聚点 先定下分类数,每类中选择有代表性的样品作为聚点 聚点选法: 1) 经验选择. 2) 每类重心作为聚点. 3) 按某种原则选择聚点. SAS 系统 FASTCLUS 过程会选出初始聚点.,2.快速聚类法计算步骤 假定用欧氏距离: 1) 初始聚点集合 用下列原则实现初始分类 样品分为不相交的类,得 2) 从 出发,计算新的聚点集合 重心作为新的聚点: 新聚点集合 得 依次计算下去. 3) 设在 步得分类 是 的重心, 增大时 算法可结束.,例 6.8 历年国内生产总值(单位:亿元) date 年份 第一产业 第二产业 第三产业 (1) 用快速聚类法分为3类,并进行分析 (2) 画出分类的 图,解 (1) 由 PROC FASTCLUS 过程,算得分3类的初始聚点及分类结果.

      《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第6章 聚类分析》由会员E****分享,可在线阅读,更多相关《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第6章 聚类分析》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.