电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第九讲 聚类分析与判别分析

22页
  • 卖家[上传人]:小**
  • 文档编号:70830567
  • 上传时间:2019-01-18
  • 文档格式:PPT
  • 文档大小:382KB
  • / 22 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、第十讲 聚类分析与判别分析,内容概要,概述 系统聚类 K-均值聚类 聚类分析案例 Fisher判别分析 Bayes判别分析 判别分析案例,概述,聚类分析:顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals, objects or subjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。,基本思想,指标:描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。“距离”和“相似系数”,假定研究对象均用所谓的“点”来表示。 一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类! 严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。,分类: Q型聚类对样本进行分类处理; R型聚类对变量进行分类处理。 方法: 系统聚类法 K

      2、-均值聚类法 有序样品聚类法,个体之间距离的度量方法,针对连续变量的距离测量: 欧式距离; 欧式距离平方; 切比雪夫距离; 布洛克距离; 明可夫斯基距离; 自定义距离; 夹角余弦; 皮尔逊相关系数,针对计数变量的距离测度: 卡方距离; Phi方距离; 针对二值变量的距离测度: 二值欧式距离; 二值欧式距离平方; 不对称指数; 不相似性测度; 方差,一般聚类个数在46类,不宜太多,或太少;,聚类分析应注意的问题,所选择的变量应符合聚类的要求; 各变量的变量值不应有数量级上的差异; 各变量间不应有较强的线性相关关系。,系统聚类/层次聚类,凝聚式聚类和分解式聚类。 基本思想:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 步骤: 第一步:每个样品独自聚成类,共n个类; 第二步:把距离较近的两个样品聚合为一类,形成n-1类; 第三步:将n-1个类中“距离”最近的两个类进一步聚成一类,形成n-2类; 直至所有样品全聚成一类。,个体与小类,小类与小类“亲疏程度”度量方法,组间平均连接距离:个体与小类中每个个体距离的平均值; 组内平均连

      3、接距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值; 最近邻距离:个体与小类中每个个体距离的最小值; 最远邻距离:个体与小类中每个个体距离的最大值; 重心距离:该个体与小类的重心点的距离; 中位数距离; 离差平方和法:使小类内离差平方和增加最小的两小类应首先合并为一类。,案例9.3 系统聚类分析,案例9.3.sav的资料是我国2005年各地城镇居民平均每人全年家庭收入来源统计表。试对全国各地区的收入来源结构进行分类。,二阶段聚类分析,二阶段聚类分析是一种新型的分层聚类方法,主要用于一般的数据挖掘和多元统计的交叉领域模式分类,其算法适用于任何尺度的变量。,案例9.2 二阶段聚类分析,案例9.1.sav的资料是美国22个公共团体的数据。试以“是否使用核能源”为分类变量对这些团体进行聚类分析,其中“1”表示使用核能源,“0”表示没有使用核能源,观测这两类企业所属类别的情况。,K-均值聚类,是一种快速聚类法。适合处理大样本数据。 基本思想是:将每个样品分配给最近中心(均值)的类中,具体步骤: 指定聚类数目K 确定K个初始类中心(用户指定或系统指定); 根据距离最近原则进行分类(欧式

      4、距离); 重新确定K个类中心; 判断是否已满足终止聚类分析的条件:迭代次数或类中心偏移程度(0.02)。,案例9.2 K中心聚类分析,案例9.2.sav的资料是我国2006年各地区能源消耗的情况。根据不同省市的能源消耗情况,进行分类,以了解我国不同地区的能源消耗情况。,判别分析概述,根据已有的划分类别的有关历史资料,确定一种判定方法,判定一个新的样本归属哪一类。 设定有k个样本,对每个样本测得p项指标的数据,已知每个样本属于k个类别中的每一类。利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标数据的一个新样本,能判定这个样本属于哪一类。,距离判别法,两个总体G1和G2,均值向量: ;协差阵: 数据点X到总体Gi的马氏距离定义为: 设判别函数: 若W(X)0,则 ;若W(X)0,则 ;若W(X)=0,则待判断。 各总体协方差阵相等,判别函数为线性判别函数; 各总体协方差阵不相等,判别函数为二次判别函数;,Fisher判别分析,借助方差分析思想构造一个线性判别函数: 系数 确定的原则是使得各总体之间区别最大,而使得每

      5、个总体内部的离差最小。 判别规则:待判样品的典型判别函数值ux与第G类中心的典型判别函数值u(i)的绝对离差 最小,则可以将该样品判入第G类。,Bayes判别分析,基本思想:首先计算待判样品属于各个总体的条件概率, ,然后比较这k个概率值的大小,将待判样本归为条件概率最大的总体。 在观测到一个样品x的情况下,利用Bayes公式,可以计算它来自第g个总体的后验概率: 。 当 时,则可将x判入第h类。 先验概率取法有两种:一是用样品频率代替;二是令各总体先验概率相等。,案例9.4 判别分析,案例9.4.sav的资料为三种不同种类豇豆豆荚的质量、宽度和长度的统计表,每种类型都为20个样本,共60个样本。试根据不同种类豇豆豆荚的特征,建立鉴别不同种类豇豆判别方程。,Fisher判别函数 y1=-11.528+0.21质量-1.95宽度+0.186长度 y2=-15.935+0.112质量+2.246宽度+0.092长度,典型判别式函数系数 函数 1 2 质量 .210 .112 宽度 .950 2.246 长度 .186 .092 (常量) -11.528 -15.935 非标准化系数,三个类别的Bayes判别函数 类别1=-90.708+2.557质量+18.166宽度+1.922长度 类别2=-212.439+3.589质量+32.357宽度+2.78长度 类别3=-404.182+6.8519质量-10.855宽度+5.697长度,分类函数系数 类型 1 2 3 质量 2.557 3.589 6.851 宽度 18.166 32.357 -10.855 长度 1.922 2.780 5.697 (常量) -90.708 -212.439 -404.182 Fisher 的线性判别式函数,

      《第九讲 聚类分析与判别分析》由会员小**分享,可在线阅读,更多相关《第九讲 聚类分析与判别分析》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.