SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch8
110页1、第八章 聚类分析与判别分析,8.1 聚类分析 8.2 判别分析,8.1 聚类分析 8.1.1 聚类分析的一般概念 8.1.2 系统聚类法的基本思想和步骤 8.1.3 用CLUSTER过程和TREE过程进行系统聚类 8.1.4 用VARCLUS过程进行变量聚类,8.1.1 聚类分析的一般概念 设有n个样品(多元观测值),每个样品测得m项指标(变量),得到观测数据xij(i=1,n;j=1,m),如表所示。,表8-1中数据又称为观测数据阵或简称为数据阵,其数学表示为: 其中列向量Xj = (x1j,x2j,xnj),表示第j项指标(j = 1,2,m),行向量X(i) = (xi1,xi2,xin)表示第i个样品。,1. 两种聚类分析 根据分类对象的不同,聚类分析分为两种: (1) 样品聚类:样品聚类是对样品(观测)进行的分类处理,又称为Q型分类,相当于对观测数据阵按行分类。 (2) 变量聚类:变量聚类是对变量(指标)进行的分类处理,又称为R型分类,相当于对观测数据阵按列分类。 两种聚类在形式上是对称的,处理方法也是相似的。,2. 聚类分析的方法 聚类方法大致可归纳如下: (1) 系统聚类
2、法(谱系聚类) 先将l个元素(样品或变量)看成l类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到l 1类,再从中找出最接近的2类加以合并变成了l 2类,如此下去,最后所有的元素全聚在一类之中。 (2) 分解法(最优分割法) 其程序与系统聚类相反。首先所有的元素均在一类,然后按照某种最优准则将它分成2类、3类,如此下去,一直分裂到所需的k类为止。,(3) 动态聚类法(逐步聚类法) 开始将l个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整为止。 (4) 有序样品的聚类 n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。 其他还有:有重叠聚类、模糊聚类、图论聚类等方法。,3. 聚类统计量 聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数两类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如马氏距离、明考斯基距离、兰氏距离、切比雪夫距离以及常见的欧氏距离: 等。相似系数有相关系数、夹角余弦、列
3、联系数等。,当然,采用不同的分类方法会得到不同的分类结果,有时即使是同一种聚类方法,因距离的定义方法不同也会得到不同的分类结果。对任何观测数据都没有唯一“正确的”分类方法。实际应用中,常采用不同的分类方法对数据进行分类,可以提出多种分类意见,由实际工作者决定所需要的分类数和分类情况。,8.1.2 系统聚类法的基本思想和步骤 下面以样品聚类为例介绍系统聚类法。 1. 系统聚类法的基本思想 设有n个样品,每个样品测得m项指标(见表8-1)。系统聚类方法的基本思想是:首先定义样品间的距离(或相似系数)和类与类之间的距离。一开始将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离准则并类。这样每次减少一类,直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象地表达出来。,2. 系统聚类法的基本步骤 (1) 数据变换 为了便于比较或消除量纲的影响,在作聚类之前常常首先要对数据进行变换。变换的方法有中心化变换、标准化变换、极差标准化变换、极差正规化变换、对数变换等。 最常用的标准化变换为: 其中 , ,j =
4、1,2,m。 变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据 与变量的量纲无关。,(2) 计算n个样品两两间的距离 选择度量样品间距离的定义,计算n个样品两两间的距离,得样品间的距离矩阵D(0)。 (3) 聚类过程 首先n个样品各自构成一类,类的个数k = n:Gi = X(i)(i = 1,n),此时类间的距离就是样品间的距离(即D(1) = D(0))。 令j = 2,n,执行如下并类过程: 1) 合并类间距离最小的两类为一新类(类间距离参见下文“系统聚类分析的方法”)。此时类的总个数k减少1类,即k = n j + 1;,2) 计算新类与其他类的距离,得新的距离矩阵D(j))。 若合并后类的总个数k仍大于1,重复1)和2)步,直到类的总个数为1时止。 (4) 画谱系聚类图 谱系图能明确清晰地描述各个样本点在不同层次上聚合分类的情况。 (5) 决定分类的个数及各类的成员,3. 系统聚类分析的方法 设有原始数据阵,如表8-1所示。G为在某一聚类水平上的类的个数,Ck是当前(水平G)的第k类,nk为Ck中的样品个数,DKL为第G水平的类CK和类CL之间的距离。
《SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch8》由会员E****分享,可在线阅读,更多相关《SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch8》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页