好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

spss聚类分析结果解释-聚类表怎么解读.ppt

83页
  • 卖家[上传人]:公****
  • 文档编号:580304115
  • 上传时间:2024-08-28
  • 文档格式:PPT
  • 文档大小:1.39MB
  • / 83 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第14章 聚类分析与判别分析介绍: 1、聚类分析 2、判别分析 分类学是人类认识世界的基础科学聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域 14.1.1 聚类分析•根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大•根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:n样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)n变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码变量聚类使批量生产成为可能 14.1.2 判别分析•判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数根据判别函数对未知所属类别的事物进行分类的一种分析方法•在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断•不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。

      14.1.3 聚类分析与判别分析的SPSS过程•在AnalyzeClassify下:1.K-Means Cluster: 观测量快速聚类分析过程2.Hierarchical Cluster:分层聚类(进行观测量聚类和变量聚类的过程3.Discriminant:进行判别分析的过程 14.2 快速样本聚类过程(Quick Cluster)•使用 k 均值分类法对观测量进行聚类•可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等•快速聚类实例(P342,data14-01a):使用系统的默认值进行:对运动员的分类(分为4类)–AnalyzeClassifyK-Means Cluster•Variables: x1,x2,x3•Label Case By: no•Number of Cluster: 4•比较有用的结果:聚类结果形成的最后四类中心点(Final Cluster Centers) 和每类的观测量数目(Number of Cases in each Cluster)•但不知每个运动员究竟属于哪一类?这就要用到Save选项 14.2 快速样本聚类过程(Quick Cluster)中的选项•使用快速聚类的选择项:•类中心数据的输入与输出:Centers选项•输出数据选择项:Save选项•聚类方法选择项:Method选项•聚类何时停止选择项:Iterate选项•输出统计量选择项:Option选项 14.2 指定初始类中心的聚类方法例题P343•数据同上(data14-01a):以四个四类成绩突出者的数据为初始聚类中心(种子)进行聚类。

      类中心数据文件data14-01b(但缺一列Cluster_,不能直接使用,要修改)对运动员的分类(还是分为4类)•AnalyzeClassifyK-Means Cluster–Variables: x1,x2,x3–Label Case By: no–Number of Cluster: 4–Center: Read initial from: data14-01b–Save: Cluster membership和Distance from Cluster Center–比较有用的结果(可将结果与前面没有初始类中心比较):•聚类结果形成的最后四类中心点(Final Cluster Centers) •每类的观测量数目(Number of Cases in each Cluster)•在数据文件中的两个新变量qc1_1(每个观测量最终被分配到哪一类)和 qc1_2(观测量与所属类中心点的距离) 14.3 分层聚类(Hierarchical Cluster)•分层聚类方法:–分解法:先视为一大类,再分成几类–凝聚法:先视每个为一类,再合并为几大类•可用于观测量(样本)聚类(Q型)和变量聚类(R型)•一般分为两步(自动,可从Paste的语句知道,P359):–Proximities:先对数据进行的预处理(标准化和计算距离等)–Cluster:然后进行聚类分析•两种统计图:树形图(Dendrogram)和冰柱图(Icicle)•各类型数据的标准化、距离和相似性计算P348-354–定距变量、分类变量、二值变量–标准化方法p353:Z Scores、Range -1 to 1、 Range 0 to 1等 14.3.4 用分层聚类法进行观测量聚类实例P358•对20种啤酒进行分类(data14-02),变量包括:Beername(啤酒名称)、calorie(热量)、sodium(钠含量)、alcohol(酒精含量)、 cost(价格)•Analyze→Classify →Hierarchical Cluster:–Variables: calorie,sodium,alcohol, cost 成分和价格–Label Case By: Beername–Cluster:Case, Q聚类 –Display: 选中Statistics,单击Statistics•Agglomeration Schedule 凝聚状态表•Proximity matrix:距离矩阵•Cluster membership:Single solution:4 显示分为4类时,各观测量所属的类–Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/极差)–Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical纵向作图)–Save: Cluster Membership(Single solution [4])–比较有用的结果:根据需要进行分类,在数据文件中的分类新变量clu4_1等 14.3.5 用分层聚类法进行变量聚类•变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少。

      •与进行观测量聚类雷同,不同点在于:•选择Variable而非Case•Save选项失效,不建立的新变量 14.3.6 变量聚类实例1 P366•上面啤酒分类问题data14-02•Analyze→Classify →Hierarchical Cluster:–Variables: calorie,sodium,alcohol, cost 成分和价格–Cluster:Variable, R聚类 –Method:•Cluster Method :Furthest Neighbor•Measure-Interval:Pearson Correlation•Transform Values:Z Score (By Variable)–Plots: Dendrogram 树型图–Statistics:Proximity matrix:相关矩阵–比较有用的结果:根据相关矩阵和树型图,可知calorie(热量)和alcohol(酒精含量)的相关系数最大,首先聚为一类从整体上看,聚为三类是比较好的结果至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可以根据专业知识或测度的难易程度决定 14.3.6 变量聚类实例2 P368•有10个测试项目,分别用变量X1-X10表示,50名学生参加测试。

      想从10个变量中选择几个典型指标data14-03•Analyze→Classify →Hierarchical Cluster:–Variables: X1-X10–Cluster:Variable, R聚类 –Method:•Cluster Method :Furthest Neighbor•Measure-Interval:Pearson Correlation–Plots: Dendrogram 树型图–Statistics:Proximity matrix相关矩阵–比较有用的结果:可以从树型图中看出聚类过程具体聚为几类最为合理,根据专业知识来定而每类中的典型指标的选择,可用p370的相关指数公式的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为此类的代表变量 14.4 判别分析P374•判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法•要先建立判别函数 Y=a1x1+a2x2+...anxn,其中:Y为判别分数(判别值),x1 x2...xn为反映研究对象特征的变量,a1 a2...an为系数•SPSS对于分为m类的研究对象,建立m个线性判别函数。

      对于每个个体进行判别时,把观测量的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类还建立标准化和未标准化的典则判别函数•具体见下面吴喜之教授有关判别分析的讲义 补充:补充:聚类分析与判别分析•以下的讲义是吴喜之教授有关聚类分析与判别分析的讲义,我觉得比书上讲得清楚•先是聚类分析一章•再是判别分析一章 聚类分析聚类分析 分类分类•俗语说,物以类聚、人以群分•但什么是分类的根据呢?•比如,要想把中国的县分成若干类,就有很多种分类法;•可以按照自然条件来分,•比如考虑降水、土地、日照、湿度等各方面;•也可以考虑收入、教育水准、医疗条件、基础设施等指标;•既可以用某一项来分类,也可以同时考虑多项指标来分类 聚类分析聚类分析•对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)•比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,•当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类•本章要介绍的分类的方法称为聚类分析(cluster analysis)。

      对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类这两种聚类在数学上是对称的,没有什么不同 饮料数据(饮料数据(drink.sav ))•16种饮料的热量、咖啡因、钠及价格四种变量 如何度量远近如何度量远近??•如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点这样就可以把接近的点放到一类•如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类•三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已在饮料数据中,每种饮料都有四个变量值这就是四维空间点的问题了 两个距离概念两个距离概念•按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离•点间距离有很多定义方式最简单的是歐氏距离,还有其他的距离•当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短•由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离但是如果某一类包含不止一个点,那么就要确定类间距离,•类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。

      在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的不同的选择的结果会不同,但一般不会差太多 向量向量x=(x1,…, xp)与与y=(y1,…, yp)之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1) :cosinePearson correlation(相似系数相似系数2):Chebychev: Maxi|xi-yi|Block(绝对距离绝对距离): S Si|xi-yi|Minkowski:当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行标准化要先进行标准化. 如如R为极差为极差, s 为标准差为标准差, 则标准化的数据为每个观测值则标准化的数据为每个观测值减去均值后再除以减去均值后再除以R或或s. 当观测值大于当观测值大于0时时, 有人采有人采用用Lance和和Williams的距离的距离 类类Gp与类与类Gq之间的距离之间的距离Dpq(d(xi,xj)表示点表示点xi∈ ∈ Gp和和xj ∈ ∈ Gq之间的距离之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:(中间距离中间距离, 可变平均法可变平均法,可变法等可参考各书可变法等可参考各书).在用欧氏距离时在用欧氏距离时, 有统一的递推公式有统一的递推公式(假设假设Gr是从是从Gp和和Gq合并而来合并而来): Lance和和Williams给出给出(对欧氏距离对欧氏距离)统一统一递推递推公式公式:D2(k,r)=a apD2(k,p)+a aqD2(k,q)+b bD2(p,q) +g g|D2(k,p)-D2(k,q)|前面方法的递推公式可选择参数而得前面方法的递推公式可选择参数而得:方法方法a ai (i=p,q) b b g g最短距离最短距离 ½0-1/2最长距离最长距离 ½01/2重心重心 ni/nr -a apa aq 0类平均类平均 ni/nr 0 0 离差平方和离差平方和(ni+nk)/ (nr+nk) -nk/ (nr+nk) 0 中间距离中间距离 1/2 -1/4 0 可变法可变法 (1-b b)/2 b b(<1) 0 可变平均可变平均 (1- b b) ni/nr b b(<1) 0 有了上面的点间距离和类间有了上面的点间距离和类间距离的概念,就可以介绍聚距离的概念,就可以介绍聚类的方法了。

      这里介绍两个类的方法了这里介绍两个简单的方法简单的方法 事先要确定分多少类:事先要确定分多少类:k-均值聚类均值聚类 •前面说过,聚类可以走着瞧,不一定事先确定有多少类;但是这里的k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)却要求你先说好要分多少类看起来有些主观,是吧!•假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石•然后,根据和这三个点的距离远近,把所有点分成三类再把这三类的中心(均值)作为新的基石或种子(原来的“种子”就没用了),重新按照距离分类•如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢下面用饮料例的数据来做k-均值聚类 •假定要把这假定要把这1616种饮料分成种饮料分成3 3类利用SPSSSPSS,只,只叠代了三次就达到目标了(计算机选的种子还叠代了三次就达到目标了(计算机选的种子还可以)这样就可以得到最后的三类的中心以可以)。

      这样就可以得到最后的三类的中心以及每类有多少点及每类有多少点 根根据据需需要要,,可可以以输输出出哪哪些些点点分分在在一一起起结结果果是是::第第一一类类为为饮饮料料1、、10;;第第二二类类为为饮饮料料2、、4、、8、、11、、12、、13、、14;;第第三三类类为为剩剩下下的的饮饮料料3、、5、、6、、7、、9、、15、、16 SPSSSPSS实现实现( (聚类分析聚类分析) )•K-均值聚类•以 数 据 drink.sav为 例 , 在 SPSS中 选 择Analyze-Classify-K-Menas Cluster,•然后把calorie(热量)、caffeine(咖啡因)、 sodium( 钠 ) 、 price( 价 格 ) 选 入Variables, •在Number of Clusters处选择3(想要分的类数),•如果想要知道哪种饮料分到哪类,则选Save,再选Cluster Membership等•注意k-均值聚类只能做Q型聚类,如要做R型聚类,需要把数据阵进行转置 事先不用确定分多少类:分层聚类事先不用确定分多少类:分层聚类 •另一种聚类称为分层聚类或系统聚类(hierarchical cluster)。

      开始时,有多少点就是多少类•它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;•这样下去,每次都少一类,直到最后只有一大类为止显然,越是后来合并的类,距离就越远再对饮料例子来实施分层聚类 对于我们的数据,对于我们的数据,SPSSSPSS输出的树型图为输出的树型图为 聚类要注意的问题聚类要注意的问题 •聚类结果主要受所选择的变量影响如果去掉一些变量,或者增加一些变量,结果会很不同•相比之下,聚类方法的选择则不那么重要了因此,聚类之前一定要目标明确 •另外就分成多少类来说,也要有道理只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释这一点就不是数学可以解决的了 SPSSSPSS实现实现( (聚类分析聚类分析) )•分层聚类•对drink.sav数据在SPSS中选择Analyze-Classify-Hierarchical Cluster, •然后把calorie(热量)、caffeine(咖啡因)、sodium( 钠 ) 、 price( 价 格 ) 选 入Variables, •在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables, •为 了 画 出 树 状 图 , 选 Plots, 再 点Dendrogram等。

      啤酒成分和价格数据(啤酒成分和价格数据(data14-02)啤酒名啤酒名热量热量钠含量钠含量酒精酒精价格价格Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 152.00 11.00 5.00 .77 Old-milnaukee145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .40 Strchs-bohemi149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser-lich113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos-lich135.00 11.00 4.20 .50 Secrs 150.00 19.00 4.70 .76 Kkirin 149.00 6.00 5.00 .79 Pabst-extra-l 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.40 .43 Heilemans-old144.00 24.00 4.90 .43 Olympia-gold- 72.00 6.00 2.90 .46 Schlite-light 97.00 7.00 4.20 .47 Statistics→Classify →Hierarchical Cluster:Variables:啤酒名和成分价格等Cluster(Case, Q型聚类) Display: (Statistics)(Agglomeration Schedule凝聚状态表), (Proximity matrix), Cluster membership(Single solution, [4])Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/极差)Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical)Save: Cluster Membership(Single solution [4]) 啤酒例子啤酒例子下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两种啤酒之间各变量的欧氏距离平方和两种啤酒之间各变量的欧氏距离平方和 凝聚过程凝聚过程:Coefficients为不相似系数为不相似系数,由于是欧氏距离由于是欧氏距离,小小的先合并的先合并. 分为四分为四类的聚类的聚类结果类结果 冰柱图冰柱图(icicle) 聚类树型图聚类树型图 学生测验数据(学生测验数据(data14-03)50个学生,个学生,X1-X10个测验项目个测验项目要对这要对这10个变量进行变量聚类个变量进行变量聚类(( R 型聚类),过程和型聚类),过程和Q型聚型聚类(观测量聚类,对类(观测量聚类,对cases)一样一样 Statistics→Classify →Hierarchical Cluster:Variables:x1-x10Cluster(Variable, R型聚类) Display: (Statistics) (Proximity matrix), Cluster membership(Single solution, [2])Method: Cluster (Furthest Neighbor), Measure-Interval (Pearson correlation,用Pearson相关系数), Plots: Icicle(All Cluster) 学生测验例子学生测验例子下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两个变量之间变量的欧氏距离平方和两个变量之间变量的欧氏距离平方和 分为两类的聚类结果分为两类的聚类结果 冰柱图冰柱图(icicle) 判别分析 判别判别 •有一些昆虫的性别很难看出,只有通过解剖才能够判别;•但是雄性和雌性昆虫在若干体表度量上有些综合的差异。

      于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫•这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了 判别分析判别分析(discriminant analysis)•这就是本章要讲的是判别分析•判别分析和前面的聚类分析有什么不同呢?•主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定•而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了 判别分析例子判别分析例子•数据disc.sav:企图用一套打分体系来描绘企业的状况该体系对每个企业的一些指标(变量)进行评分•这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等•另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业•我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。

      •该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型这个数据就是一个“训练样本” Disc.savDisc.sav数据数据 根据距离的判别(不用投影)根据距离的判别(不用投影) •Disc.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别•因此每一个企业的打分在这8个变量所构成的8维空间中是一个点这个数据有90个点,•由于已经知道所有点的类别了,所以可以求得每个类型的中心这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离•显然,最简单的办法就是离哪个中心距离最近,就属于哪一类通常使用的距离是所谓的Mahalanobis距离用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂 FisherFisher判别法判别法(先进行投影先进行投影)•所谓Fisher判别法,就是一种先投影的方法•考虑只有两个(预测)变量的判别分析问题•假定这里只有两类数据中的每个观测值是二维空间的一个点见图(下一张幻灯片)。

      •这里只有两种已知类型的训练样本其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)按照原来的变量(横坐标和纵坐标),很难将这两种点分开•于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚可以看出,如果向其他方向投影,判别效果不会比这个好•有了投影之后,再用前面讲到的距离远近的方法来得到判别准则这种首先进行投影的判别方法就是Fisher判别法 逐步判别法逐步判别法(仅仅是在前面的方法仅仅是在前面的方法中加入变量选择的功能中加入变量选择的功能)•有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别也就是,一边判别,一边引进判别能力最强的变量,•这个过程可以有进有出一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks’ Lambda、Rao’s V、The Squared Mahalanobis Distance、Smallest F ratio或 The Sum of Unexplained Variations等检验其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。

      逐步判别的其他方面和前面的无异 Disc.sav例子例子•利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr, ms, msr, cs, 得 到 两 个 典 则 判 别 函 数(Canonical Discriminant Function Coefficients):– 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影这这两两个个典典则则判判别别函函数数的的系系数数是下面的是下面的SPSS输出得到的:输出得到的: Disc.sav例子例子•根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点它们的点图在下面图中 Disc.sav例子例子•从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了这两个典则判别函数并不是平等的其实一个函数就已经能够把这三类分清楚了SPSS的一个输出就给出了这些判别函数(投影)的重要程度:前前面面说说过过,,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。

      该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,,而而第第二二个个只只有有1%当当然然,,二二维维图图要要容容易易看看一一些些投投影影之之后后,,再再根根据据各各点的位置远近算出具体的判别公式(点的位置远近算出具体的判别公式(SPSS输出):输出): Disc.sav例子例子•具体的判别公式(SPSS输出),由一张分类函数表给出: 该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数把把每每个个观观测测点点带带入入三三个个函函数数,,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值,,哪哪个个值值最最大大,,该该点点就就属属于于相相应应的的那那一一类类当当然然,,用用不不着着自自己己去去算算,,计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类当当然然,,我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属属,,但但即即使使是是这这些些训训练练样样本本的的观观测测值值((企企业业))按照这里推导出的分类函数来分类,也不一定全都能够正确划分。

      按照这里推导出的分类函数来分类,也不一定全都能够正确划分 Disc.sav例子例子•下面就是对我们的训练样本的分类结果(SPSS): 误判和正确判别率误判和正确判别率•从这个表来看,我们的分类能够100%地把训练数据的每一个观测值分到其本来的类•该表分成两部分;上面一半(Original)是用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)•下面一半(Cross validated)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的结果•这里的判别结果是100%判别正确,但一般并不一定 Disc.sav例子例子•如果就用这个数据,但不用所有的变量,而只用4个变量进行判别:企业规模(is)、服务(se)、雇员工资比例(sa)、资金周转速度(cs)结果的图形和判别的正确与否就不一样了下图为两个典则判别函数导出的150个企业的二维点图它不如前面的图那么容易分清楚了 原先的图原先的图 Disc.sav例子例子•下面是基于4个变量时分类结果表: •这这个个表表的的结结果果是是有有87个个点点((96.7%))得得到到正正确确划划分分,,有有3个个点点被被错错误误判判别别;;其其中中第第二二类类有有两两个个被被误误判判为为第第一一类类,,有一个被误判为第三类。

      有一个被误判为第三类 判别分析要注意什么判别分析要注意什么??•训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂 •要选择好可能由于判别的预测变量这是最重要的一步当然,在应用中,选择的余地不见得有多大 •要注意数据是否有不寻常的点或者模式存在还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证•判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的使用较少的变量意味着节省资源和易于对结果进行解释 判别分析要注意什么?判别分析要注意什么?•在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果(在SPSS选项中选择Wilks’ Lambda、Rao’s V、The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出),以确定是否分类结果是仅仅由于随机因素•此外成员的权数(SPSS用prior probability,即“先验概率”,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权。

      •对于多个判别函数,要弄清各自的重要性•注意训练样本的正确和错误分类率研究被误分类的观测值,看是否可以找出原因 SPSS选项选项•打开disc.sav数据然后点击Analyze-Classify-Discriminant,•把group放入Grouping Variable,再定义范围,即在Define Range输入1-3的范围然后在Independents输入所有想用的变量;但如果要用逐步判别,则不选Enter independents together,而选择Use stepwise method,•在方法(Method)中选挑选变量的准则(检验方法;默认值为Wilks’ Lambda)•为了输出Fisher分类函数的结果可以在Statistics中的Function Coefficient选 Fisher和UnStandardized(点则判别函数系数) ,在Matrices中选择输出所需要的相关阵;•还可以在Classify中的Display选summary table, Leave-one-out classification;注意在Classify选项中默认的Prior Probability为All groups equal表示所有的类都平等对待,而另一个选项为Compute from group sizes,即按照类的大小加权。

      •在Plots可选 Combined-groups, Territorial map等 14.4.3 判别分析实例P379•鸢尾花数据(花瓣,花萼的长宽) 5个变量:花瓣长(slen),花瓣宽(swid), 花萼长(plen), 花萼宽(pwid), 分类号(1:Setosa, 2:Versicolor, 3:Virginica)(data14-04) Statistics→Classify →Discriminant:Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min-1,max-3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table)Statistics: Descriptive (Means) Function Coefficients (Fisher’s, Unstandardized) Matrix (Within-groups correlation, Within-groups covariance, Separate-groups covariance, Total covariance) Save: (Predicted group membership, Discriminant Scores, Probability of group membership) 鸢尾花数据鸢尾花数据(数据分析过程简明表数据分析过程简明表) 鸢尾花数据鸢尾花数据(原始数据的描述原始数据的描述) 鸢尾花数据鸢尾花数据(合并类内相关阵和协方差阵合并类内相关阵和协方差阵) 鸢尾花数据鸢尾花数据(总协方差阵总协方差阵) 鸢尾花数据鸢尾花数据(特征值表特征值表)Eigenvalue:用于分析的前两个典则判别函数的特用于分析的前两个典则判别函数的特征值征值, 是组间平方和与组内平方和之比值是组间平方和与组内平方和之比值. 最大特最大特征值与组均值最大的向量对应征值与组均值最大的向量对应, 第二大特征值对应第二大特征值对应着次大的组均值向量着次大的组均值向量典则相关系数典则相关系数(canonical correlation):是组间平方是组间平方和与总平方和之比的平方根和与总平方和之比的平方根.被平方的是由组间差被平方的是由组间差异解释的变异总和的比异解释的变异总和的比. 鸢尾花数据鸢尾花数据(Wilks’ Lambda统计量统计量)检验的零假设是各组变量均值相等检验的零假设是各组变量均值相等. Lambda接近接近0表示组均值不同表示组均值不同,接近接近1表示组均值没有不同表示组均值没有不同. Chi-square是是lambda的卡方转换的卡方转换, 用于确定其显著用于确定其显著性性. 鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)标准化的典则判别标准化的典则判别函数系数函数系数(使用时使用时必须用标准化的自必须用标准化的自变量变量) 鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)典则判别函数系数典则判别函数系数 鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)这是类均值这是类均值(重心重心)处的典则判别函数值处的典则判别函数值这是典则判别函数这是典则判别函数(前面两个函数前面两个函数)在类在类均值均值(重心重心)处的值处的值 鸢尾花数据鸢尾花数据(用判别函数对观测量分类结果用判别函数对观测量分类结果)先验概率先验概率(没有给没有给)费歇判别函数系数费歇判别函数系数把自变量代入三个把自变量代入三个式子式子,哪个大归谁哪个大归谁. Territorial MapCanonical DiscriminantFunction 2 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌￿￿￿￿12.0 12 23 12 23 12 23 12 23 12 23 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23 4.0 12 23 12 23 12 23 12 23 12 23 12 23 * .0 * 12 23 12 * 23 12 23 12 23 12 23 12 23 -4.0 12 23 12 23 12 23 12 23 12 23 12 23 -8.0 12 23 12 23 12 23 12 23 12 23 12 23 -12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌￿￿￿￿￿￿-12.0 -8.0 -4.0 .0 4.0 8.0 12.0 Canonical Discriminant Function 1Symbols used in territorial mapSymbol Group Label------ ----- -------------------- 1 1 刚毛鸢尾花￿￿￿2 2 变色鸢尾花￿￿￿3 3 佛吉尼亚鸢尾花￿￿￿*￿￿￿￿￿￿￿￿￿￿￿Indicates a group centroid鸢尾花数据鸢尾花数据Territory Map(区域图区域图)Canonical Discriminate Function 1VersusCanonical Discriminate Function 2三种三种鸢尾花鸢尾花的典则变量值的典则变量值把一个典则变量组成的坐把一个典则变量组成的坐标平面分成三个区域标平面分成三个区域. *为为中心坐标中心坐标. 鸢尾花数据鸢尾花数据(预测分类结果小结预测分类结果小结)可以看出分错率可以看出分错率 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.