好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

sas学习系列36.判别分析..docx

31页
  • 卖家[上传人]:今***
  • 文档编号:105737963
  • 上传时间:2019-10-13
  • 文档格式:DOCX
  • 文档大小:1.09MB
  • / 31 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 36. 判别分析(一)基本原理判别分析,是用以判别个体所属类的一种统计方法其原理是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用该判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规则一、距离判别法未知总体的样品x离哪个总体的距离最近,就判断它属于哪个总体1. 对于两个正态总体G1, G2距离选用马氏(Mahalanobis)距离:d2(x, G1) = (x-μ1)T∑1-1(x-μ1)d2(x, G2) = (x-μ2)T∑2-1(x-μ2)其中,μ1, μ2, ∑1, ∑2分别为总体G1, G22的均值和协差矩阵令W(x) = d2(x, G1) - d2(x, G2)称为判别函数,若∑1=∑2时,W(x)是线性函数,此时称为线性判别;若∑1≠∑2,W(x)是二次函数2. 多总体情况设有m个总体:G1, …, Gm,其均值、协差阵分别为μi, ∑i. 对给定的样品x,按距离最近的准则对x进行判别归类:首先计算样品x到m个总体的马氏距离di2(x), 然后进行比较,把x判归距离最小的那个总体,即若dh2(x) = min{ di2(x) | i = 1,…,m},则x∈Gh.二、Fisher线性函数判别法为了方便使用,需要寻找尽量简单的判别函数,其中在Fisher准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。

      图1 Fisher线性判别分析示意图下面以两个总体为例来说明Fisher判别的思想 设有两个总体G1、G2,其均值分别为m1和m2,协方差阵分别S1和S2,并假定S1 = S2 = S,考虑线性组合:y = LTx通过寻求合适的L向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小为此,可以证明,当选L=cS–1(m1–m2),其中c ¹ 0时,所得的投影即满足要求从而称c = 1时的线性函数:y = LTx = (m1 – m2)TS–1x为Fisher线性判别函数其判别规则为:其中,m为两个总体均值在投影方向上的中点,即三、贝叶斯判别法设m个总体G1, …, Gm,其分布密度分别为f1(x), …, fm(x),各自的先验概率(可以根据经验事先给出或估出)分别为q1, …, qm,显然当抽取了一个未知总体的样品x,要判断它属于哪个总体,可用著名的贝叶斯公式计算x属于第j个总体的后验概率:若则判断x属于第h个总体或者计算按先验概率加权的误判平均损失:其中,C(j | i)为假定本来属于Gi的样品被判为属于Gj时造成的损失,当然C(i | i) = 0,C(j | i)³ 0. 再比较这m个误判平均损失的h1(x), …, hm(x)的大小,选取其中最小的,就可以判定样品x来自该总体。

      在实际问题中,错判的损失可以给出定性分析,但很难用数值来表示,但应用贝叶斯判别法时,要求定量给出C(j | i),C(j | i)的赋值通常:根据经验人为赋值;假定各种错判的损失都相等 错判概率 当样品xÎGi,用判别法判别时,把x判给Gj (i≠j),出现错判用P(j|i))表示实属Gi的样品错判为Gj的概率 广义平方距离判别法 在正态总体的假定下,按贝叶斯判别的思想,在错判造成的损失认为相等的情况下得到的判别函数,其实就是马氏距离判别法在考虑先验概率及协方差阵是否相等情况下的推广,故在SAS的DISCRIM过程中称为广义平方距离判别法四、逐步判别法 所有变量中,有的变量对区分k个总体的判别能力可能很强,有的可能很弱如果不加区别地用全部变量来建立判别函数,则必增加大量的计算,还可能因为变量间的相关性引起计算上的困难(病态或退化等)及计算精度的降低另一方面由于一些对区分k个总体的判别能力很小的变量的引入,产生干扰,致使建立的判别函数不稳定,反而影响判别效果,因此自然提出一个变量的选择问题即如何从m个变量中挑选出对区分k个总体有显著判别能力的变量,来建立判别函数,用以判别归类。

      1. 各变量判别能力的检验筛选判别变量和做逐步判别,都需要检验各变量的判别能力若第i个分量间没有显著差异时,说明相应的变量Xi对判别分类不起作用,应该剔除变量判别能力的度量通常采用删去该变量后考察判别能力的变化,即考察该变量对区分k个类是否能提供更多的附加信息,然后由附加信息构造F统计量进行检验 利用F统计量对假设(H0:第i个变量在k个总体中的均值相等)作统计检验若否定H0,表示变量Xi对区分k个总体的判别能力是显著的(在显著水平α下)否则,变量Xi对区分k个总体的判别能力不能提供附加信息,这个变量应剔除2. 基本思想 逐个引入变量,每次把一个判别能力最强的变量引入判别式,每引入一个新变量,对判别式中的老变量逐个进行检验,如其判别能力因新变量的引入而变得不显著,应把它从判别式中剔除这种通过逐步筛选变量使得建立的判别函数中仅保留判别能力显著的变量的方法,就是逐步判别法 3. 基本步骤 (1)逐步筛选变量:根据各变量对区分k个总体的判别能力的大小来筛选变量SAS中的STEPDISC过程专用于筛选变量子集该过程利用向前选入、向后剔除或逐步筛选的方法来选择区分k个总体的最佳变量子集。

      2)判别归类:对已选出变量子集,使用前文的某种判别方法对样品进行判别归类二)判别分析的SAS实现一、PROC STEPDISC过程步(逐步判别分析)针对具有一个分类变量和若干数值型变量的数据集,STEPDISC过程执行逐步判别分析:从指定的指标变量(VAR变量)中筛选出一组变量,以用于随后的判别分析逐步判别分析要求指标变量在各组内服从多元正态分布,并且具有相同的协方差矩阵基本语法:PROC STEPDISC data = 数据集 <可选项> ; CLASS 变量;BY 变量;VAR 变量列表;FREQ 变量;WEIGHT 变量;可选项:MAXSTEP=n——指定最大步数;METHOD=BACKWARD/FORWARD/STEPWISE——指定筛选方法:向前选入、向后剔除、逐步筛选;SHORT——只输出汇总结果(压缩每一步的输出);SLE/SLENTRY=p——指定向“向前选入法”的显著水平(默认p=0.15);SLS/SLSTAY =p——指定向“后退剔除法”的显著水平(默认p=0.15);CLASS语句和BY语句——必不可少,指定分组变量(区别是BY语句需要事先对BY变量排序);二、PROC DISCRIM过程步(判别分析)DISCRIM过程根据一个分类变量和若干数值变量的数据计算出各种判别函数(判别准则),根据这个判别函数,再将该批数据或其他数据中的观测分别归入已知类别中去。

      DISCRIM过程用以获得判别准则的数据称之为训练数据集若假设每个组内样本的分布为多元正态分布,基于多元正态分布理论的参数法将导出一个线性或二次的判别函数;否则,将采用不基于任何分布的假定的非参数方法(核密度法和K最邻近法),来估计类别的密度从而实现分类的功能基本语法:PROC DISCRIM data=训练数据集 testdata=数据集 <可选项> ;CLASS变量;BY 变量;FREQ 变量;ID 变量;PRIORS 概率表;TESTCLASS 变量;TESTFREQ 变量;TESTID 变量;VAR 变量列表;WEIGHT变量;可选项:l outstat=数据集名——生成数据集,包含各种统计量(均值,标准偏差和相关);out/outcross=数据集名——生成(/交叉)数据集,包括来自训练数据集的所有数据,后验概率和每个观测通过重替换被分入的类(当canonical选项指定时,该数据集还包含典型变量得分的新变量);outd=数据集名——生成一个包含来自训练数据集的所有数据和每一观测的组密度估计的数据集;l 注:前面命令若加test前缀,则输出testdata数据集生成的相关数据集。

      l method=normal/npar——指定生成分类准则的方法,默认为normal表示基于类内服从多元正态分布,并生成线性或二次判别函数; npar表示采用非参数方法;l pool= no/ test /yes——确定平方距离的度量,是以合并协方差阵还是组内协方差阵为基础,默认pool= yes采用合并协方差阵得出线性判别函数;当pool=no时,采用单个组内协方差阵得出二次判别函数;当method= normal时,pool=test要求对组内协方差阵的齐性的似然比检验进行Bartlett修正,当不加可选项short时,线性判别函数会直接给出,而二次型判别函数需通过建立输出数据集方式获得;l slpool=p——指定齐性检验的显著水平(默认p=0.1,只用于pool=test时);l threshold=p——指定分类中可以接受的最小后验概率p值,默认p=0,若某观察样品归于某组的最大后验概率值小于该p值,则将该样品归入其它组;l anova和manova选项——分别要求输出对各类的单个变量与多个变量的均数、均值向量之间进行一元或多元方差分析的结果,其作用就是检验判别函数的判别效果;l listerr和crosslisterr选项——listerr表示输出由后验概率产生错误分类的样品点的有关信息,crosslisterr表示要求以交叉表的形式输出实际类别与分类结果之间一致和不一致的有关信息;l var语句——指定用于进行判别分析的变量子集,建立起关于此变量子集的判别函数表达式;l priors语句——指定先验概率:priors equal(默认),表示各类先验概率相等;priors proportional, 表示各类先验概率等于各类样本频率;priors a=p1 b=p2 c=p3;其中a、b和c是分类标志,p1、p2和p3是先验概率,p1+p2+p3=1.三、PROC CANDISC过程步(典型判别分析)该过程步计算平方马氏距离并做单变量与多变量的单向方差分析并且计算类均值间基于合并类内协方差阵的平方距离。

      该过程产生包括典型系数和典型变量得分的输出数据集典型判别分析类似于主成份分析和典型相关有关的降维方法给定若干组带有几个定量变量的观察,典型判别分析得出与组有最大可能多重相关的变量的线性组合最大的多重相关叫做第一典型相关线性组合的系数称为典型系数或典型权重线性组合定义的变量称为第一典型变量或典型成份第二典型相关由与第一典型变量无关的线性组合得到以此类推CANDISC过程得出的典型变量,如同主成分概括全变差一样来概括类间变差基本步骤:l (1)变换变量使合并的类内协方差阵为单位阵;l (2)计算变换后的变量的类均值;l (3)对均值做主成份分析,以每一类中的观察个数为权重;l (4)特征值等于每个主成份方向上的类间偏差与类内偏差之比;l (5)把主成份变量反变换到原始变量的空间,获得典型变量典型变量间不相关,但典型系数并不正交因此,典型变量并不代表原始变量空间中的正交方向对每一个典型相关,CANDISC检验总体中该相关及更小的典型相关为零的假设采用F近似值比一般的近似值能给出更好的小样本结果每一类内变量应该具有近似的多元正态分布,为了概率水平有效,方差矩阵应该是共同的。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.