
第五章 判别分析.ppt
40页第五章 判别分析第五章 判别分析 在一些自然科学和社会科学的研究中,研究对象用某种 在一些自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型,当得到的一个新的样品数据(通常方法已划分为若干类型,当得到的一个新的样品数据(通常是多元的),要确定该样品属于已知类型中的哪一类,这样是多元的),要确定该样品属于已知类型中的哪一类,这样的问题属的问题属判别分析判别分析 判别分析是根据观察或测量到若干变量值,判断研究对判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法实际上是根据表明事物特点的变量值和象如何分类的方法实际上是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法的事物进行分类的一种分析方法分类:分类:1、按判别的组数来分,有两组判别分析和多组判别分析、按判别的组数来分,有两组判别分析和多组判别分析2、按区分不同总体所用的数学模型来分,有线性判别和非、按区分不同总体所用的数学模型来分,有线性判别和非线性判别线性判别3、按判别对所处理的变量方法不同有逐步判别、序贯判别。
按判别对所处理的变量方法不同有逐步判别、序贯判别4、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则第一节第一节 距距离判别法离判别法第二节第二节 以直线划分的判别法以直线划分的判别法第三节第三节 以曲线划分的判别法以曲线划分的判别法第四节第四节 费歇尔判别法费歇尔判别法第五节第五节 逐步判别法逐步判别法 §1 距离判别法距离判别法1.1 统计距离统计距离设设m维空间上两点维空间上两点P(x1,x2,…,xm)与与Q(y1,y2,…,ym),,P与与Q的欧氏距离:的欧氏距离: d(P,Q) = [(x1--y1)2+(x2--y2)2 +…+ (xm--ym)2]1/2欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量一致、波动幅度一致一致、波动幅度一致1936年,印度统计学家年,印度统计学家Mahalanobios引入统计距离概念,引入统计距离概念,也称为也称为“马氏距离马氏距离”设设Q点坐标固定,点坐标固定,P点坐标相互独立变化。
用点坐标相互独立变化用s12,s22,…,sm2 表示表示P的的m个坐标的个坐标的n次观测的样本方差,则次观测的样本方差,则P到到Q的统计距的统计距离离设设X、、Y是从均值向量为是从均值向量为μ、协方差阵为、协方差阵为Σ的总体的总体G中抽取的中抽取的两个样本,两个样本,X与与Y两点间的马氏距离定义为 两点间的马氏距离定义为 X与总体与总体G的马氏距离定义为 的马氏距离定义为 设两总体设两总体G1、、G2,它们的均值向量为,它们的均值向量为μ1和和μ2,协方差阵都为协方差阵都为Σ,则总体,则总体G1和和G2之间的马氏距离定义为 之间的马氏距离定义为 马氏距离满足距离的三条公理马氏距离满足距离的三条公理(1) 非负性 非负性 d(P,Q)≥0,等号成立的充要条件是,等号成立的充要条件是P = Q;;(2) 对称性 对称性 d(P,Q) = d(Q,P);;(3) 三角不等式 三角不等式 d(P,Q)≤d(P,R) + d(R,Q) 设两个 设两个m元总体元总体G1、、G2,它们的均值向量为,它们的均值向量为μ1和和μ2,协协方差阵分别为方差阵分别为Σ1、Σ2设X = (x1, x2, … , xm)是一待判样是一待判样品,品,距离判别准则距离判别准则为 为 (1) 若若 d(X,G1) ≥ d(X,G2) ,则,则 X ∈∈ G2;;(2) 若若 d(X,G2) ≥ d(X,G1) ,则,则 X ∈∈ G1;; 实际问题中, 实际问题中,μ1、、μ2、Σ1、Σ2往往未知,分别用其样本均往往未知,分别用其样本均值和样本方差来估计,则马氏距离的估计值分别为值和样本方差来估计,则马氏距离的估计值分别为(1) 若若 d(X,G1) ≥ d(X,G2) ,则,则 X ∈∈ G2;;(2) 若若 d(X,G2) ≥ d(X,G1) ,则,则 X ∈∈ G1;;距离判别准则距离判别准则为为∧∧∧∧∧∧∧∧ 设 设k个个m元总体元总体G1、、…、、Gk,它们的均值向量为,它们的均值向量为μ1、、…、、μk,协方差阵分别为协方差阵分别为Σ1、...、Σk。
设设X = (x1, x2, … , xm)是一待判样品,是一待判样品,马氏距离马氏距离为 为 若若 d(X,Gj) = mini{d(X,Gi)} ,则,则 X ∈∈ Gj 实际问题中, 实际问题中,μi、Σi 往往未知,分别用其样本均值和样本往往未知,分别用其样本均值和样本方差来估计方差来估计距离判别准则距离判别准则为为1.2 多个总体的距离判别 多个总体的距离判别( j = 1,…,k ) 当 当k个总体协方差矩阵相等时,个总体协方差矩阵相等时,Σ1=Σ2=...=Σk= Σ判别函判别函数数为 为 Wij(X) = 0.5[d2(X,Gi)--d2(X,Gj)] = [X--0.5(μi+μj)]T Σ-1 (μi--μj) (i , j = 1,…,k) 实际问题中, 实际问题中,μ1、、…、、μk、Σ往往未知,分别用其样本均往往未知,分别用其样本均值和样本方差来估计值和样本方差来估计距离判别准则距离判别准则为为对所有的对所有的j≠i,当,当Wij(X)>0时,则判时,则判X ∈∈ Gi;; 当当Wij(X)=0时,则判时,则判X ∈∈ Gi或或X∈∈ Gj。
1.3 判别准则的评价判别准则的评价1 误判率回代估计法 误判率回代估计法 设 设 (X1(1),X2(1) ,…,Xn1(1) ) 与与(X1(2) ,X2(2) ,…,Xn2(2) ) 是分是分别来自总体别来自总体G1、、G2的样本,以全体样本作为的样本,以全体样本作为n1+n2个新样个新样本,逐个代入已建立的判别准则中,判别其归属,这个过本,逐个代入已建立的判别准则中,判别其归属,这个过程为回代用程为回代用n12、、n21分别表示将本属于分别表示将本属于G1的样本误判为的样本误判为G2的个数、的个数、将本属于将本属于G2的样本误判为的样本误判为G1的个数,误判率的的个数,误判率的回代估计回代估计 当一个判别准则提出后,还要研究其优良性,即要考 当一个判别准则提出后,还要研究其优良性,即要考察误判概率察误判概率2 误判率的交叉确认估计法 误判率的交叉确认估计法 每次剔除一个样品,利用其余 每次剔除一个样品,利用其余n1+n2--1个样本建立判别个样本建立判别准则,再用所建立的判别准则对删除的样品做判别,对样准则,再用所建立的判别准则对删除的样品做判别,对样本中每个样品都做上述分析,以其误判的比例来作为误判本中每个样品都做上述分析,以其误判的比例来作为误判概率的估计。
具体步骤:概率的估计具体步骤:(1) 从总体从总体G1开始,剔除其中的一个样品,用剩余的开始,剔除其中的一个样品,用剩余的n1--1个样品为个样品为G1的样本,的样本, G2的样本不变,建立判别函数;的样本不变,建立判别函数;(2) 用建立的判别函数对剔除的样品作判别;用建立的判别函数对剔除的样品作判别;(3) 重复重复(1)(2),对,对G2也作如此处理,其误判样品个数分也作如此处理,其误判样品个数分别记为别记为n12*、、n21*4) 交叉交叉误判率的估计误判率的估计注:一般地,总体差异越大,判别准则越有效注:一般地,总体差异越大,判别准则越有效§2 以直线划分的判别法以直线划分的判别法•一、判别的基本思想一、判别的基本思想•把观测到的把观测到的n个样本看作个样本看作p维空间的维空间的n个点,以个点,以某种方法将某种方法将p维空间划分为互不相交的维空间划分为互不相交的q个区域,个区域,每个区域对应着一个类,对于给定的新样本点,每个区域对应着一个类,对于给定的新样本点,必然要落入其中某个类中必然要落入其中某个类中•对于满足类内样本点接近、类间样本点疏远的对于满足类内样本点接近、类间样本点疏远的性质,可以通过统计量来表现。
性质,可以通过统计量来表现•比值越大说明类与类间差异越大,分类效果越比值越大说明类与类间差异越大,分类效果越好好•二、两个类别的判别二、两个类别的判别•步骤:步骤:•1、计算两类、计算两类(A,B)各自的均值各自的均值•2、计算类内离差平方和与类间离差平方和、计算类内离差平方和与类间离差平方和•3、、求出判别函数求出判别函数•4、计算待判样本的三个值、计算待判样本的三个值y, ,•5、、判断判断 先建立判别临界值先建立判别临界值y0,在两总体先验概率相等的假设在两总体先验概率相等的假设下,一般常取下,一般常取 如果如果 ,则判定准则为:,则判定准则为: y>y0,x属于属于A组;组; y 数据见个待判个体属于何组数据见spssex/ex601•三、三个类别情形的判别•1、三条线都有通过所有点的重心•2、三条线相交组成一个三角形§3 以曲线划分的判别法以曲线划分的判别法•一、判别原理•马氏距离:•判别函数:•判别原则:•二、马氏距离导出的二次曲线判别•例例3.研究某年全国各地区农民家庭收支的分布规研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类,共抽取律,根据抽样调查资料进行分类,共抽取28个省、个省、市、自治区的六个指标数据先采用聚类分析,市、自治区的六个指标数据先采用聚类分析,将将28个省、市、自治区分为三组,其中北京、上个省、市、自治区分为三组,其中北京、上海、广州海、广州3个城市属于孤立样本单位,未归属于已个城市属于孤立样本单位,未归属于已分的三组中,现采用曲线判别法来判定北京、上分的三组中,现采用曲线判别法来判定北京、上海、广州归属于哪个组原始数据见海、广州归属于哪个组原始数据见spssex/ex603§4 Fisher判别法判别法 设 设 Xi(t)=(Xi1(t) ,…,Xim(t) )是取自总体是取自总体Gt的的m元样本元样本(t=1,…,k; i=1,…,nt)。 令令a=(a1,…,am)T为为m维空间的任一向维空间的任一向量,量,u(X)=aTX为为X向以向以a为法线方向上的投影投影数据为为法线方向上的投影投影数据为 aTXi(t)(一元数据一元数据).记记1. Fisher判别法的基本思想--投影判别法的基本思想--投影 将 将k组组m元数据投影到某一个方向,使得投影后组与组之间元数据投影到某一个方向,使得投影后组与组之间尽可能地分开,并利用一元方差分析的思想导出判别函数尽可能地分开,并利用一元方差分析的思想导出判别函数由于线性函数的方便实用性,最常用的是线性判别函数由于线性函数的方便实用性,最常用的是线性判别函数•将各组样本均值投影到某条直线上,得到各组样本均值在该直线的投影坐标,投影坐标值距离越远越容易判断待判样本属于哪个组ab样本均值样本均值组间离差平方和组间离差平方和组内离差平方和组内离差平方和若若k 个总体均值有显著差异,则比值 应充分大个总体均值有显著差异,则比值 应充分大. 问题转化为求问题转化为求a使得使得Δ(a)达到最大为使解唯一,变为条件达到最大为使解唯一,变为条件极值问题:求极值问题:求a使得使得Δ(a)在条件在条件 aTAa = 1 达到最大。 达到最大2 线性判别函数的求法 线性判别函数的求法 已知 已知a在条件在条件 aTAa = 1下使下使Δ(a) 达到最大的方向,称达到最大的方向,称u(X) = aTX为线性判别函数为线性判别函数利用拉格朗日乘数法求条件极值利用拉格朗日乘数法求条件极值 令令L(a) = aTBa--λ(aTAa--1) = 1,又令,又令 dL/da = 2(B--λA)a = 0,可得,可得 Ba=λAa,即,即 A-1Ba =λa这说明λ是是A-1B的特征值,的特征值,a是相应的特征向量进一步,是相应的特征向量进一步, Δ(a) = aTBa =λaTAa =λ 问题最终转化为求问题最终转化为求A-1B的最大特征值的最大特征值 设 设A-1B的正特征值的正特征值λ1≥λ2≥…≥λr>0,相应的特征向量,相应的特征向量a1,a2,…,arui(X) =aiTX为第为第i个线性判别函数,当第个线性判别函数,当第1个线个线性判别函数不能很好地区分多个总体时,可再利用第性判别函数不能很好地区分多个总体时,可再利用第2、第、第3、、…线性判别函数线性判别函数Δ(a) 也称为也称为判别效率判别效率。 前前q个线性判别函数的累计判别能力个线性判别函数的累计判别能力(q≤r) Pq = (λ1+…+λq) / (λ1+ … +λr)(一一) 两个总体的两个总体的Fisher判别准则判别准则 易知两总体的组间离阵 易知两总体的组间离阵B的秩为的秩为1,故,故A-1B只有一个非零只有一个非零特征值特征值λ,对应的特征向量为,对应的特征向量为b线性判别函数线性判别函数u(X) = bTX, 相应的判别效率相应的判别效率判别准则判别准则 当 当u(1) > u(2)时,若时,若u(X) > u (或或u*),则判,则判X∈∈G1;若;若u(X) < u (或或u*),则判,则判X∈∈G2;若;若u(X) = u (或或u*),则,则X等待判当当u(1) < u(2)时,类似时,类似 3 Fisher判别准则判别准则记记 - - - - - - -(二二) 多个总体的多个总体的Fisher判别准则判别准则 先取第 先取第1线性判别函数线性判别函数u1(X) = a1TX,,k个总体的均值向量个总体的均值向量在在 a1 上的投影为上的投影为u1(i) = a1TX(i) (i=1,…,k)。 对待判样品对待判样品X,计算它在,计算它在 a1 上的投影,若存在唯一的上的投影,若存在唯一的 i1,使得,使得则判则判X∈∈G1若有多于一个总体,使其与若有多于一个总体,使其与u1(X)距离相等且距离相等且最小,则再利用第最小,则再利用第2线性判别函数,线性判别函数,…,直到每个样品归属,直到每个样品归属都得到确定为止都得到确定为止•例:为研究某地区人口死亡状况,已按某种方例:为研究某地区人口死亡状况,已按某种方法将法将15个已知样本单位分为三组,选择判别变个已知样本单位分为三组,选择判别变量为量为2个:个:55岁组死亡概率岁组死亡概率q55和和80岁组死亡岁组死亡概率概率q80建立判别函数,判定另外建立判别函数,判定另外4个待判样个待判样本属于何组数据见本属于何组数据见 spssex/ex602SPSS•Discriminant过程根据已知的观测量分类过程根据已知的观测量分类和表明观测量特征推导出的判别函数,并和表明观测量特征推导出的判别函数,并把各观测量的变量值回代到判别函数,根把各观测量的变量值回代到判别函数,根据判别函数对观测量所属类别进行判别据判别函数对观测量所属类别进行判别。 对比原始数据的分类和按判别函数所羊的对比原始数据的分类和按判别函数所羊的分类,给出错分概率分类,给出错分概率功能功能•给出各类观测量的单变量的描述统计量给出各类观测量的单变量的描述统计量•给出费歇尔判别函数的系数或标准化及未标准化给出费歇尔判别函数的系数或标准化及未标准化的典则判别函数的系数的典则判别函数的系数•给出类内相关矩阵,类内、类间协方差矩阵和总给出类内相关矩阵,类内、类间协方差矩阵和总协方差矩阵协方差矩阵•给出按判别函数判别的各观测量所属类别给出按判别函数判别的各观测量所属类别•带有错分率的判别分析小结带有错分率的判别分析小结•生成表明各类分布的区域图和散点图生成表明各类分布的区域图和散点图建立判别函数的方法建立判别函数的方法•全模型法:全模型法: •把用户指定的变量全部放入判别函数中,把用户指定的变量全部放入判别函数中,不管变量对判别函数是否起作用,作用的不管变量对判别函数是否起作用,作用的大小如何大小如何•逐步选择法:逐步选择法:判别分析的基本步骤:判别分析的基本步骤:•1、选择自变量及组变量、选择自变量及组变量•2、计算各组单变量的描述统计量、计算各组单变量的描述统计量•3、推导判别系数,给出标准化或未标准化的典则、推导判别系数,给出标准化或未标准化的典则判别系数,并对函数显著性进行检验判别系数,并对函数显著性进行检验•4、建立、建立Fisher线性判别函数线性判别函数•5、进行判别分组、进行判别分组•6、进行样本回判分析,计算错分率、进行样本回判分析,计算错分率•7、输出结果、输出结果§5 Bayes判别法判别法 设 设G1、、…、、Gk为为k个个m维总体,分别有不同的概率密度函数维总体,分别有不同的概率密度函数f1(x)、、…、、fk(x)。 设设k 个总体出现的个总体出现的先验概率分布先验概率分布为为q1、、…、、qk误判的损失通常在判别分析前就可估计,用误判的损失通常在判别分析前就可估计,用c(j|i)表示将属表示将属于于Gi的样品误判为的样品误判为Gj所造成的所造成的损失度量损失度量 一个判别准则实质是对空间 一个判别准则实质是对空间Rm作一不重叠的划分作一不重叠的划分D1、、…、、Dk,若,若X落入落入Di,则判此样品属于总体,则判此样品属于总体Gi简记判别准则为 简记判别准则为 D=(D1 ,…,Dm),以,以P( j|i, D)表示在判别准则表示在判别准则D下将事实上来自下将事实上来自Gi的样品误判为来自的样品误判为来自Gj的概率则的概率则1. Bayes判别法的基本思想判别法的基本思想 Bayes统计的基本思想是:统计的基本思想是:假定对所的对象假定对所的对象(总体总体)在抽样前在抽样前已有一定的认识,常用先验概率分布来描述这种认识,然后已有一定的认识,常用先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识做修正,得到后验概率分布,基于抽取的样本再对先验认识做修正,得到后验概率分布,再基于后验概率分布做各种统计推断。 再基于后验概率分布做各种统计推断在判别准则在判别准则D下,来自下,来自Gi的样品误判为其它总体的期望损失为的样品误判为其它总体的期望损失为在判别准则在判别准则D下,总的期望损失为下,总的期望损失为Bayes判别就是:判别就是:选择选择判别准则判别准则D=(D1 ,…,Dm),使得总的,使得总的期望损失期望损失L达到最小达到最小在判别准则在判别准则D下,总的期望损失为下,总的期望损失为要要使得总的期望损失使得总的期望损失L达到最小,取达到最小,取2 两总体的 两总体的Bayes判别判别 两个总体的两个总体的Bayes判别准则判别准则特别地,设特别地,设G1、、G2为两正态总体,其均值向量和协方差矩为两正态总体,其均值向量和协方差矩阵分别为阵分别为μ1、、μ2、、Σ1、、Σ2 如果如果Σ1=Σ2=Σ,记,记Bayes判别准则为判别准则为特别地,设特别地,设G1、、G2为两正态总体,其均值向量和协方差矩为两正态总体,其均值向量和协方差矩阵分别为阵分别为μ1、、μ2、、Σ1、、Σ2 如果如果Σ1≠Σ2,记,记Bayes判别准则为判别准则为§6 逐步判别分析逐步判别分析•一、逐步判别原理一、逐步判别原理•逐步判别分析从模型没有变量开始,每一步都对逐步判别分析从模型没有变量开始,每一步都对模型进行检验,把模型外对模型的判别力贡献最模型进行检验,把模型外对模型的判别力贡献最大的变量加到模型中,同时考虑已经在模型中但大的变量加到模型中,同时考虑已经在模型中但又不符合留在模型中条件的变量从模型中剔除。 又不符合留在模型中条件的变量从模型中剔除•一个变量能否进入模型主要取决于协方差分析的一个变量能否进入模型主要取决于协方差分析的F检验的显著性水平检验的显著性水平•F统计量的构造:•根据筛选后得到的变量,建立贝叶斯判根据筛选后得到的变量,建立贝叶斯判别函数进行判别分析:别函数进行判别分析:•判别原则:对每个待判样本判别原则:对每个待判样本x,,分别计算分别计算各类判别函数值,比较值的大小,各类判别函数值,比较值的大小,x属于属于值最大组值最大组•二、选择变量方法二、选择变量方法•1、、Wilk’s λ最小法最小法•2、、Rao’V最大法最大法•3、马氏距离最大法、马氏距离最大法•4、、F统计量最大法统计量最大法•5、剩余离差平方和最小法、剩余离差平方和最小法Wilk’s λ最小法•U统计量• λ=组内平方和/总平方和,每一步都是统计量最小的进入判别函数•容许度=1-Ri2 (Ri2为偏相关系数)Rao’V最大法最大法•每步每步都是使都是使RaoV统计量产生最大增量的变量进入统计量产生最大增量的变量进入判别函数判别函数•P—模型中的变量数,模型中的变量数,g—分类数,分类数,nk—第第k组样组样本大小,本大小,Wij*—组间协方差矩阵的逆矩阵组间协方差矩阵的逆矩阵•V—两组均值之差两组均值之差组间的组间的F检验检验每步都使每步都使任何两类间的最小的任何两类间的最小的F值最大值最大的变量进入判别函数的变量进入判别函数•例:为研究某地区人口死亡状况,已按某种方法例:为研究某地区人口死亡状况,已按某种方法将将15个已知样本点分为三组,选择判别变量为个已知样本点分为三组,选择判别变量为6个:个:0岁组死亡概率岁组死亡概率q0,1岁组死亡概率岁组死亡概率q1,10岁组死亡岁组死亡概率概率q10,55岁组死亡概率岁组死亡概率 q55, 80岁死亡概率岁死亡概率q80,平均预期寿命平均预期寿命e0。 试用逐步判别法建立判别试用逐步判别法建立判别函数,判定另外函数,判定另外4个待判样本点属于何组数据见个待判样本点属于何组数据见 spssex/ex604。












