
《数学地质》6讲(11,12,13)判别分析.doc
21页1第 11,12,13 课 判别分析(Discriminant Analysis)讲五个问题:讲五个问题:一、什么是判别分析; 二、费歇准则下的二组判别分析; 三、贝叶斯多组判别分析; 四、多组逐步判别分析; 五、问题讨论和实例一、什么是判别分析一、什么是判别分析概念:概念:判别分析是一种判别样品所属类型的统计方法思想:思想:根据已知类型的样品,按其特征,构造一个判别函数,定出划分类型的界线,并对新 样品所属类型进行判别(也可对已知类型的样品进行判别检验) 类型:类型:若判别类型是两个时,称两组判别分析如油层、水层;有矿、无矿等若判别的类 型是两个以上时称多组判别分析如油层、气层、水层;泥岩、砂岩、灰岩等原则:原则:两组判别分析是在 fisher 意义下求解,多组判别是在 Bayes 意义下求解原理:原理:见如下几何图形所示:2当 P=2 时:21 122 1jj jyc xc xc x当在 P 维时:1 122 1pppjj jyc xc xc xc xL—综合指标,是的线性函数,也有非线性的yix式中:—判别系数jc应用:应用: ◆ 判别和检验样品的所属类型;◆评价,如岩体评价,区别海相或陆相砂岩,区别含油层或含水层。
鉴别矿物、岩石类 型和古生物的种属;◆地层和岩相的划分;◆解释砂体的构造背景,区别沉积条件和环境,火山构造类型等二、两组判别分析二、两组判别分析——Fisher 准则准则前提条件:A、B 两类总体,A 组取了个样品,B 组取了个样品,每个样品测定了 P 个1n2n指标,原始数据见教材1、求线性判别函数 y1 122 1pppjj jyc xc xc xc xL式中:—待定系数 —指标jcjx问题的关键是如何求得,使得A、B两组分的很清楚,即要得到值,使得A、B区分开jcy原则:原则:Fisher:类间差别要大,类内差别要小综合指标 A 类 (个样品) 综合指标 B 类 (个样品)1n2n111111212122212( ),( ),,( )( ),( ),,( )( ),( ),,( )PPnnn PxA xAxAxA xAxAxA xAxALLL L L L L L L L L L L 112( )( )( )ny AyAyAM222111212122212( ),( ),,( )( ),( ),,( )( ),( ),,( )PPnnn PxB xBxBxB xBxBxB xBxBLLL L L L L L L L L LL 212( )( )( )ny By ByBM3A 类样品用 ——代表 =1111( )( )ni iy Ay An 1( )( )pjj jy Ac xAA 类样品用 ——代表 =2121( )( )ni iy By Bn 1( )( )pjj jy Bc x BA 类内差别为:121( )( )ni iy Ay AB 类内差别为:221( )( )ni iy By B类内差别为:122211( )( )( )( )nnii iiFy Ay Ay By B类间差别为:2( )( )Qy Ay BFisher 准则:使达到极大,求出。
即:QIFjc1222211( )( )( )( )( )( )nnii iiy Ay BIy Ay Ay By B根据数学分析中求极值原理,即使:120,0,,0pIII cccL20jjjQFFQccI cF即得:1jjQF Icc因:211( )( )( )( )ppjjjj jjQy Ay Bc xAc x B2211[( )( )]ppjjjjj jjc xAx Bc d4式中:( )( )jjjdxAx B122211( )( )( )( )nnii iiFy Ay Ay By B12221111[( )( )][( )( )]nnppjijjjijj ijijc xAxAc xBx B 1111[( )( )][( )( )]nppjijjkikk ijkc xAxAc xAxA 1111[( )( )][( )( )]nppjijjkikk ijkc xBx Bc xBxB 1111( )( )( )( )nppjkijjikk ijkc cxAxAxAxA2111( )( )( )( )nppjkijjikk ijkc cxBx BxBxB1111( )( )( )( )nppjkijjikk jkic cxAxAxAxA2111( )( )( )( )nppjkijjikk jkic cxBx BxBxB*11ppjkjk jkc c s式中:有:12*11( )( )( )( )( )( )( )( )nnjkijjikkijjikk iisxAxAxAxAxBx BxBxB21112*pppjjjjjj jjjjjjQc dc dc dccc 1122ppjjjkkj jkc ddc dd**1112pppjkjkkjk jkkjjFc c sc scc将两式代入原式得:*1122ppkkjkjk kkc ddc sI令:, 则:1pkk kc dI5(j=1,2,…,p)]*1pkjkj kc sd即为 P 阶线性方程组。
方程组右端是一个常数因子,它对方程组的解只取扩大倍的作用,故取=1 将方程组写成矩阵形式,即有:(即:)*** 1112111*** 2221222*** 12,,,,,,,,,ppppppppSSScdcdSSScdSSSLL MML L L L L L LL*S CD此时有:1*** 1112111*** 2221222*** 12,,,,,,,,,ppppppppSSScdcdSSScdSSSLL MML L L L L L LL即得到线性判别函数:1 122ppyc xc xc xL2、判别、判别计算:——A 类代表 1( )pjj jy Ac xA——B 类代表 1( )pjj jy Bc x B——判别指标 12 0 12n y An y Bynn判别:若,则时,属于 A 类则属于 B 类 0y Ay* 0yy*y* 0yy*y3、检验、检验 (1)对判别函数的检验。
计算一个马哈拉诺比斯(Mahalanobis)距离2D2 1122ppDc dc dc dL统计量为:62121212121 2n nnnpFDnnnnp12~,1FFp nnp对给定的,若:,则认为判别函数是显著的,反之不显著12,1FFp nnp(注:显著则说明 P 个指标能够分辨 A、B 两个总体)(2)对各个判别指标的检验因为是有由 P 项构成的,因此第 K 项在中所占的比重,就代表了第 K 个指标对2Dkkc d2D总距离的贡献,即大,则说明贡献大,反之,贡献小2kkc d Dkx先算出2 1122ppDc dc dc dL再求出各指标的贡献: kxD121122222100%100%100% pxxpp xc dDD c dDDc dDDL L L L L L L L L4、应用实例(见 P139—例 1)注:此检验为一辅助 性检验,没有一个完 全定量的界线,要根 据问题的背景而定7习题:P(五)二十一 18第 12 课三、多组判别分析三、多组判别分析1、什么是多组判别分析问题的提出:问题的提出: 实际工作中需要对多种类型的样品进行判别,如:油层、气层、水层、干层等,这就需要多 组判别分析来解决了。
设有 m 个总体,第 g 个总体的样品个数为(g=1,2,…,m),每个样品测定了 P 个指标,此时,gn可写成:——第 g 类,第 j 个样品第 k 个指标的观测值gjkx原始数据可写成:总共取了 N 个样品, 1mg gNn现有一新样品,,试判别它属于已知 m 类的哪一类 12,,,pyy yyL分析:分析:第一组数据11111111211121122121 1121,,,,,,,,,ppnnn pxxxxxxxxxLLL L L L L L L第一个样品 第二个样品 M第个样品1n第二组数据222211212212212222221222,,,,,,,,,ppnnn pxxxxxxxxxLLL L L L L LL第 m 组数据111212122212,,,,,,,,, mmmmmm pmmm pmnmnmn pxxxxxxxxxLLL L L L L LL9仿两组判别,求出判别函数,两组求一个判别函数,三组就要求三个判别函数(即:1~2;2~3;1~3) ;四组就要求 6 个,一般地说,若有 m 组,就要求,这样2! 2 !2!mmCm计算量太大,对一个新样品也得计算多个判别值,比较起来,十分困难。
因此,求判别函数的方 法对多组判别不适用在多组判别分析中,我们是这样考虑的在判别中,我们可能犯这样的错误,即把本应属于 g 组的样品错分到 n 组,或者把 n 组的样品错分到了 g 组,这种错误是在所难免的,我们只希望 由此造成的平均损失尽可能的小平均损失最小的准则称为 Bayes 准则平均损失最小用左图解释:解释:解释:小圆对第 1 类来说,错分的损失等于 0,而对 2,3 类就不等与 0,要找出一种划分法, 使得平均错分的损失为最小2、、Bayes 准则准则贝叶斯准则就是计算样品 y 属于各组的概率 (g=1,2,…,m) ,然后比较这 m 个概率 gpy的大小,将样品 y 归于最大的那一组根据贝叶斯公式,样品 y 属于第 g 组的后验概率(条件概率)为: 1212 1,,,,,,ggpmjjp jq fy yygpyq fy yy LL式中:—第 g 组的先验概率,其估计值为:gqg gnqN—样品 y 在第 g 组的概率密度gf要计算关键是要知道 y 在各总体的概率密度 gpy12,,,gpfy yyL3、正态总体的判别、正态总体的判别2x1xA 1B 2C 310设 m 个总体均服从 P 维正态分布,即:~,ggxN uv—第 g 个总体的期望;gu—第 g 个总体的协方差。
gv于是第 g 个总体的概率密度为:1 2 1 12111,,,exp22p pg gpgggpppvfx xxXuvXu L式中: 121,,,ppXx xxL121,,,ggggppuuuuL—的逆矩阵111212122212,,,,,,,,,pp gppppp pv LLL L L L LL1 gv gv设 即。












