
第五章判别分析.ppt
60页第五章第五章 判判 别别 分分 析析§1 1 两总体判别分析§2 2 多总体判别分析§3 3 逐步判别分析§4 4 应用算例简介1v引言引言 地学领域内有很多属于归类判别的问题,如地学领域内有很多属于归类判别的问题,如: :储层是否含油、岩样属于什么沉积相储层是否含油、岩样属于什么沉积相 、生油岩处、生油岩处于什么演化阶段于什么演化阶段等,从定量角度看,它们都是对个等,从定量角度看,它们都是对个体进行归类判别的问题体进行归类判别的问题 为叙述方便,将个体称为为叙述方便,将个体称为样品样品,个体所属的类称,个体所属的类称为为总体总体在此基础上给出判别分析的一般概念在此基础上给出判别分析的一般概念: 判别分析判别分析:根据已知的根据已知的G个总体中取出的个总体中取出的G组样品组样品的观测值,建立总体与样品变量之间定量关系的观测值,建立总体与样品变量之间定量关系(判判别函数别函数),并据此判别未知类属样品类别的一种多,并据此判别未知类属样品类别的一种多元统计分析方法元统计分析方法 2 设设ag(g=1,2,…,G)表示表示 G 个总体,每个总体中分个总体,每个总体中分别有别有ng个样品,每个样品有个样品,每个样品有m个变量。
个变量 当当G = 2时,叫做时,叫做两总体判别两总体判别,又称为线性判别,又称为线性判别;当当G > 2时,叫做时,叫做多总体判别多总体判别;筛选变量建立判别;筛选变量建立判别函数的方法叫做函数的方法叫做逐步判别分析逐步判别分析 判别分析的基本步骤:判别分析的基本步骤:(1)搜集来自搜集来自G个总体的个总体的G组已知观测值组已知观测值(m个变量个变量);(2)根据已知数据建立判别函数根据已知数据建立判别函数;(3)利用判别函数判别未知总体的样品类属利用判别函数判别未知总体的样品类属3 简单说,两总体判别就是确定样品简单说,两总体判别就是确定样品X是属于总体是属于总体A还是属于还是属于B 的统计分析方法的统计分析方法§1 两总体判别分析两总体判别分析 判定样品判定样品X是属于是属于A 还是属于还是属于B 的判别函数一般的判别函数一般是是线性判别函数线性判别函数x1x2AB判别指数判别指数yc 右图是一个简单的判别过右图是一个简单的判别过程判别样品归属依赖于变程判别样品归属依赖于变量量x1,变量,变量x2对判别不起作对判别不起作用y=x1即线性判别函数即线性判别函数。
图图5-1 示例示例4图图5-2 两总体判别分析示意图两总体判别分析示意图 A B abdx1x2yc新变量是原变新变量是原变量的线性组合量的线性组合一、线性判别函数的一般形式一、线性判别函数的一般形式 若样品若样品X 有有x1、、x2两个变量,总体两个变量,总体A、、B的样品分别落在的样品分别落在两个椭圆内,如图所示两个椭圆内,如图所示 若直接用若直接用 x1、、x2的观测值确的观测值确定定X所属的总体,则当观测值所属的总体,则当观测值x1、、x2分别落在区间分别落在区间(c,d)和和(a,b)内时内时,不能确定样品属于不能确定样品属于A或属于或属于B但若把坐标系旋转但若把坐标系旋转α角角,变为新坐标系变为新坐标系 y、、z,变量,变量y 则可把则可把A、、B分开,变量分开,变量y称为称为判别函数,其形式为:判别函数,其形式为:5 1.原始数据.原始数据 若总体若总体A、、B各有各有na、、nb个样品观测值个样品观测值,分别为分别为: x ij (a) ( i = 1, 2, …, na; j = 1 , 2 ,…, m) xkj (b) (k = 1, 2, …, nb; j = 1 , 2 ,…, m)(5-1) 称上式为称上式为线性判别函数线性判别函数,它是空间中的平面。
称,它是空间中的平面称c1,c2,…,cm为为判别系数判别系数 一般,设样品有一般,设样品有m个变量,那么判别函数的一般个变量,那么判别函数的一般形式为:形式为: 二、判别系数的确定二、判别系数的确定这是建立判别函数所需要的数据这是建立判别函数所需要的数据6 把把xij(a)、、xkj(b)分别代入分别代入(5-1)得判别函数值:得判别函数值:2. 费歇尔费歇尔(Fisher)准则下的判别函数准则下的判别函数记:记:两组判别函数点的中心距两组判别函数点的中心距 组内判别函数组内判别函数点的离散度点的离散度 7 费歇尔准则费歇尔准则: 使使Q 达到最大、达到最大、H 达到最小达到最小 Q达到最大,表明达到最大,表明两组判别函数点的中两组判别函数点的中心距最大;心距最大;H达到最达到最小,判别函数点的分小,判别函数点的分布最集中满足以上布最集中满足以上条件的判别函数可最条件的判别函数可最大限度地把大限度地把A和和B区区分开分开(如图所示如图所示)它的含义是:它的含义是:图图5-3 两总体样品点在平面两总体样品点在平面y上的投影上的投影yx2x18 V是是cj (j = 1 , 2 ,…, m)的二次函数的二次函数,且且V>0,令:,令: 要求要求Q达到最大,达到最大,H 达到最小,则等价于要求达到最小,则等价于要求 达到最大。
达到最大整理后可得:整理后可得:V = Q / H9 (5-2)由上述线性方程组解出由上述线性方程组解出cj,从而确定判别函数,从而确定判别函数:10 若若A、、B差异不明显,那么由观测值建立的判别差异不明显,那么由观测值建立的判别函数就无实际意义为此,需要对函数就无实际意义为此,需要对A、、B的差异性的差异性进行检验进行检验 检验方法:利用建立的判别函数对检验方法:利用建立的判别函数对N(na+nb)个样个样品的总体重新判定,若判对了品的总体重新判定,若判对了n (n ≤ N )个,定义个,定义R=n/N为为判对率判对率R值越大,值越大,A、、B差异就越明显差异就越明显三、显著性检验及样品判别三、显著性检验及样品判别在检验显著的条件下,定义:在检验显著的条件下,定义:1.显著性检验显著性检验2.判别指数判别指数11为判别未知样品所属总体的为判别未知样品所属总体的判别指数判别指数当当y < yc 时,时,X∈∈A当当y ≥yc 时,时,X∈∈B 3.样品总体的判别方法样品总体的判别方法 设设 ,把样品观测值,把样品观测值xj (j=1,2,…,m) 代入判别函数,得:代入判别函数,得:BA图图5-4 判别指数判别指数12 若从若从G个总体中分别取出个总体中分别取出ng( g = 1 , 2 ,… , G )个个样品,每个样品有样品,每个样品有m个变量,样品观测值记为:个变量,样品观测值记为:§2 多总体判别分析多总体判别分析一、原始数据一、原始数据 xgk(i)为总体为总体ag( g=1,2,…,G )中第中第k ( k=1,2,…, ng) 个样品的第个样品的第i个变量的观测值。
个变量的观测值Xgk是求判别函数的是求判别函数的原始数据原始数据13二、多总体判别分析的基本原理二、多总体判别分析的基本原理 把把G 个总体记作个总体记作ag (g=1,2,…,G), 那么对于那么对于未知类未知类别的一个样品别的一个样品X来说,它可能属于任何一个总体,来说,它可能属于任何一个总体,但它归属每个总体但它归属每个总体ag的概率不同的概率不同 由由Bayes 公式可以求得公式可以求得X∈∈ag( g=1,2,…,G )的条件的条件概率:概率:(5-3)总体总体ag 的先验概率的先验概率总体总体ag 的概率密度的概率密度14(5-4) 上式是上式是Bayes准则下多总体判别的一般判别函数准则下多总体判别的一般判别函数,根据根据Eg(X)的相对大小的相对大小,可对样品的总体做出判别可对样品的总体做出判别如果如果P(ak/X)是条件概率中的最大者,即:是条件概率中的最大者,即: 那么就判定样品那么就判定样品X∈∈ak,且判错的概率最小按,且判错的概率最小按照条件概率的大小判定样品归属的原则称为照条件概率的大小判定样品归属的原则称为Bayes准则准则在计算条件概率时,式。
在计算条件概率时,式(5-3)的分母是一个常的分母是一个常数,故只取分子,其相对大小不变记为:数,故只取分子,其相对大小不变记为:15三、正态总体的判别函数三、正态总体的判别函数 若用式若用式 判定样品判定样品X所属的总体所属的总体,还需要给出总体的先验概还需要给出总体的先验概率率Pg 和概率密度和概率密度 fg(X)5-4) 假设假设X服从正态分布,其概率密度为:服从正态分布,其概率密度为:(5-5)式中式中μg是是 ag的期望向量;的期望向量;∑是各总体共同的协方差是各总体共同的协方差矩阵,矩阵, ∑-1是是∑的逆矩阵;的逆矩阵; 16由此,式由此,式(5-5)可以近似写为可以近似写为:式中式中:i, j = 1 ,2 ,…,m ; N = n1 + n2 +…+nG 由原始数据可求得由原始数据可求得μg、、Σ的估计值的估计值 和和S :: 17 (5-6) 把上式和把上式和Pg (Pg≈qg = n g /N)代入式代入式(5-4)得得: (5-7) 即得即得正态总体的判别函数正态总体的判别函数 再再对对两两边边取取自自然然对对数数,,舍舍去去其其中中与与g无无关关的的项项并并化简,得函数:化简,得函数: 对于服从其他分布的总体来说,仿照上述做法得对于服从其他分布的总体来说,仿照上述做法得到相应的判别函数。
到相应的判别函数18 把把样样品品的的观观测测值值X=(x(1) x(2)…x(m) )T 代代入入式式(5-7) 得得Fg(X) ,若:,若:四、对样品总体的判别四、对样品总体的判别则认为则认为X∈∈ak X∈∈ak 的条件概率的条件概率19五、判别函数的显著性检验五、判别函数的显著性检验1. 正判率检验正判率检验 利用判别函数对利用判别函数对N(N=n1+n2+…+ng)个样品的总体个样品的总体重新判定,若判对了重新判定,若判对了n (n ≤ N )个,定义个,定义R=n/N为判为判对率R值越大,总体间的差异就越明显,判别函值越大,总体间的差异就越明显,判别函数的判别效果就会越好数的判别效果就会越好 2. 马哈拉诺比斯距离马哈拉诺比斯距离D2检验检验 假设假设H0:总体差异不明显:总体差异不明显 统计量统计量 20 统计量统计量D2服从自由度为服从自由度为m(G-1)的的χ2分布,故确定分布,故确定检验方法如下:检验方法如下: 给定检验水平给定检验水平α,查,查χ2分布表得分布表得D2的临界值的临界值D*,当当D2>D*时,否定假设,即拟定的时,否定假设,即拟定的m个变量能够区分个变量能够区分已知的已知的G个总体个总体 。
否则接受假设,即拟定的否则接受假设,即拟定的m个变个变量不能对样品的归属做出正确的判别,此时应剔量不能对样品的归属做出正确的判别,此时应剔除其中区分能力小的或者引入一些更有效的变量,除其中区分能力小的或者引入一些更有效的变量,重新建立判别函数重新建立判别函数 其中其中21§3 逐步判别分析逐步判别分析一、逐步判别的提出及其基本思想一、逐步判别的提出及其基本思想1. 逐步判别的提出逐步判别的提出 在拟定的判别变量之间在拟定的判别变量之间,既有相对的独立性既有相对的独立性,又存又存在着一定的成因联系对于区分已知总体来说在着一定的成因联系对于区分已知总体来说,具具有成因联系的那些变量似乎各自的区分能力都较有成因联系的那些变量似乎各自的区分能力都较强强,但当把它们都选入判别函数后但当把它们都选入判别函数后,又使得先选入的又使得先选入的变量区分能力变弱另外变量区分能力变弱另外,建立判别函数时需要求建立判别函数时需要求出出S-1,若存在区分能力不显著的变量若存在区分能力不显著的变量,可能导致可能导致S-1不不存在存在,故求不出判别函数鉴于上述原因故求不出判别函数鉴于上述原因,提出类似提出类似逐步回归中逐步回归中“筛选筛选”变量的方法变量的方法,即挑选那些判别能即挑选那些判别能力真正强的变量建立判别函数。
力真正强的变量建立判别函数22 如如3个总体各有个总体各有5个样品,每个样品有个样品,每个样品有2个变量,个变量,它们的观测值如下:它们的观测值如下: 对上述三个总体来说,对上述三个总体来说,x1的区分能力远不如的区分能力远不如x2大大,若存在这样的变量,就若存在这样的变量,就求不出判别函数求不出判别函数 总体总体样品样品a1(x1 , x2)a2(x1 , x2)a3(x1 , x2)11.0 2.51.2 4.01.4 5.021.0 2.61.2 4.21.4 5.231.0 2.41.2 4.11.4 5.141.0 2.31.2 4.31.4 5.351.0 2.71.2 4.21.4 5.2注注意意变变量量特特点点23S-1不存在,故求不出判别函数不存在,故求不出判别函数 逐个检验拟定变量的区分能力,把区分能力强逐个检验拟定变量的区分能力,把区分能力强的变量的变量“引入引入”判别函数,在引入变量的过程中判别函数,在引入变量的过程中,随随时时“剔出剔出”已引入判别函数中的区分能力变弱的变已引入判别函数中的区分能力变弱的变量量,直到既没有区分能力强的变量引入,又没有区直到既没有区分能力强的变量引入,又没有区分能力变弱的变量剔除为止。
分能力变弱的变量剔除为止2.逐步判别的基本思想逐步判别的基本思想24 假假设设总总体体a g~~N (μg , Σ) , g = 1 , 2 ,…, G 为为了了检检验验变变量量的的区区分分能能力力,,定定义义总总体体内内离离差差矩矩阵阵W、、总总体体间离差矩阵间离差矩阵B、、总离差矩阵总离差矩阵T记二、逐步判别分析方法原理二、逐步判别分析方法原理 1. 原始数据原始数据与一般多总体判别分析相同与一般多总体判别分析相同 2. WilksΛ统计量统计量(检验变量区分能力的指标检验变量区分能力的指标)25可以证明可以证明: T = W + B26Wilks Λ统计量统计量:: U=|W|/|T| 例例2 有有3个总体,样品有个总体,样品有2个变量,其观测值如下表:个变量,其观测值如下表:特点:特点:第二个第二个变量差变量差异明显异明显,故总,故总体差异体差异大大 U是检验是检验m个变量个变量综合区分能力综合区分能力的指标U 越小越小总体内部差异越小,而总体之间差异越大总体内部差异越小,而总体之间差异越大 总体总体样品样品a1(x1 , x2)a2(x1 , x2)a3(x1 , x2)11.0 2.51.1 4.01.1 5.021.1 2.61.0 4.21.0 5.231.3 2.41.3 4.11.4 5.141.2 2.31.2 4.31.2 5.351.1 2.71.0 4.21.3 5.227例例3 有有3个总体,样品有个总体,样品有2个变量,样品观测值下表:个变量,样品观测值下表: 在本例中:在本例中:特点:特点:变量差变量差异不明异不明显,故显,故总体差总体差异不大异不大 总体总体样品样品a1(x1 , x2)a2(x1 , x2)a3(x1 , x2)11.0 2.51.1 2.11.1 2.121.1 2.61.0 2.31.0 2.331.3 2.41.3 2.71.4 2.141.2 2.31.2 2.51.2 2.751.1 2.71.0 2.41.3 2.628 上述结果说明:上述结果说明:U越大变量的区分能力越弱,即越大变量的区分能力越弱,即总体之间的差异越小。
总体之间的差异越小5-8) 这里的这里的 WilksΛ统计量统计量U是检验是检验m个变量个变量综合判别综合判别能力能力的统计量如果按列号的统计量如果按列号r1,,r2,,…,,rm的顺序的顺序对对W和和T的行列式进行消去计算,并表示出消去次的行列式进行消去计算,并表示出消去次序,那么序,那么U可以改写为:可以改写为: 从式从式(5-8)可导出检验可导出检验某个变量某个变量x(r)判别能力的判别能力的Wilks Λ 统计量29类似式类似式(5-8)可得可得(5-9) (1)“引入引入”变量变量x(r)的的Wilks Λ 统计量统计量若在判别函数中再引入变量若在判别函数中再引入变量x(r),则有,则有: 设设逐逐步步判判别别进进行行了了p步步,,共共引引入入了了p个个变变量量(前前p个个都是判别能力强的变量,没有被剔除都是判别能力强的变量,没有被剔除),记为:,记为:(p个变量个变量) 3. “引入引入”与与“剔除剔除”变量的统计量变量的统计量30 因此,因此,wrr(p)/trr(p)是引入变量是引入变量x(r) 后后U 的改变因子的改变因子,记为记为(5-11) Ur越小,变量越小,变量x(r) 使总体之间的差异越明显,它使总体之间的差异越明显,它的判别能力就越强。
的判别能力就越强5-10)(p+1个变量个变量)31例例2中:中:U1= 0.22/0.2373=0.93U2=0.204/18.256=0.011 可见,第可见,第2个变量的区分能力比第个变量的区分能力比第1个变量大,因个变量大,因为从统计量来说,为从统计量来说,U2小于小于U132(5-12) 因此用因此用Ur做为检验变量做为检验变量x(r)判别能力的判别能力的Wilks Λ 统计量是否能够引入,还需进行假设检验是否能够引入,还需进行假设检验式中式中N=n1+n2+···+ng,,即样品的总数即样品的总数 F1服从自由度为服从自由度为(G-1)和和(N-G-p)的的F分布对于给分布对于给定的检验水平定的检验水平α ,查查Fα(G-1,,N-G-p)分布表分布表, 得临界值得临界值Fα,若,若F1>Fα, 变量变量x(r)的判别能力强的判别能力强统计量:统计量:假设假设H0:μ1=μ2 =···=μG (总体间无差异总体间无差异)33 (2)“剔除剔除”变量变量x(r) 的的Wilks Λ 统计量统计量 设逐步判别进行了设逐步判别进行了p步,共引入了步,共引入了p个变量个变量(前前p个个都是判别能力强的变量,没有被剔除都是判别能力强的变量,没有被剔除),记为:,记为: 它的第它的第p+1步拟剔除变量步拟剔除变量x(r) (r∈∈(r1,r2,…,rp)) ,此此时,将时,将x(r) 的判别能力的判别能力视为第视为第p步要引入步要引入x(r) 的判别的判别能力能力,即,即:34 统计量统计量F2服从自由度为服从自由度为(G –1)和和(N – G – p + 1)的的F分布。
对于给定的检验水平分布对于给定的检验水平α ,查,查Fα(G-1,,N-G-P+1)分布表得临界值分布表得临界值Fα* ,若,若F2 ≤Fα* ,, 变量变量x(r) 的判别的判别能力小,应剔除变量能力小,应剔除变量x(r)统计量统计量(5-13)35 逐逐步步判判别别建建立立判判别别函函数数的的过过程程与与逐逐步步回回归归相相似似,,不不同同之之处处是是逐逐步步判判别别分分析析要要对对W、、T 两两个个矩矩阵阵进进行行变变换换它它的的第第p+1步步不不论论是是引引入入还还是是剔剔除除变变量量x(r),,都是对都是对W和和T 矩阵进行一次变换矩阵进行一次变换5-14) 第第p+1步消去步消去W、、T 矩阵第矩阵第r列的变换公式为:列的变换公式为:3. 逐步判别的变换公式逐步判别的变换公式36(5-15) 1. 判别函数的系数判别函数的系数 若逐步判别分析进行了若逐步判别分析进行了p步结束,共引入了步结束,共引入了v个个变量变量 (v ≤ m),那么按下式计算判别函数的系数:,那么按下式计算判别函数的系数:三、判别函数的系数和对样品的判别三、判别函数的系数和对样品的判别37 2. 对样品的判别对样品的判别 样品样品 属于属于a g的函数值为的函数值为Fg(X),若,若 , 则样品则样品X∈∈ak 。
判别函数为判别函数为:X∈∈ak 的条件概率为:的条件概率为:38图图5-5 判判 别别 分分 析析 流流 程程 图图输入输入n、、m、、G和样品观测值和样品观测值输入先验类型、输入先验类型、PP值值剔除变量否?剔除变量否?变换矩阵变换矩阵W和和T,引入变量数,引入变量数L=L-1计算类内均值、总均值、类内离差矩阵计算类内均值、总均值、类内离差矩阵W和总离差矩阵和总离差矩阵T,引入变量数,引入变量数L=0变换变换W、、T矩阵,计算判别系数和判别矩阵,计算判别系数和判别矩阵,输出中间结果,引入变量数矩阵,输出中间结果,引入变量数L=L+1L=0?改变改变PP ?引入变量否?引入变量否?开开 始始输入临界值输入临界值F1和和F2结结 束束NYNNNYYY39§4 应用算例简介应用算例简介 例例1 判定生油岩热演化阶段判定生油岩热演化阶段 基本思想:视不同热演化阶段的生油岩为不同基本思想:视不同热演化阶段的生油岩为不同的总体建立判别函数,可用来判定生油岩样品的的总体建立判别函数,可用来判定生油岩样品的热演化阶段热演化阶段详见教材详见教材) 根据目前研究,可把生油岩的热演化过程分为四根据目前研究,可把生油岩的热演化过程分为四个阶段,即未成熟、成熟、高成熟和过成熟阶段个阶段,即未成熟、成熟、高成熟和过成熟阶段,因此可视为四个总体。
因此可视为四个总体 (1)在上述总体中取在上述总体中取66块生油岩样品,统计它们块生油岩样品,统计它们地层年龄地层年龄(t)、现今地层温度、现今地层温度(T)和埋藏深度和埋藏深度(H)2)拟定判别变量拟定判别变量40 (3)建立四个总体的判别函数建立四个总体的判别函数 取引入和剔除临界值取引入和剔除临界值F1=F2=1.0,共引入,共引入x1, x2, x3和和x5四个变量,得判别函数:四个变量,得判别函数:在此拟定在此拟定6个变量,它们是:个变量,它们是:未成熟未成熟成成 熟熟高成熟高成熟过成熟过成熟x1=T+273,,x2=t ,,x3=H,, x4=1/H, x5=ln(T+273),,x6=1/(t+273)41引入顺序引入顺序变量号变量号变量名变量名1x5ln(T+273)2x1T+2733x2t4x3H变量引入顺序变量引入顺序问:变量的引入顺序说明了什么?问:变量的引入顺序说明了什么? 某种程度上说明了变量区分总体能力的强某种程度上说明了变量区分总体能力的强弱顺序42 (4)应用应用 珠江口盆地第三系生油岩为中新世至晚渐新世珠江口盆地第三系生油岩为中新世至晚渐新世沉积沉积,地层绝对年龄为地层绝对年龄为16~30百万年,埋藏深度为百万年,埋藏深度为2200米,现今地层温度为米,现今地层温度为104℃。
取地层绝对年龄取地层绝对年龄为为25百万年百万年,按上述判别函数计算按上述判别函数计算,得:得: 其中其中F3(X)=514582.5最大,因此最大,因此判珠江口盆地第判珠江口盆地第三系生油岩处在热演化高成熟阶段,三系生油岩处在热演化高成熟阶段,与实际情况与实际情况相符43 东濮凹陷西部沙三段有三角洲、浊流和风暴流东濮凹陷西部沙三段有三角洲、浊流和风暴流三种沉积相在上述三种沉积相中取了三种沉积相在上述三种沉积相中取了45块岩样,块岩样,镜下统计其成份成熟度指标镜下统计其成份成熟度指标x1(石英石英/(长石长石+岩屑岩屑))、、杂基含量杂基含量x2和胶结物含量和胶结物含量x3三项参数建立判定三三项参数建立判定三角洲、浊流和风暴流沉积相的判别函数为:角洲、浊流和风暴流沉积相的判别函数为: 例例2 识别沉积相识别沉积相 把某沉积环境下形成的岩石看成总体,对不同的把某沉积环境下形成的岩石看成总体,对不同的总体取样,可建立判别岩样沉积相的判别函数,用总体取样,可建立判别岩样沉积相的判别函数,用以识别碎屑岩的沉积相以识别碎屑岩的沉积相44 应用实例应用实例: 资资料料::某某地地区区有有30余余口口井井,,仅仅有有1口口井井完完整整的的岩岩心,其余各井均有测井资料。
心,其余各井均有测井资料 利利用用上上述述已已知知井井的的资资料料建建立立了了岩岩性性识识别别函函数数,,反反演了演了30余口无岩心井的岩性剖面余口无岩心井的岩性剖面 具体做法如下:具体做法如下: 例例3 识别岩性识别岩性 基本思想:视不同岩性的岩石为不同的总体,对基本思想:视不同岩性的岩石为不同的总体,对总体取样,以不同岩性的岩石所对应的测井参数为总体取样,以不同岩性的岩石所对应的测井参数为判别变量,建立岩性识别判别函数,用于识别无岩判别变量,建立岩性识别判别函数,用于识别无岩心井的岩性剖面心井的岩性剖面45 (1)观察描述现有岩心,观察描述现有岩心,结果有结果有砾岩、砂岩和泥砾岩、砂岩和泥岩岩,即有,即有3个岩性总体个岩性总体 (2)在测井图上按不同在测井图上按不同岩性对应的深度读取测岩性对应的深度读取测井参数值,获得建立判井参数值,获得建立判别函数的原始数据别函数的原始数据图图5-6 某井实际岩性剖面某井实际岩性剖面 46 (3)建立岩性识别的判别函数建立岩性识别的判别函数砾砾岩岩砂砂岩岩泥泥岩岩 x1-微微电电极极2; x2-2.5m梯梯度度; x3- 4m梯梯度度; x4- 感感应应电电导导; x5-声声波波; x6- 浅测向浅测向; x7- 补偿中子补偿中子; x8-井径井径; x9-微电极差。
微电极差在判别函数中没有引入在判别函数中没有引入x2 和和x547(4) 判别结果判别结果图图5-7 岩性剖面及部分电测曲线示意图岩性剖面及部分电测曲线示意图2274222622302234223822422246225022542258226222662270深深度度岩岩心心剖剖面面预预测测剖剖面面微微电电极极24米米梯梯度度感感应应电电导导浅浅测测向向补补偿偿中中子子微微电电极极差差井井径径48例例4 气、水层判别气、水层判别 大庆长垣南部黑帝庙油气层分为大庆长垣南部黑帝庙油气层分为气层气层、、气水层气水层、、含气水层含气水层、、差气层差气层和和水层水层5类,作为建立判别函数类,作为建立判别函数时的时的5个总体 选取常规测井的选取常规测井的7个参数作为判别指标,分别是:个参数作为判别指标,分别是:深测向深测向x1 、浅测向、浅测向x2 、声波时差、声波时差x3 、微电极、微电极x4 、、微电位微电位x5 、、2.5m电阻率电阻率x6、自然电位、自然电位x7 选取该地区气藏典型井的气层、气水层、含气水选取该地区气藏典型井的气层、气水层、含气水层、差气层和水层样品分别为层、差气层和水层样品分别为46、、83、、14、、20、、33个,总共个,总共196个已知样品。
在此基础上,应用逐步个已知样品在此基础上,应用逐步判别分析建立了该区的气、水层判别函数:判别分析建立了该区的气、水层判别函数: 49气层气层F1(x)=332.509x1–149.538x2+85.343x3+223.248x4+121.791x6+78.242x7 – 51.838气水同层气水同层F2(x) =266.472x1–78.156x2+84.501x3+210.524x4 – 1.879x6+34.774x7 – 27.497含气水层含气水层F3(x) =317.019x1–101.174x2+65.514x3+91.535x4+ 25.578x6+83.621x7 – 39.848差气层差气层F4(x) =321.165x1–109.990x2+72.239x3+152.130x4–2.474x6+85.940x7 – 43.447水层水层F5(x) =228.842x1–95.139x2+91.373x3+276.140x4+ 6.387x6+80.724x7 – 49.940其中微电位其中微电位x5判别效果不显著,未引入判别函数判别效果不显著,未引入判别函数50 所建立的判别模型对气层、含气层、气水层、所建立的判别模型对气层、含气层、气水层、干层和水层的判别效果相当显著干层和水层的判别效果相当显著, 除气层外所有层除气层外所有层的正判率均达到的正判率均达到90%以上以上,气层也达到气层也达到89%。
总的总的正判率达正判率达92.86%,说明该判别模型可用说明该判别模型可用 利用所建判别模型对该地区其它井进行气、水利用所建判别模型对该地区其它井进行气、水层判别,优选出层判别,优选出2口试气井,结果均获得工业产能,口试气井,结果均获得工业产能,表明了判别模型的可用性表明了判别模型的可用性 51例例5 预报油气勘探成功率预报油气勘探成功率 四川盆地侏罗系自流井群大安寨组评价区划分为四川盆地侏罗系自流井群大安寨组评价区划分为675个单元有钻探资料的单元有个单元有钻探资料的单元有139个,其中个,其中57个个单元获得了工业油气井,把这些单元记为单元获得了工业油气井,把这些单元记为A组,其组,其勘探成功率为勘探成功率为1未获得工业油气井、并经过研究未获得工业油气井、并经过研究认为也不可能获得工业油气井的单元有认为也不可能获得工业油气井的单元有38个,把这个,把这些单元记为些单元记为B组,其勘探成功率为组,其勘探成功率为0以14个地质个地质变量对两组单元作逐步判别分析,得到勘探成功率变量对两组单元作逐步判别分析,得到勘探成功率为为1的组的判别函数和勘探成功率为的组的判别函数和勘探成功率为0的组的判别函的组的判别函数:数: 52x2:早第三纪前大安寨组底面古构造六次趋势剩余值早第三纪前大安寨组底面古构造六次趋势剩余值,m;;x3:大安寨组底面现今构造海拔高度大安寨组底面现今构造海拔高度,m ;;x4:早第三纪前大安寨组底面古构造六次趋势值早第三纪前大安寨组底面古构造六次趋势值,mx5 :介屑灰岩、页岩沉积韵律数;介屑灰岩、页岩沉积韵律数;x7 : (页岩厚度页岩厚度+介屑灰岩厚度介屑灰岩厚度)/组厚度,组厚度,%;;53 利用利用FA(X)和和FB(X)、对、对A、、B两组单元的回判结果两组单元的回判结果为:为: A组的组的57个单元判对了个单元判对了54个,个,B组的组的38个单元判个单元判对了对了36个,判对率大于个,判对率大于94%,判别函数是高度显,判别函数是高度显著的。
著的 将其它未知的评价单元对应的将其它未知的评价单元对应的5个变量值代入个变量值代入FA(X),计算出属于,计算出属于A组的组的后验概率后验概率,也就是单元,也就是单元的勘探成功率,在此基础上绘出勘探成功率预测的勘探成功率,在此基础上绘出勘探成功率预测等值线图结合其它资料,应在此图上选择成功等值线图结合其它资料,应在此图上选择成功率相对高的区块优先勘探率相对高的区块优先勘探54图图5-8 大安寨组勘探成功概率预报图大安寨组勘探成功概率预报图(据陈立平,陈子恩据陈立平,陈子恩)55 本章复习要点本章复习要点1. 判别分析的概念判别分析的概念;2. 两总体判别的费歇尔准则两总体判别的费歇尔准则;3. 线性判别函数确定及两总体判别方法线性判别函数确定及两总体判别方法;4. Bayes准则下建立准则下建立正态多总体正态多总体判别函数的基本原理判别函数的基本原理;5. 逐步判别分析的基本过程逐步判别分析的基本过程;6. 实际应用实际应用56思考与练习题思考与练习题 1. 什么是判别分析?什么是判别分析?2. 试述建立线性判别函数的费歇尔准则试述建立线性判别函数的费歇尔准则。
3. 如何用线性判别函数对样品所属的总体判别?如何用线性判别函数对样品所属的总体判别?4. 试述试述Bayes准则下建立多总体判别一般判别函数的基准则下建立多总体判别一般判别函数的基本原理5. 为何提出逐步判别分析?为何提出逐步判别分析?6. 试述逐步判别分析的基本思想和及其基本过程试述逐步判别分析的基本思想和及其基本过程57 作作 业业P67 1、、3、、4、、5P56 1、、2、、3、、4、、6注:下周一上课准时交注:下周一上课准时交5859部分资料从网络收集整理而来,供大家参考,感谢您的关注!。












