好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

回归分析中异常值的诊断与处理.doc

27页
  • 卖家[上传人]:桔****
  • 文档编号:403141070
  • 上传时间:2023-06-15
  • 文档格式:DOC
  • 文档大小:707KB
  • / 27 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 回归分析中异常值的诊断与处理1 引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进 一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据有一个前提假设, 即样本数据是来自同一个总体,而这个假设有时却不能成立.原因一是由客观因素造成的, 如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造 成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据 混杂进来.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同 的总体,我们称这样的数据为异常数据.若对混有异常数据的样本按常规进行统计整理、 分析、推断,往往会得出不符合实际的结论.本文就样本中的异常数据提出了诊断方法和 处理方法,并结合实例说明了简单回归中上述方法的具体应用.2 异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值 (Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的 数据,也称离群值.社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数 据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异 常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端, 左端称为异常小值,右端的称为异常大值.残差:考虑线性回归模型y = X B + e,E (e )= 0,Cov (e ) = b 21 . (1)nyjx ・•- xr p ]e1111, p-101其中y1x・x,卩=pey=J.2, X =212, p-11,e =2y1x・… xpen-n1n , p -1p-1n分量形式为y = B+ x + x P + e ,i = 1,•••, n ・ (2)i 0 i1 1 i, p-1 p-1 i定义e = y - y = y - X卩为残差向量,其中y = X卩称为拟合值向量,卩为卩在模型(1)下的最小二乘估计•如果用x/…,x/表示X的n个行向量,则称1ne = y -xP , i = 1,…,n ,i i i为第i次试验或观测的残差•对简单回归,X =j1■■■x1x2■■■,y =y1 y 2 ,■1x」ynn则 e = y -x'P , i = 1,…,n,其中 x = (1, x )・i i i i i于是,异常值就是在回归分析中,一组数据G,y)如果它的残差e较其它组数据的残i i i 差大的多,则称此数据为异常值・异常值的出现有主客观的原因・主观上抽样调查技术有问题,疏忽大意记错,或人为 的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样 品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值・异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生 重要影响,会降低测量的精度・如果不预先处理它们,用通常的统计整理方法所得出的结 论可靠性差・而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性 的前提・3 异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布 规律・拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法 是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原 假设下作假设检验・以下给出两种检验方法・3.1 F 分布检验法学生化残差:考虑线性回归模型(1),记y = x 称y为拟合值向量,称其第i个分量y = x '卩为第i个拟合值,则iiy 二 x ( x x )-1 x y 二 Hy,这里H二X(XX )-1 X' •文献中通常称H为帽子矩阵•前面已经定义了e = y 一 xrp , i -1,…,n , i i i为第i次试验或观测的残差•将其标准化为 =,再用&代替a,得到所谓学生化残◎— h' ii差r — i , i — 1,…,n,i a J1 一 h' ii乙e 2这里h为H的第i个对角元,& 2 - 1 1— ii n 一 p把正态线性回归模型(1 )改写成分量形式y - x'卩 + e , e 〜N C, a 2), i - 1,…,n , i i i i[文里e , (i二 i二1,…,n)相互独立•如果第j组数据C , y )是一个异常点,那么它的残差就很jj大.它的残差之所以很大是因为它的均值E (y )发生了非随机性漂移H・从而jE (y )- x'0+耳•这产生了一个新的模型jj• ・y - xrp + ei i iy - xrp +H + ej j j(3)心j e ~ N (0, a 2i记d.-[O,…,0, 1, 0,…,01 •将模型(3)改写成矩阵的形式jy - X 卩 + d "+ e , e 〜N C,& 21 ), (4)j模型(3)和(4)称为均值漂移线性回归模型•要判定C , y)不是异常点,等价于检验假设jj引理1用y(), X()和e()分别表示从Y、X和e剔除第i行所得到的向量或矩•从线性回(i ) (i ) (i )归模型(1)剔除第i组数据后,剩余的n -1组数据的线性回归模型为 y = X 0 + e ,E( )= 0,Cov()=(i) (i) (i) (i) (i)将从这个模型求到的0的最小二乘估计记为0(),则b 21n-1(5 )代)邛-占(XX )-1 Vii证明:因为卩:)眾X() X丿X(i) y(i)-设A为n x n可逆阵,u和v均为n x 1向量.用恒等式(6 )( ) 4 A-1uv A-1kA — uv 丿-1 = A -1 +1 一 u fA -1v(X ;仇)1=(XX -护1=(XX a+也空T, i_i—1 - hii(7 )这里x'为x的第i行•将上式两边右乘xy,并利用ixy=X )yc)+yx以及(6)式,有(8)(X X L x (羊) i i ,1 - hii将(7)式右乘x,可以得到如下关系式i1 (XX)-1 x .1 - h iii将其代入(8)式,得到乞(X X )-1 x .1 - h iii引理2对均值漂移线性回归模型<4),0和耳的最小二乘估计分别为10* = 0/、和耳 * 二 e ,C) 1 - h jjj其中P()为从非均值漂移线性回归模型(1)剔除第j组数据后得到的卩的最小二乘估 (j)计.H = 6 )= X(XXLX', h为H的第j个对角元.jj jj证明:显然,d' yj=y,jd' d =jj1.记 X =(x1x2,e为从模型(2)导出的第j个残差.jx j •则 xd = x .n j jP*r x'](Xd )_1一 X厂y=-X Xxj-1IX y ]n*d'J j丿jd'jx'j11 yj丿根据分块矩阵的逆矩阵公式(见附录1),于是,根据定义以及h = xf(XX)-1 x ・jj j j卩*耳*1I — h jjII—x,P+^— y+ — (X X )-1 xx'(X X )-11 - h j jjj-_J x( x x )-11 — h jjj(XX )-1 xx'0-^―j j 1 — hjj1 (XX )-1 x1 — hjj11 — hjj(X X )-1 xyjjI 1 — h j 1 — h jjj jj0-( xx )-1 xe1 — h j ・= I jjII e1 — h j' jj再由引理1知命题得证.现在应用引理来求检验H:n = 0的检验统计量.注意到,对现在的情形,在约束条件耳=0下,模型(4)就化为模型(1),于是RSS =模型(1)无约束情形下的残差平方和 H=y'y - P Xy .(9)而模型(4)的无约束残差平方和RSS = y'y - 0*'Xy -n*d'y ・j利用引理2得RSS -RSS = ^*-0)Xy +q*d'yHj1-hjj1-hjj1 —0 e y e 2 e x0 + j j = —j-1 - h j j :jj、亠m 八这里ej=y -x'0为第j组数据的残差. jj利用0和耳*的具体表达式将(9 )式作进一步化简:eyRSS = y 'y -0 Xy + Uj1-hjjey―j_丄1 - hjje2二(n — p 2 — / ,1 - hjj.根据引理2,所求的检验统计量为 n - pf =RSSn - p -1n - p -1 (n - p - 1)(l - h )jj(n - p -1)r 2 in - p -r2j(n - p -1)r 2F = 匚> F Q丿,j n- p -r2 1,n-p-1j也就是事先我们若定义于是,我们证明了如下事实: 定理[21对于均值漂移线性回归模型(4),如果假设H: n = 0成立,则(n - p -1)r 2F = 匚〜Fj n- p -r2 1,n-p-1j据此,我们得到如下检验:对给定的a(0 t一j n—p—1I 2丿对给定的a,当(n - p — 1)n — p — r 2j时,我们拒绝假设H: n = 0 .即判定第j组数据C, y)为异常点.jj3.2 残差及残差图检验异常值前面定义了 e = y — Xp,称为残差向量,其分量形式2 = y -x'0,(i = 1,...,n),称为i i i第i次试验或观测的残差.特别地,对简单回归,x' = C x ),iii = 1,…,n .p=一p入0p1( A \y —卩]x工 x y — nxyi i-4=1 为x2 —nx2I i=i i 丿.所以,i i 0 1 ii = 1, 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.