好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

回归分析中的异常点和影响点_张继歌.pdf

3页
  • 卖家[上传人]:f****u
  • 文档编号:116484839
  • 上传时间:2019-11-16
  • 文档格式:PDF
  • 文档大小:229.33KB
  • / 3 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 《统计研究》1 994年第 2 期 (总第85 期, 回归分析中的异常点和影响点 张继 歌 回归分析中有异常点或影响点存在的情 形是一个应该引起注意的问题 , 因为对此的 处理适当与否 , 将会在很大程度上影响到模 型拟合 、 及参数估计的精确性 、 稳定性等有 关回归的 重要特征 因此 , 回归分析前关于 异常点和影响点的数据分析及检查诊断 , 是 很必要的 , 也应该是一项常规技术 只有这 样 , 才能针对问题 , 提出适当的处理办法 , 以达到满意的结果 下面我们对有关问题作具体说明 一 、 异常点分类及其产生原因 通常 , 我们所定义 的异常点是根据残差 分析提出的 , 即指那些残差绝对值异常大者 所对应的观察点 实际上 , 这样定义是很狭 窄的 , 因为回归中 一也 同时存在有相应残差绝 对值很小的异常点 这样 , 一个更为全面细 致的方法应该是直接从样本数据和观察值入 手 , 结合有关残差分析进行考察 根据异常点的具体数据表现 , 我们大致 可以把它分为以下三类 (以模型i Y = 日 + 日 : Xi + ~ N(o , a么)为例 ) : (一)关于观察值Y异常 , 如图中 点 A , 虽然其解释变量X的道比较接近其平均 值 , 但对应的观察值Y却远离其他邻近点对 应的Y值 , 表现为异常大 。

      (二)关于解释变量X异常 如图中点B , 其解释变量X的值远偏离中心点位置 , 异常 小 (三)关于观察值Y和解释变量X均异 常 图中点C就属 于这种情形 l 1 B勺 一 护一一一~ 一一 ~一洲一~ ~ (1988) . S en sit ivity Analy s isi n L in ea r R egre - s sio n . Wil ey , N ew Y o r k . 〔10〕W a lker . E . (1989) . D e te etiono f Col l izl earity一In flu en tial O bs c rvation s . C o m n l- stat . 一 ’ The o ry M e th . , 18 (5) , 1675一16 90 . 〔1 1〕韦博成 、 鲁国斌 、 史建清著 :《 统 计诊断 从上图可以看出 , 异常点是与某一模型 不相符的点 表现为或 存在系统误差 (如点 A) , 或不在样本取值范围内 (如点C) , 其原因有两方面 : 一是因测量方法 、 设备的 变动或记录错误等外部原因引起 ; 二或是由 系统本身的运动变化产生 。

      通常 , 第一类异常 点的产生可能属 于前者 对于这类点 , 我们 一旦确认 , 则完全可以将其剔除 , 而不会对 回归产生影响 ; 对于后者 , 则要慎重对待 , 因为很可能正是在这些异常点中暗含着一些 关于所研究间题的重要信息 : 如预示着模型 未来变动趋势或解释变量所处的新环境等 , 一 了 一 ~ 一 .一 / 引论 》, 东南大学出版社 , 1 99 1版 〔1幻赵进文 :《 复共线衫响点的主戍分诊断 》, 载 《 数理统计与应用概率 》 (作者工作单位 : 天津财经学院 , 邮政编码 : 30 0 22 2) (责任编样:王建斌) 一4 3s e 法 对于模型Y “ X p+ 日 二 (p , … , 日卜 , ) ` , Y = ( Y : , … , Y : ) `, X “ ( x.j) :二,, ~N(0 , I盖 a“ ) 令 H = x(x ` x) 一’ · X ` , X ( X ,:, … , x `, ) , 5 2 : 兰 22`n一 P,SSE全= 甚 : (二)杠杆水平法 il ; , = = X ,, (X , X) 一l x ,, i = l , … n , H “ (h , . ) 。

      我们称h ,;为第 i个观察 点 的杠杆水平 ( le ver a ge) 可以证明 , h ,,是对第 i个观察点 的样本数据X ,与样本 中心 点远离程度的度 时 , 由 = H · Y , 同 ěY 量 所以不可轻易将其剔除 二 、 异常点和影响点的比较 所谓的影响点 , 是那些对回归方程的确 定参数估计等有重大影响的点 换而言之 , 如果我们从数据集中剔除这些点 而 重 新回 归 , 那么回归的重要 特征将 会 “ 面目全 非 ” 所以说 , 影响点的根本特征就在于它 的存在与否 , 对回归方程变 动的影响性 、 敏 感性 , 这也是我们判断一个 点是否为影响点 的基本依据 正是在此意义上 , 异常点和影 响点是相互区别的 并非所有的异常点都是 影响点 , 虽然影响点首先表现为它在样本数 据空间中位置的偏离和孤立 , 但这种偏离性 并不一定对回归有所影 响 如图 1 中B点 , 虽远离其他点 , 但它 的对应观察值Y , 恰好在 由其他多数点决定的趋势上 , 所以它的剔除 与否对方程确定影 响不大 , 相反 , C点却为 影响点 , 显然 , 剔除C点前后得到的两条拟 合直线l : 和1 : 差别很 大 。

      三 、 异常点的诊断 (一)作图法: 1 . 散点图 : 对于只有一个或两个解释 变量的简单回归模型 , 我们可以做类似图 1 的散点图 , 通过观察比较 , 得到一个关于潜 在异常点的大致印象 2 . 残差图 : 残差图中绝对值异常大者 可能为异常点 当然 , 这很不全面可靠 , 理 由如前所述 3 . 正态概率图 : 将排序后的回归残差 描点在正态概率纸上 , 如果在近似直线的首 尾两端部分出现 “ 跳跃 ” 情形 , 则有理由认 为相应点可能为异常点 但需注意的是 , 这 种现象也有可能是 由别的原因造成的 此外 , 对于异常点的诊断还可应用茎叶 图 , 盒图等其他作图法 它们都具有简单明 了 、 方便易行的特点 , 但同时也相 当粗糙 , 有 很欠为局辰比 听以有必要提出一 些数量方 也可看出 , h 实际上也是观察值Y ,在拟 合 值 Y中的权重 因此 , 我们选择h l 作为 诊断异常点 (对 X异常)的 一个标准 当h .,异 常大时, 认为第 `个观察点为异常点 一般取 “ 二、三 “ ` ,n / 作为 临界值即当“ “ “ · “ = “ · 子 时认为对 应 点异常 。

      但通常由这种方法选 出的异常点数 目较多 , 所以有时选取那些和其他点对应杠 杆水平相差很大的点为异常点 (三)剔除后的t化残差法 d 、= Y * 一 Y (i) d扩二d ; / s ( d i ) 、 d卜一 民 省 }氢寄 于长亩 一 e: { ’ ` 认 = ` , 一 其 中么 `, 为剔除二 正 后对剩余( 一 1)个数据重 新回归而得到的关于i Y的拟合值 、 s ( i d )为 d 的标准差 统计量d节表明了剔除第i个观察点对拟 合的影响 , 主要用来检验关于Y的异常点 当d咋偏大时 认为第i个观察点异常 可以 证明 d产~ t(n一P一1) , 故可对d犷做显著性水平检验 一4 4一 四 、 影响点的诊断 在诊断出可能存在的异常点后 , 再从中 找出潜在影响点 , 这才是于回归分析更有意 义的工作 要判断一点是否为影响点 , 通常 是以剔除此点后对模型参数估计 、 因变量拟 合的影响程度为标准 , 以杠杆水 平和残差 (或t化残差)为框架来构造统计量 (一) 单个影响点的诊断 1 . C oo k统 一不 f 舟 景 `产、 2、、 / 、 Z、 、 D := (日 一 日 (。

      ) ) 尸 X , X (日一日、 ., )/p . 52 今今I) P 一 ’ · t卜11: ;)/(1一h , ; ) 其 巾官 为剔除第i个样水后回归得到的参 数估计 , t ,为第i个 t化残差 从上式可以看出 , 统计量D :从 残差和样 木点所处位置两方面综合反映了第i个点对 参数估计的影响程度 当D i偏大 (经验地 , D 玉 5 0%)时 , 认 为第i个观察点为影 响点 具体地 , 也可通 过将D `与分 布F( P ,n 一 )P的分位 点相比较 来进行评价 统计量DF B ETA和D F FIT 、 DF B E TAS 、 DF F ITS 令 (X , X) 一` X . = (k ., , … , k ,, ) , DFB ETA ,j = 日 j一 日 j(.) = k j;e: /(1 一 h ;i ) D F F IT , = Y : 一 Y ;: = h ,二 e: /(1 一 h ;, ) D FB E T A S ;J= = k s;e S (荃, (1 一 h ,; ) rjs’12 ( 1 ) ( 2 ) (3) D FFITS , = h j*,`2 / s、;) · (1 一 h ; ; )(4) 其中式(3 )和式(4 )均为式( 1) 和式(2 )分别 除以各自的标准差而得 ; Y (,) 和 s 遗 ) 分别 为 对除去第i个点后的( n 一 1 )个点回归得 到的 拟合值和均方差 , r j J为矩阵(X ` X ) 一` 的第j个 对 角线元素 。

      若令 时 =e了训石五不压而 则式 ( 3)和式(4 ) 均可 写 为h l l和e 犷 的函 数形式 上述公式得到的统计量分别考察了第i 个观察点对参数估计 、 观察值拟合的影 响 性 在具体应用上述公式进行评价时 , 常常 是根据所 考察间题的侧重点进行选择 至于 临界值 , 则由” 云五 2 · 号 和 e节 淤 的标准 分 别加以大致确定 , 当统计量的仇异常大时 , 则可认为对应点具有强影响性 (二)多个影响点的诊断 在回归中 , 多个影响点同时存在的情形 是更为常见的 这时 , 如果用作图法逐个进 行诊断 , 所得结果将可能是不可靠的 , 因为 别的影响点的存在可能会 “ 遮掩 ” 了所 考察 点的影响性 因此 , 一个妥善的办法是对多 个影响点同时进行诊断 常用的统计量有推 广的C o o k统计量 、 Q k统计量 和A 一 P统计量 五 、 回归中异常点和影响点 的处理 对于确认的异常点 , 如果是由于记录错 误等类似原因造成的 , 则可以将其剔除 , 否 则 , 就要认真分析 , 适 当变换模型形式或引 入新的变量 , 以建立更为合适的回归模型 , 达到满意的 回归效果 。

      对于其中的影响点 , 通常不再采用普通最小二乘法 , 而是利用稳 健回归或最小绝对值离差和等方法进行回归 估计 , 其目的是尽量消除影响点的 强影响 性 , 来达到平衡稳定的效果 参考文献 : 〔1〕N R . DR APE R& H SMITH AP PLIEDREG RES SIO N ANA LYSIS 〔2〕J ohn N eter, W Illiam W as ser m an , Mi ehae l11 . k u tn er APPliedLin e arstatis tie al M odels 〔3〕 A shish Se n, M uni S r iv as ta va R e gr e s sion A na ly s isTh eor y , M e th ods a nd APPli e a tion s (作者工作单位 : 南开大学会计系 , 邮政编 码 . 300 072) (责任编解许亦须) 一45一 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.