
离群值的判断和处理2014.pdf
27页1 离群值的判断和处理离群值的判断和处理 上海市临床检验中心张健 主要内容 离群值判断和处理的相关国家标准 离群值的定义 离群值的判断 离群值的处理 GB/T 4883 作者:于振凡 2 离群值判断和处理的相关国家标准 GBT 4883-2008 数据的统计处理和解释正态样本离群值的 判断和处理 GBT 6380-2008 数据的统计处理和解释 Ⅰ型极值分布样本 离群值的判断和处理 GBT 8056-2008 数据的统计处理和解释 指数分布样本离群 值的判断和处理 3 离群值的定义 离群值离群值outlier 样本中的一个或几个观测值,它们离开其他样本中的一个或几个观测值,它们离开其他 观测值较远,暗示它们可能来自不同的总体观测值较远,暗示它们可能来自不同的总体 注:离群值按显著性的程度分为歧离值和统注:离群值按显著性的程度分为歧离值和统 计离群值计离群值 统计离群值统计离群值statistical outlier 在检出水平下统计检验为显著的离群值在检出水平下统计检验为显著的离群值 4 GBT4833 检出水平与剔除水平 检出水平:detection level 为检出离群值而指定的统计检验的显著性水平 注:除非根据本标准达成协议的各方另有约定,检出水平应为 0.05 剔除水平:deletion level 为检出离群值是否高度离群而指定的统计检验的显著性水平 注:除非根据本标准达成协议的各方另有约定,检出水平应为 0.01 GB/T 4883 5 离群值的来源与判定 按产生原因可分为两类: 总体固有变异的极端表现 由试验条件和方法的偶然偏离产生 离群值判定的方法: 根据技术上或物理上的理由直接判定 应用统计方法判定-GBT4833 6 离群值的三种情形 GBT4833在下面三种情况下判断离群值 上侧情形:根据实际情况和以往经验,离群值都是高端值 下侧情形:根据实际情况和以往经验,离群值都是低端值 双侧情形:根据实际情况和以往经验,离群值可以是高端 值,也可以是低端值 7 单个和多个离群值 检出离群值个数的上限:应规定检出离群值的个数,当超 过这个限制时,对样本应做慎重处理。
单个离群值情形: 1.依据实际或经验,确定事宜的离群值检验方法 2.确定显著水平 3.确定检验临界值 4.计算相应统计量值,与临界值比较做出判断 多个离群值情形:离群值大于1的情况,重复单个离群值 方法,当超出上限时,检验停止 8 离群值处理 处理方式: 保留离群值并用于后续数据处理 在找到实际原因时修正离群值,否则予以保留 剔除离群值不追加观测值 剔除离群值并追加新的观测值或用适宜的插补值代替 9 处理规则 对检出的离群值,应尽可能寻找技术或物理的原因,根据 问题性质,权衡寻找和判定产生离群值的原因所需代价、 正确判定离群值的得益及错误剔除正常观测值的风险,以 确定实施下述三个规则之一: 若技术或物理上找出离群值原因,则应剔除或修正,若找 不到原因则不得剔除或修正 若技术或物理上找出离群值原因,则应剔除或修正;否则, 保留歧离值,剔除或修正统计离群值;重复检验获得多个 离群值,都要进行检验是否为统计离群值,并与前面的离 群值一起剔除或修正 检出的离群值都应剔除或修正 10 备案 被删除或修正的观测值及其理由应予记录,以备查询 11 判断规则和检验方法 已知标准差情形离群值的判断规则 未知标准差情形离群值的判断规则 A. 限定检出离群值个数不超过1 B. 限定检出离群值个数大于1 12 已知标准差情形离群值的判断规则 一般原则: 使用奈尔(Nair)检验法,3≤N≤100 离群值的判断规则 上侧情形 下侧情形 双侧情形 13 已知标准差情形离群值的判断规则 14 15 注:样本均值、样本标准差和注:样本均值、样本标准差和Grubbs统计量的保留位数至少统计量的保留位数至少 要比原始数据多一位;即原始数据的修约间隔为要比原始数据多一位;即原始数据的修约间隔为10n、、 10-n时,时, 样本均值、样本标准差和样本均值、样本标准差和Grubbs统计量的修约间隔为统计量的修约间隔为10n+1、、 10-n-1。
((n为正整数和零)比原始数据多几位,要在相关的文件中作出明确规定为正整数和零)比原始数据多几位,要在相关的文件中作出明确规定 16 未知标准差情形离群值的判断规则 离群值个数不超过1时 一般原则:选择格拉布斯法和狄克逊方法 格拉布斯(Grubbs)检验法 上侧情形 下侧情形 双侧情形 狄克逊(Dixon)检验法 单侧情形 双侧情形 17 GB/T 4883 作者:于振凡 18 19 20 21 22 未知标准差情形离群值的判断规则 离群值个数大于1时 一般原则:选择格偏度-峰度检验法或狄克逊方法 偏度-峰度检验法 单侧情形--偏度检验法 双则情形--峰度检验法 狄克逊(Dixon)检验法 23 24 25 26 对检验方法的选择 一、限定检出离群值的个数不超过一、限定检出离群值的个数不超过1时时 A、、n30,正态概率纸上线性好,使用偏度,正态概率纸上线性好,使用偏度-峰度检验法峰度检验法 C、、n30,正态概率纸上线性不好,使用,正态概率纸上线性不好,使用Grubbs检验法检验法 二、限定检出离群值的个数可以超过二、限定检出离群值的个数可以超过1时时 A、、n30,正态概率纸上线性好,使用偏度,正态概率纸上线性好,使用偏度-峰度检验法峰度检验法 C、、n30,正态概率纸上线性不好,使用,正态概率纸上线性不好,使用Grubbs检验法检验法 27 。












