您所在位置：网站首页 > 医学/心理学 > 基础医学 > 统计学数据预处理

统计学数据预处理.ppt

46页

卖家[上传人]：cn****1

文档编号：575812550

上传时间：2024-08-18

文档格式：PPT

文档大小：1.42MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 46 举报版权申诉马上下载

文本预览

下载提示

常见问题

把混在原始数据中的“异常数据”排除、把真正有用的“信息”提取出来，有助于推断统计得出正确分析结论 1 ：异常数据取舍 2 ：未检出值和/或缺失值估算采用异常数据进行推断统计得到的结论误导带给科研与统计控制判断出错的隐患不可小视单个异常值：是指单个样本观测数据组内隐含的个别异常数据同义词有：可疑值、异常值、极端值、端值、离群值、逸出值、奇异值、超限值、粗值…异常均数：三个以上（k≥3）样本多均数要作统计分析比较时，无疑也要检查其中是否隐含可疑均数研究者对7例糖尿病患者给某种药物后，测量其血中胰岛素(/ml,X1)和血糖(mg%,X2)作者采用直线相关分析结论：血液中胰岛素与血糖两者含量之间无直线相关患者编号1234567胰岛素（X1 ）241718121512110血糖（X2 ）142170194213214238249剔出第6对数据前后的Pearson 相关系数，前者是0.314，后者是-0.936，显示有相关性！物理判别法：根据人们对客观事物已有的认识，判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，在实验过程中随时判断，随时剔除统计判别法：给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常数据剔除能用物理判别法判定异常数据有时不易做到，此时只能用统计判别法拉依达准则肖维勒准则格拉布斯准则狄克逊准则t检验（罗马诺夫斯基准则）极差法异常数据有两种情况：1. 异常值不属于该总体，抽样抽错了，从另外一个总体抽出一个(一些)数据，其值与总体平均值相差较大；2. 异常值虽属于该总体，但可能是该总体固有随机变异性的极端表现，比如说超过3σ的数据，出现的概率很小。

犯错误1：将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去，就会犯错误去真犯错误2：不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来，统计检验方法判断不出它是异常值，就会犯另外一种错误存伪•如果实验数据的总体如果实验数据的总体x是服从正态分布的，则是服从正态分布的，则•根据上式对于大于根据上式对于大于μ+3σ或小于或小于μ-3σ的实验数据的实验数据作为异常数据，予以剔除作为异常数据，予以剔除•剔除后，对余下的各测量值重新计算偏差和标剔除后，对余下的各测量值重新计算偏差和标准偏差，并继续审查，直到各个偏差均小于准偏差，并继续审查，直到各个偏差均小于3σ为止•无需查表，使用简便无需查表，使用简便对某一长度对某一长度L测量测量10次，其数据如下：次，其数据如下：试用拉依达准则剔除坏值试用拉依达准则剔除坏值解：解：20.33不不能能用用拉拉依依达达准准则剔除则剔除次数12345678910L(cm)10.3510.3810.310.3210.3510.3310.3710.3110.3420.33对某一长度对某一长度L测量测量10次，其数据如下：次，其数据如下：试用拉依达准则剔除坏值。

试用拉依达准则剔除坏值解：解：20.33用用拉拉依依达达准准则则剔剔除除次数1234567891011L(cm)10.3510.3810.310.3210.3510.3310.3710.3110.3420.3310.37对于服从正态分布的测量结果，其偏差出现在±3σ附近的概率已经很小，如果测量次数不多，偏差超过±3σ几乎不可能，因而，用拉依达判据剔除疏失误差时，往往有些疏失误差剔除不掉另外，仅仅根据少量的测量值来计算σ，这本身就存在不小的误差因此拉依达准则不能检验样本量较小的情况显著性水平为0.1时，n必须大于10）肖维勒准则又称为等概率原则，以正态分布为前提, 假设多次重复测量所得n个测量值中, 某个测量值的残余误差|vi|= >Zcσ,则剔除此数据 实用中Zc<3, 所以在一定程度上弥补了3σ准则的不足，另外考虑了测量次数的因素，在一定程度上比拉依达准则更合理Zc是一个与测量次数相关的系数，可以查表获取肖维勒准则可用于n<10时粗大误差的判定 n Zc n Zc n Zc 3 1.38 11 2.00 25 2.33 4 1.54 12 2.03 30 2.39 5 1.65 13 2.07 40 2.49 6 1.73 14 2.10 50 2.58 7 1.80 15 2.13 100 2.80 8 1.86 16 2.15 9 1.92 18 2.20 10 1.96 20 2.24格拉布斯准则是在未知总体标准差情况下，对正态样本或接近正态样本异常值的一种判别方法。

某个测量值的残余误差|vi|= > Tσ，则判断此值中含有粗大误差, 应予剔除T值与重复测量次数n和置信概率α均有关，因此格拉布斯准则是比较好的判定准则格拉布斯准则理论较严密，概率意义明确，可用于严格要求的场合,当n=20-100时，判别效果较好T值通过查表获得采用格拉布斯方法判定异常数据的过程如下：1. 选定危险率α α是一个较小的百分数，例如1%，2.5%，5%，它是采用格拉布斯方法判定异常数据出现误判的几率2. 计算T值 如果x(n)是可疑数据，则令3. 根据n及α，查表得到T0(n, α)值4. 如果T≥ T0(n, α),则所怀疑的数据是异常数据，应予剔除如果T0(n, α) ，则所怀疑的数据不是异常数据，不能剔除5. 余下数据重复操作至无异常数据格拉布斯准则可以检验较少的数据亦称Q检验法，狄克逊准则是通过极差比判定和剔除异常数据该准则认为异常数据应该是最大数据和最小数据，因此该其基本方法是将数据按大小排队，检验最大数据和最小数据是否异常数据将实验数据xi按值的大小排成顺序统计量x(1),≤x(2),≤ x(3),……≤x(n)计算f0值或根据狄克逊系数表将f0与f(n, α)进行比较如果f0 > f(n,α)，说明x(n)离群远，则判定该数据为异常数据，予以剔除。

t检验准则与狄克逊准则相似，也是检验最大实验数据和最小实验数据首先将实验数据按大小排列 x(1),≤x(2),≤ x(3),……≤x(n)对最小数据和最大数据分别进行检验，如果或则x(1)或x(n)是异常数据，应予剔除式中及分别为不包括x(1)或x(n)的n-1个数据的均值和标准差应注意的注意的问题：：① 所有的检验法都是人为主观拟定的，至今无统一的规定以数据按正态分布为前提的，当偏离正态分布和测量次数少时检验不一定可靠② 若有多个可疑数据同时超过检验所定置信区间，应逐个剔除，重新计算，再行判别若有两个相同数据超出范围时，应逐个剔除③在一组测量数据中，可疑数据应很少反之，说明系统工作不正常④为了减少犯错误的概率，可以将3种以上统计检验法结合使用，根据多数方法的判断结果，确定可疑值是否为异常值拉依达准则不能检验样本量较小的情况，格拉布斯准则则可以检验较少的数据在国际上，常推荐格拉布斯准则和狄克逊准则。

但对于异常数据一定要慎重，不能任意的抛弃和修改往往通过对异常数据的观察，可以发现引起系统误差的原因，进而改进过程和试验研究者对7例糖尿病患者给某种药物后，测量其血中胰岛素(/ml,X1)和血糖(mg%,X2)作者采用直线相关分析结论：血液中胰岛素与血糖两者含量之间无直线相关患者编号1234567胰岛素（X1 ）241718121512110血糖（X2 ）142170194213214238249本例为小样本，单击Analyze，后单击Descriptive statistics选择[ Explore]主对话框中，再单击[Plots…]选项→进入[ Explore：Plots ]对话框：在Boxplots项下点选⊙Dependents Together，在Descriptive项下勾选Stem-and-leaf，其余各项可以不要勾选和点选；单击[Continue]返回[Explore]对话框，单击OK, SPSS 运行、输出结果Frequency Stem & Leaf2.00 1 . 03.00 1 . 781.00 2 . 41.00 Extremes (>=121)Stem width: 10Each leaf: 1 case(s)胰胰岛素素检出离群出离群值121叶茎图和箱须图提示有极端值（≥121 ）将数据集中不含缺失值的变量（属性）称为完全变量，数据集中含有缺失值的变量称为不完全变量，Little 和Rubin定义了以下三种不同的数据缺失机制：1）完全随机缺失：数据的缺失与不完全变量以及完全变量都是无关的。

2）随机缺失：数据的缺失仅仅依赖于完全变量3）非随机、不可忽略缺失：不完全变量中数据的缺失依赖于不完全变量本身，这种缺失是不可忽略的1.直接丢弃含缺失数据的记录2.补缺A. 用平均值来代替所有缺失数据 B. K -最近距离邻居法：先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据 C.用预测模型来预测每一个缺失数据：该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术最常见、最简单的处理缺失数据的方法，也是很多统计软件（如SPSS）默认的缺失值处理方法如果缺失值所占比例比较小，这一方法十分有效至于具体多大的缺失比例算是“小”比例，专家们意见也存在较大的差距有学者认为应在5%以下，也有学者认为20%以下即可这种方法却有很大的局限性它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论缺失值是数值型的：平均值来填充该缺失的变量值缺失值是非数值型的，众数来补齐该缺失的变量值。

均值替换法也是一种简便、快速的缺失数据处理方法使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响但这种方法是建立在完全随机缺失（MCAR）的假设之上的，而且会造成变量的方差和标准差变小在数据库中找到一个与最相似的对象，然后用这个相似对象的值来进行填充不同的问题可能会选用不同的标准来对相似进行判定变量Y与变量X相似，把所有个案按Y的取值大小进行排序那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了与均值替换法相比，利用热卡填充法插补数据后，其变量的标准差与插补前比较接近但在回归方程中，使用热卡填充法容易使得回归方程的误差增大，参数估计变得不稳定，而且这种方法使用不便，比较耗时回归替换法首先需要选择若干个预测缺失值的自变量，然后建立回归方程估计缺失值，即用缺失数据的条件期望值对缺失值进行替换该方法也有诸多弊端，第一，容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重第二，研究者必须假设存在缺失值所在的变量与其他变量存性关系，很多时候这种关系是不存在的由Rubin等人于1987年建立起来的作为简单估算的改进产物。

首先，用一系列可能的值来替换每一个缺失值，以反映被替换的缺失数据的不确定性然后，用标准的统计分析过程对多次替换后产生的若干个数据集进行分析最后，把来自于各个数据集的统计结果进行综合，得到总体参数的估计值1、listwise deletion法在SPSS 的统计分析程序中, 打开options 按钮, 便会出现缺失值的处理栏(missing values) , 可分别选择下列选项: exclude cases analysis by analysis (剔除正在分析的变量中带缺失值的观察单位) ; exclude case list wise (剔除所有分析变量中带缺失值的观察单位) 2、如果遇到的缺失值形式是完全随机变量,在样本容量不大的情况下,可采用填补的方法(imputation)点击“transform ，此菜单下的“replace missing values”列出了5 种替代的方法通常可填上平均值,或者回归的预测值,这两种方法都有缺点，对最终数据结果影响较大SPSS有个Missing data analysis栏目,增加了EM (expectation and maximization)填补。

它的方法是把有同样缺失的样本放在同一组,计算它的协方差矩阵（covariance matrix）,然后再根据每组的样本数来校正它对整个样本的权重(weight),从这里再重新填补每个缺失值，这重方法算是现在比较精确的缺失值填补的方法总之，缺失值处理方法的选用取决于缺失值的形式、缺失样本总样本的比例等具体情况而定，最终的衡量标准要保证最终数据的客观性与准确性。

点击阅读更多内容