spssppt课件第五讲 非参数检验.ppt
34页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第五讲 非参数检验,2,统计推断方法是根据样本数据推断总体特征,(,均值,方差等,),的方法,包括参数检验和非参数检验两种方法参数检验是适用于总体分布已知的情况非参数检验适用于总体分布未知或知道甚少的情况由于在推断过程中不涉及有关总体分布的参数,故得名“非参数”检验),3,单样本的非参数检验,两配对样本的非参数检验,两独立样本的非参数检验,多独立样本的非参数检验,多配对样本的非参数检验,4,单样本的非参数检验,SPSS,单样本非参数检验是对单个总体的分布形态等进行推断的方法,其中包括:,K-S,检验,二项分布检验,游程检验,5,1.,单样本,K-S,检验,K-S,检验是以俄罗斯数学家,Kolmogorov Smirnov,命名的一种非参数检,验方法该方法能够利用样本数据推断样本来自的总体是否服从某一理,论分布,是一种拟合优度的检验方法,适用于探索,连续性,随机变量的分,布原假设,:样本来自的总体与指定的理论分布无显著差异SPSS,的理,论分布主要包括正态分布、均匀分布、指数分布和泊松分布等基本原理,:,首先,在原假设成立的前提下,计算各样本观测值在理论分布中出现,的累计概率值 ;其次,计算各样本观测值的实际累计概率值 ;,然后计算两者之差 ;最后,计算差值序列中的最大绝对差值,即,6,通常,由于实际累计概率为离散值,因此修正 为,称为,K-S,统计量。
小样本下,原假设成立时 统计量服从,Kolmogorov,分布;,大样本下,原假设成立时 统计量服从 分布,:,显然,若样本总体分布与理论分布差异不明显,那么 不应较大若,统计量的,P,值大于显著性水平 ,则接受原假设;反之,拒绝原假设无论大样本还是小样本,SPSS,仅给出大样本下的 和对应的概率,P,值7,2.,二项分布检验,(,二值数据,),原假设,:样本来自的总体与指定的概率为 的二项分布无显著差异基本原理,:,1,小样本情况,(,精确检验法,),:计算 次试验中某类,(1,或,0),事件出现的次数小于等于,次的概率,即,2,大样本情况,(,近似检验,),:采用 检验统计量,在原假设成立下统计量近似服从正,态分布,即,(当 小于 时加,0.5,,当 大于 时减,0.5,SPSS,自动计算上述精确概率和近似概率值若概率值小于显著性水平,则拒绝,原假设,认为样本来自的总体与指定二项分布有显著差异;若大于显著性水平,,则接受原假设,认为样本来自的总体与指定的二项分布无显著差异8,生活中的有些总体只能划分为两类,如性别、硬币的正反面等通常,将这样的二值分别用,1,和,0,表示如果进行 次独立重复实验,则出现两,类的次数可以用离散型随机变量来表述。
如果随机变量值为,1,的概率设,为 ,则为,0,的概率为 ,形成二项分布9,3.,变量值随机性检验(游程检验),通过对样本变量值的分析,实现对总体的变量值出现是否随机进行,验原假设,:总体变量值出现是随机的基本原理,:利用游程数构造检验统计量游程数,(Runs),,样本序列中,连续出现相同的变量值的次数例如,如果,28,次投掷硬币出现正反面的变量值序列为,1 0 11 0 11 0 1 00 11 000 1 0 1 0 1 0000 111,游程数为,17,如果硬币的正反面出现是随机的,那么在该数据序列中,,许多个,1,或,0,连续出现的可能性将不太大,同时,,1,和,0,频繁交叉出现的可,能性也会较小故游程数太大或太小都将表明变量值存在不随机现象设 为出现,1,的个数,为出现,0,的个数,当 ,较大时,游程的抽样,分布的均值为:,10,方差为:,大样本时,游程近似服从正态分布,即,其中,为游程数SPSS,自动计算 值和概率,P,值11,两配对样本的非参数检验,两配对样本的非参数检验是在对总体分布不甚了解的情况下,通过对,两组配对样本的分析,推断样本来自的两个配对总体的分布是否存在显,著差异的方法。
配对样本的样本数是相同的,且各样本值的先后次序是不能随意更,改的SPSS,提供的检验方法有:,符号检验,Wilcoxon,符号秩检验,McNemar,检验,Marginal Homogeneity,检验,12,1.,符号检验,原假设,:两配对样本来自的两总体的分布无显著差异,基本思路,:,(1),分别用第二组样本的各个观察值减去第一组对应的观察值差值为正记为正号,差值为负记为负号2),将正号的个数与负号的个数进行比较:若正、负号个数大致相当,则认为两组配对样本的数据分布差距较小;相反,如果正、负号个数相差较多,则可认为两个配对样本的数据分布差距较大原理,:二项分布检验,检验正号个数和负号个数的分布是否服从概率,p,为,0.5,的二项分布,即对正负符号变量进行单样本二项分布检验注:该方法注重对变化方向的分析,只考虑数据变化的性质,没有考虑变,化幅度,即定性而非定量,故对数据的利用不充分13,2.Wilcoxon,符号秩检验,原假设,:两配对样本来自的两总体的分布无显著差异基本思想,:,(1),同符号检验的基本思路,(1),,但这里要保存差值数据;,(2),将差值变量按升序排序,并求出差值变量的秩;,(3),分别计算正号秩总和 和负号秩总和 ,如果总样本数为 ,则,的最小可能值为,0,,最大可能值为 。
如果 与 大致,相当,则说明一组样本值大于另一组样本值和小于时的幅度大致相当,,两组样本数据差的正负变化程度基本相当,两配对总体的分布无显著差,异原假设成立下,小样本的检验统计量 服从,Wilcoxon,符号秩分布;大样本下利用 可构造,Z,统计量,它近似服从正态分布14,3.McNemar,检验,McNemar,检验是基于列联表进行分析的,它注重处理前后的变化情况McNemar,检验采用二项分布检验的方法,计算处理前后变化的分布是否服从概率,p,为,0.5,的二项分布在小样本下计算二项分布的累积精确概率,大样本下采用修正的,Z,统计量,它近似服从正态分布SPSS,自动计算,Z,统计量和相应的概率,P,值如果拒绝原假设,则认为处理前后变化的分布与,p,为,0.5,的二项分布存在显著差异,即两配对样本来自的两总体的分布存在显著差异;反之,接受则认为没有显著差异注:这里分析的变量是二值变量在实际应用中,若不是,应首先进行,数据转换方可采用该方法故它在应用范围上有一定局限性McNemar,检验是一种变化显著性检验,它将研究对象自身作为对照,者检验其“前后”的变化是否显著原假设,:两配对样本来自的两总体的分布无显著差异。
4.Marginal Homogeneity,检验,是,McNemar,方法向多分类情形下的扩展,15,两独立样本的非参数检验,两独立样本的非参数检验是对总体分布不太了解的情况下,通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法独立样本是指在两个总体中的分别随机抽样互相没有影响检验方法有:,曼,-,惠特尼,U,检验,K-S,检验,W-W,游程检验,极端反应检验,1.,曼,-,惠特尼,U,检验,(,Mann-Whitney U,),原假设,:两组独立样本来自的两总体分布无显著差异基本原理,:通过对两组样本平均秩的研究来实现推断秩,是变量值,排序的名次可以将数据按升序排列,每个变量值都会有一个在整个变量值序列中,的名次,这个名次就是变量值的秩变量值有几个,对应的秩便有几,个首先,将两组样本数据 和 混合并按升序排序,得,到每个数据各自的秩 ;,然后,分别对两组样本数据的秩求平均,得到两个平均秩 和 对,两个平均秩的差距进行比较:如果两个平均秩相差甚远,则应是一组样本的,秩普遍偏小,另一组样本的秩普遍偏大的结果,也就是一组样本的值普遍偏,小,另一组样本的值普遍偏大的结果。
此时,原假设很可能不成立;,再次,计算样本 每个秩优先于样本 每个秩的个,数 ,以及样本 每个秩优先于样本 每个秩的个数 并对 和 进行比较:如果 和 相差较大,则有必要怀疑原假设的真,实性;,最后,依据 和 计算,Wilcoxon W,统计量和曼,-,惠特尼,U,统计量曼,-,惠特尼,U,统计量计算公式为:,式中,,W,值为,Wilcoxon W,;为,W,对应样本组的样本个数小样本下,,U,统计量服从曼,-,惠特尼分布SPSS,自动计算,U,统计量和,概率,P,值并依据此,U,统计量的概率,P,值决策大样本下,,U,统计量近似服从正态分布,计算公式为,SPSS,将自动计算,Z,统计量和对应的概率,P,值依据,Z,统计量的概率,P,值决策不过,这些计算过程也可以通过,SPSS,的数据处理功能自己计算2.K-S,检验,K-S,检验不仅能够检验单个总体是否服从某一理论分布,还能够检验,两总体是否存在显著差异原假设,:两组独立样本来自的两总体的分布无显著差异基本原理,与前面讨论的单样本情况大体一致主要差别在于:这里是,以变量值的秩作为分析对象,而非变量值本身首先,将两组样本混合并按升序排序;,然后,分别计算,两组样本秩的累计频数和累计频率,;,最后,计算两组累计频率的差,得到秩的差值序列并得到,D,统计量,(,同,单样本的,K-S,检验,但无须修正,),。
SPSS,中将自动计算在大样本下的 的观测值和概率,P,值据此作出决,策3.,游程检验,(,Wald-Wolfwitz Runs,),两独立变量的游程检验用来检验两独立样本来自的总体的分布是否存,在显著差异不同于单样本情况的目的原假设,:两组独立样本来自的两总体的分布无显著差异基本原理,和单样本情况基本相同,不同的是计算游程数的方法在两,独立样本的游程检验中,游程数依赖于变量的秩步骤,:,(1),将两组样本混合并按升序排序在变量值排序的同时,对应的组标记,值会随之重新排列;,(2),对,组标记值序列,按前面讨论的计算游程的方法计算游程数,如果两总,体的分布存在较大差距,那么游程数会相对比较少;如果游程数比较大,,则应是两组样本值充分混合的结果,两总体的分布不会存在显著差异3),根据游程数据计算,Z,统计量,该统计量近似服从正态分布SPSS,自动计算,Z,统计量的观测值和对应的概率,P,值根据,P,值决策4.,极端反应检验,(,Moses Extreme Reactions),该检验法从另一角度检验两独立样本所来自的两总体分布是否存在显,著差异原假设,:两组独立样本来自的两总体的分布无显著差异。
基本原理,:将一组样本作为控制样本,另一组样本作为实验样本以,控制样本作为对照,检验试验样本相对于控制样本是否出现了极端反应,如果试验样本没有出现极端反应,则认为两总体分布无显著差异,反,之,有显著差异步骤,:,(1),将两组样本混合按升序排序;,(2),求出控制样本的最小秩 和最大秩 ,并计算出跨度,(Span):,(3),为消除样本数据中极端值对分析结果的影响,在计算跨度之前可按比,例,(,通常为,5%),去除控制样本中部分靠近两端的样本值,然后再求跨度,,得到截头跨度极端反应检验注重对跨度和截头跨度的分析:如果跨度或截头跨度较,小,则是两组样本数据无法充分混合,一组样本值显著大于另一组样本,值的结果,可以认为相对控制样本和实验样本出现了极端反应,则样本,来自的两总体分布存在显著差异;相反,如果跨度或截头跨度较大,则,是两组样本数据充分混合,一组样本值没有显著大于另一组样本值的结,果,可以认为没有出现极端反应,则样本来自的两总体没有显著差异对跨度或截头跨度计算,H,检验统计量,即,式中,为控制样本的样本数,为控制样本在混合样本中的秩;为,控制样本的平均秩SPSS,自动计算,H,统计量及其概率,P,值,据此决策。





