
第四讲-非参数统计--中文版.ppt
48页By爱窝窝小组数理统计非参数统计v非参数统计统计By 爱窝窝爱窝窝 小组组非参数统计Kruskal-Wallis单因素方差分析独立样本Mann-Whitney检验配对样本 Wilcoxon 符号秩检验配对样本符号检检验目录Friedman秩方差分析随机游程检验通用两样本转移模模型秩相关及其检检验绪论By 爱窝窝爱窝窝 小组组非参数统计参数统计方法v定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为参数方法v一个典型的参数检验过程:1.总体参数(如总体均值)2.假定数据的形态为数值型(定比数据)3.有很强的假定(一般要求分布正态)4.例子:ZTest,tTest,2TestBy 爱窝窝爱窝窝 小组组非参数统计15.1 绪论2.过多无法证明的假设1.有些试验的观测值无法量化参数估计的局限By 爱窝窝爱窝窝 小组组非参数统计15.1 绪论1老师上课的质量水平32对食物的喜爱程度1.无法量化的观测值我们之前遇到的问题中观测值都是可以量化的,比如考试的分数,两组人的身高等等,但还有一些观测值是无法量化的,我们可以去比较好坏,高低却无法用数字来度量By 爱窝窝爱窝窝 小组组非参数统计15.1 绪论v在10.8中提到,用t检验比较两个基于独立样本的均值是否相等时,有隐含的假设是两个总体都服从正态分布并且有相同的方差。
v但我们无法证实在实际情况下这些假设是否成立2.过多无法证明的假设By 爱窝窝爱窝窝 小组组非参数统计15.1 绪论v统计学家对于非参统计没有统一的定义但有一些是大家都认同的v当一个样本所在的分布仅有有限个参数值未知,其他条件已知时,解决相关问题的方法叫做参数方法v而非参数方法用于除此以外的所有情况,可以在一个很宽泛的假设下仍可以很好的推断出关于概率分布及参数的相关信息By 爱窝窝爱窝窝 小组组非参数统计15.1 绪论v例:v当总体服从正态分布,且均值和方差未知时,我们可以运用t检验因为除了均值和方差两个参数未知外,样本所在分布的其他条件已知,所以说t检验是个参数过程v假设相互独立的样本取自两个总体,而我们要检验两个总体分布是否一致,但分布的形状未知在这种情况下,分布是不确定的,只能靠非参数方法来检验By 爱窝窝爱窝窝 小组组非参数统计15.1 绪论v对于前面的章节所介绍了参数统计的方法,其有效性是建立在确定的分布假设成立或者至少近似满足的前提下即使所有的前提都满足,研究表明,非参数统计几乎和参数统计一样能够检测出总体间的差异而当分布的假设前提不满足时,非参数统计或许往往是测量总体间差异最有效的方法。
因此,有很多统计学家都更倾向于使用非参数统计By 爱窝窝爱窝窝 小组组非参数统计15.2 通用两样本移动模型v通常,我们会从两个总体中取得观测值来检验两个总体是否有相同的分布v以正态总体为例从两个具有相同方差,均值分别为x,y的正态总体中,抽取独立的随机样本X1,X2.Xn1和Y1,Y2.Yn2vH0:x-y=0vHa:x-yY,v 原假设H0:p=v 备择假设Ha:p(或者p时,当M很大时拒绝原假设vHa:p时,当M很小时拒绝原假设vHa:p时,当M很大或者很小时拒绝原假设By 爱窝窝爱窝窝 小组组非参数统计符号检验的步骤(3)vBy 爱窝窝爱窝窝 小组组非参数统计符号检验的大样本情况v N25时v 可以用正态分布来近似估计二项分布模型v 符号检验的统计量改为:v Z=(M-np)/npqv =(2M-n)/nv N(0,1)v 拒绝域即为:v RR:|z|z/2By 爱窝窝爱窝窝 小组组非参数统计配对试验的Wilcoxon符号秩检验在H0之下,我们期望:1.n对样本中,每对差值正负总和个数各为n/22.正负差值的绝对值相等等概率发生正负秩总和若存在一定差异,则意味着两个分布之间存在平移总体非正态时可作为t检验的替代By 爱窝窝爱窝窝 小组组非参数统计H0:随机变量X和Y分布相同Ha:1.双边检验两总体只在位置上不同,形状相同2.单边检验两总体形状相同,X分布在Y的右边检验统计量:1.T=min(T+,T-)2.T=T-拒绝域:1.双边检验-如果TT0,拒绝H02.单边检验-如果T-T0,拒绝H0 配对试验的Wilcoxon符号秩检验By 爱窝窝爱窝窝 小组组非参数统计例15.4v 一个配对试验被用来检验A和B两种混合物做成的蛋糕的差别,两种蛋糕各6个被配对放在6个不同的烤箱中烘烤,检验两种蛋糕密度的总体分布是否有差异。
数据见下表v 解:原假设:两种蛋糕密度的总体分布相同v 备择假设:两种蛋糕密度的总体分布不同v 取=0.1,从附录3表9中双尾检验T的临界值为2v v 检验统计量不在拒绝域中,所以没有充分证据表明两个总体不同v 因为在=0.1时不拒绝原假设,所以p-value0.1By 爱窝窝爱窝窝 小组组非参数统计例15.4数据ABA-B差的绝对值 差的绝对值的秩0.135 0.129 0.006 0.006 30.102 0.120 -0.018 0.018 50.108 0.112 -0.004 0.004 1.50.141 0.152 -0.011 0.011 40.131 0.135 -0.004 0.004 1.50.144 0.163 -0.019 0.019 6By 爱窝窝爱窝窝 小组组非参数统计15.5 独立随机样本的检验:使用秩(ranks)1.如何取秩?将从总体I和总体II取得的样本排序,得到各个观测值的秩.相同大小的观测值具有相同的秩,我们称之为结(ties)结(ties)的处理:将同秩观测值的秩和平均分配给各个观测值作为其秩例:观测值468810原秩12345处理后的秩123.53.55By 爱窝窝爱窝窝 小组组非参数统计15.5 独立随机样本的检验:使用秩(ranks)2.秩和检验(rank-sumtest):如果两个总体相同,那么样本的秩和(ranksum)应当与样本量成比例。
在样本量相同的情况下,如果两者的秩和相差很大,那么总体应当具有显著区别By 爱窝窝爱窝窝 小组组非参数统计15.6 独立随机样本的非参数检验: Mann-Whitney U 检验U统计量:U是对于样本II中每个观测值,样本I中比它小的观测值的个数的总和例:2526272829313235x(1)x(2)x(3)y(1)y(2)x(4)y(3)y(4)u1=3,u2=3,u3=4,u4=4则U=u1+u2+u3+u4=3+3+4+4=14By爱窝窝小组数理统计非参数统计vU统计量的计算公式:其中:n1:样本一中观测值的个数,n2:样本二中观测值的个数W:样本一的秩和.n1n2U统计 量的性质:1.U的取值值范围围: 0,1,2,n1*n22.U的概率分布对对(n1*n2)/2对对称 . 因此By 爱窝窝爱窝窝 小组组非参数统计Mann-Whitney U 检验总体I是较小样本所对应的总体(n110 n210)v 当总体分布相同的时候,U具有以下性质:v 在大样本(n110,n210)情况下 Z近似服从于标准正态分布By 爱窝窝爱窝窝 小组组非参数统计Kruskal-Wallis单因素方差分析vKruskal-Wallis单因素方差分析是用非参方法检验多个总体是否相同。
v方差分析是用于检验多独立总体均值是否相等的参数方法,需要假设各总体服从正态分布且方差相等v此方法不需要这个假设!By 爱窝窝爱窝窝 小组组非参数统计Kruskal-Wallis单因素方差分析v从每个总体中抽出一个样本,共有k个独立样本,每个样本的样本量分别为n1,n2,.,nk.将所有样本的数据从小到大排列合并成一个单一的样本,全部观察值的总数位N=n1+n2+.+nk找出每个观察值的秩,从1到N,对于N个观测值来说By 爱窝窝爱窝窝 小组组非参数统计Kruskal-Wallis单因素方差分析By 爱窝窝爱窝窝 小组组非参数统计Kruskal-Wallis单因素方差分析vH0:k个总体分布都同 H1:至少有俩个总体分布不同ni=第i个总体的样本量Ri=第i个样本实际秩的总和拒绝域:By 爱窝窝爱窝窝 小组组非参数统计Friedman秩方差分析 By 爱窝窝爱窝窝 小组组非参数统计随机化区组设计的Friedman秩方差分析 原假设与备择假设12构造统计量3拒绝域4检验的假设By 爱窝窝爱窝窝 小组组非参数统计原假设和备择假设原假设:H0:K种处理的概率分布是相同的备择假设:Ha:至少两个分布的位置不同By 爱窝窝爱窝窝 小组组非参数统计构造统计量v检验统计量:Fr =b:区组的个数k:处理的个数Ri:第i个处理的秩的和,其中每个处理的秩的计算和它所在的区组中包含的处理的个数相关By 爱窝窝爱窝窝 小组组非参数统计拒绝域v拒绝域:Fr 其中卡方分布自由度为(k-1)By 爱窝窝爱窝窝 小组组非参数统计检验的假设v假设:v在区组中,处理被随机分配到实验单元v区组数或处理数至少有一个大于5By 爱窝窝爱窝窝 小组组非参数统计随机游程检验The Runs Test: A Test for RandomnessBy 爱窝窝爱窝窝 小组组非参数统计随机游程检验 S S S S S F F S S S F F F S S S S S S S 游程(Run):一连串出现的相同符号的序列,其后则出现不同符号,或没有符号 游程用于检验样本的随机性,通常游程过多或过少时,都会怀疑样本的随机性 上例中,包含5个游程By 爱窝窝爱窝窝 小组组非参数统计随机游程检验检验原理与计算方法假设序列中含有n1个S元素,n2个F元素,n=n1+n2Y1个S的游程,Y2个F的游程,其中,Y1+Y2=R。
H0:样本序列随机 Ha:样本序列不随机检验统计量:R(游程个数)拒绝域:RR=RK1 and RK2P(R=2K)=2P(Y1=k,Y2=k)P(R=2K+1)=P(Y1=k,Y2=k+1) +P(Y1=k+1,Y2=k)By 爱窝窝爱窝窝 小组组非参数统计Run Test:大样本的例子经验表明:如果 n1且 n2 10, R 的抽样分布近似为正态H0:样本序列随机 Ha:样本序列不随机检验统计量:Z拒绝域:RR=|Z|Z/2显著水平:By 爱窝窝爱窝窝 小组组非参数统计秩相关及其检验v两个数值变量之间相关性我们用其相关系数度量,对于两个顺序变量之间相关程度的测量怎么办呢? 非参数统计中的秩相关系数为解决此问题的利器! 在此方法的应用中,我们对总体的分布不做任何假定,只需要对样本观测值进行排秩 最常见的秩相关系数有spearman 和kendallBy 爱窝窝爱窝窝 小组组非参数统计Spearman秩相关系数v 设样本(X,Y)=(X1,Y1),(Xn,Yn)来自总体:F(x,y)v 类似于相关系数:R(xi)指的是xi在所有x观测值中的秩, R(yi)指的是yi在所有y观测值中的秩v当观测值没有打结出现时,上式可化简为:By 爱窝窝爱窝窝 小组组非参数统计Spearman秩相关检验Spearman秩相关系数检验检验统计量:Spearman秩相关系数拒绝域:1 或 (双尾检验)2 (上尾检验)3 (下尾检验)4 的相关值可以在书上的表11-3中查找原假设:不存在相关性 备择假设:1存在相关性(双尾) 2存在正(负)相关(单尾) By 爱窝窝爱窝窝 小组组非参数统计非参数统计的优势与弱点v 对总体假定较少,有广泛的适用性,结果稳定性较好。
1.假定较少 2.不需要对总体参数的假定 3.与参数结果接近v 针对几乎所有类型的数据形态v 容易计算 在计算机盛行之前就已经发展起来v非参数统计的缺点可能会浪费一些信息 特别当数据可以使用参数模型的时候By爱窝窝小组数理统计非参数统计。












