第5章 K个相关样本的非参数检验.docx
10页第五章 K 个相关样本的非参数检验§5.1 几个概念在参数检验中,我们常常对三个或三个以上的总体的均值进行相等性检验,使用的 方法是方差分析,在非参数分析中也会遇到同样的问题,检验多个总体的分布是否相同 更严密的说,当几个总体的分布相同的条件下,讨论其位置参数是否相等方差分析过 程需要假定条件,F检验才有效可有时候所采集的数据常常不能满足这些条件,像多样 本比较时一样,我们不妨尝试将数据转化为秩统计量,因为秩统计量的分布与总体分布 无关,可以摆脱总体分布的束缚秩方法在方差分析中的应用1、 处理—样本;2、 区组—因素在K个不同的条件下,对n个受试者进行试验得下列数据:处理12• • •k1xx• • •x2xx• • •x:nxx• • •x§5.2 Kruskal Wallis 检验在比较两个以上的总体时广泛使用的 Kruckal-Wallis 检验,就是对两个以上的秩 样本进行比较的非参数方法,实质上它是两样本比较时的 Wilcoxon 方法在多于两个样 本时的推广在该测验中,首先计算全体样本中的秩,遇到数据出现相等,即存在“结”的 情况时,采用“平均秩”手段让它们分享它们理应所得的秩和,再对数据(秩)进行方差 分析,但构造的统计量并不是组间平均平方和除以组内平均平方和,而是《用=组间平方 和/总平方和的平均数, KW 表示 Kruskal-Wallis 统计量。
H : M = M =…=M0 1 2 kH : 至少一对位置参数不等 KW 统计量的观察值是我们判定各组之间是否存在差异的有力依据,因为我们需要检验的 原假设是各组之间不存在差异,或者说各组样本来自的总体具有相同的中心(均值或中 位数)Kruskal-Wallis统计量的计算步骤为:将k组数据混合,并从小到大排列,列出等级,如有相同数据则取平均等级,如 果原假设为不真,某个总体的位置参数太大,则其观测值也倾向于取较大的值,则该总 体的观测值的秩和也会偏大,因而导致12 v N +1S = 乙 n (R — )2N N (N + 1) i i 2i — 1偏大,其中R -吏R / n oi ij jj—1SN的含义是:工n (R — )2是组间离差平方和i i 2i—11 Q N +1 乙(i — )2N —1 2i—11 JN N +1 工 i 2 — N ( )2N — 1 2i — 1N (N + 1)1212 v — N +1S — 乙 n (R — )2N N(N +1) i i 2i —1在原假设为真的条件下,只要k大于3,KW很快地依分布趋于自由度为(k-1)的X 2(k — 1)分布。
例:从我国上市公司中分别随机抽取了工业、商业、建筑业、交通运输业等四个行业,其在 1999 年的总资产报酬率如下:12345678910工业9.5&6&86.77.36.87.77.7&69.7商业&1&27.67.78.07.57.3&2&58.4建筑业&6&89.2&89.89.79.29.710.29.7交通运输9.07.9&27.68.77.8&87.6&98.7问四个行业资产报酬率是否有显著性差异.要检验这四个组数据的差异性,也可以利用方差分析,但方差分析需要假定观测值行业,NMean Ran资产报酬率 11016.8521012.7531033.0541019.35Total 40-Ranks资产报酬率Chi-Square17.053df3Asym p. Sig.001Test Statistics a,ba. Kruskal Wallis Testb. Grouping Variable:行业服从正态分布所以用 Kruckal-Wallis 检验首先将四个组的数据混合,然后按升序 排列,的下表:工业9.58.68.86.77.36.87.77.78.69.7序342227.513.5210102236.5商业8.18.27.67.78.07.57.38.28.58.4序15177101453.5172019建筑业8.68.89.28.89.89.79.29.710.29.7序2227.532.527.53936.532.536.54036.5交通运输9.07.98.27.68.77.88.87.68.98.7序311317724.51227.573034.5§5.2 Friedman 检验Friedman检验也称Friedman 2检验,是1937年Friedman提出的检验方法。
它是检验K个总体的分布中心是否有差异Friedman提出的检验方法是独立地在每一个 区组内各自对数据进行排秩例如美国通用、福特与克莱斯勒汽车公司 5 种不同车型的某年产品油耗情况如表 所列,数据分析关心的问题之一是三个公司汽车耗油有无差异,3 个汽车公司 5 种不同车型某年产品油耗情况公司超小型小型中型大型运动型通用20.321.218.218.618.5福特18.618.525.624.719.3克莱斯勒19.320.724.019.821.4K=4,n=5例 三种不同的教学方法的效果是否有显著性差异将18个学生分别用电视教学课堂讲授和课堂讨论进行教学,然后考试,按成绩高低排序如下:教学方法(区组)学生(处理电视教学课堂讲授课堂讨论11322132456789101112131415161718合计2331如果三种教学方法对学生的学习效果没用差异,则每个处理的排序是随机的否则每个处理的排序会有倾向一、基本方法H :k 种条件不存在差异H 1: k 种条件不存在差异;1、将每个处理的不同区组的观察值排序1) 第i个区组处理关于各处理所取秩的总和R (i = 1,2,…,k);nk (k + 1) R + R + •…+ R = n (1 + 2 + •…+ k)=1 2 k 23)倘若 k 种条件不存在差异,那么无论从哪一个区组去观察,每一种处理所得到的数 据在该区组内可能地排秩为1至k中的任何一个数。
因此,假如原假设为真的话,对每 一 i,R应与R = n(k + 1)相距不远,或者其秩平均R =R /n应与k+1/2相距不远仿i 2 i i照方差分析的讲法,由处理产生的“秩变异平方和”v k + 1乙 n (R 一 )2i2i=1当原假设为真,为n(R - k+1 )2应该比较小反之,若该平方和较大的话,则为拒绝 i2i=1原假设提供有力证据2、统计量这个平方和究竟怎样算大怎样又算小,统计学的常规处理手法之一还是将它与另外的z平方和或平均平方和来比较,Friedman检验统计量就是将这个平方和除以秩的整体平均平方和,得12 n k k + 1Fridman 统计量=Q = 工(R 一 )2k(k +1)_ i 23、结论当原假设为真时,Q服从自由度为k-1的咒2分布注1:随机区组试验设计资料,也可直接计算F值作F检验F值计算步骤如下:将每一区组的数据按大小排列,有相同数据时以平均等级计算,其秩次为 R ,再计算各 ij个处理的等级和m ,并计算所有等级的平方和:iA = E R 2ij及和各个处理秩和平方和的均值:1 vB = E m 2ni(n — 1) L — nk (k + 1)2 j 4 其统计量F为:F =-A — B其自由度 v =k-1 , v =(b-1)(k-1)。
12注 2: Friedman 检验只能提示人们若干总体的中心可能不全相等,而不能指出哪些总体有着相同的中心,哪些总体存在着位置方面的差异,于是我们必须进行多重比较在两两比较时,首先计算各组平均数之间的差值 d =|R -R |然后根据 d 计算统计量 ij i j ijtijR - Rt = - jij : 2 n (A - B)(n - 1)( k - 1)t的自由度df=(b —l)(k— 1),根据t值,可计算得其显著水平p值例如 美国通用、福特与克莱斯勒汽车公司 5 种不同车型的某年产品油耗情况如表所列:3 个汽车公司 5 种不同车型某年产品油耗情况公司超小型小型中型大型运动型通用20.321.218.218.618.5福特25.624.719.319.320.7克莱斯勒24.023.120.619.821.4数据分析关心的问题之一是三个公司汽车耗油有无差异,如果这些数据满足方差分析中 所需要的条件,我们可以直接进行方差分析进行统计检验若在这些条件根本无法验证 与确保的情况下,则应使用非参数的 Friedman 检验方法§5.3 Cochran 检验社会经济中的有些数据经常以序数面目出现,尤其是政治方面的民意调查或者市场 调查中顾客的信息反馈,需要被调查者在某个问题中圈定等级,回答“是”或“否”, 不管怎样,只要使获得的数据(即使是属性的)能以两种方式归类就可以。
本节所介绍的 非参数方法对研究人员或管理人员都有参考意义本小段只考虑完全区组设计的一个极 重要的特殊情况——观察值仅取两个值之一例如,“是”与“否”,“+”与“- ”,“成 功”与“失败”等等通常以 1 表示成功, 0 表示失败,于是每一个区组由 k 个 0 或 1 构成我们以L表示第j个区组内成功的次数(1的个数)而以B表示第I种处理中成功 jI的次数(1的个数),若想检验各种处理的反应是否有差异,用类似于Friedman检验这样 的方法将这些 0、1 数据转换为秩统计量的话,相当于几乎每个区组内排秩时都存在着 “结”, Cochran 为此引进如下统计量:( 1右 )B - L Bi k i k4-4~Lk (k - 1 )-LCochran检验。





