好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

非参数统计wilcoxon秩和检验.docx

7页
  • 卖家[上传人]:hs****ma
  • 文档编号:481856393
  • 上传时间:2022-08-28
  • 文档格式:DOCX
  • 文档大小:30.24KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • Wilcoxon秩和检验Wilcoxon符号秩检验是由威尔科克森^•Wilcoxon)于1945年提出的该方法是在 成对观测数据的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效1947 年,Mann和Whitney对Wilcoxon秩和检验进行补充,得到Wilcoxon-Mann-Whitney检验, 由后续的Mann-Whitney检验又继而得到Mann-Whitney-U检验一、 两样本的Wilcoxon秩和检验由Mann,Whitney和Wilcoxon三人共同设计的一种检验,有时也称为Wilcoxon秩和检 验,用来决定两个独立样本是否来自相同的或相等的总体如果这两个独立样本来自正态分 布和具有相同方差时,我们可以采用t检验比较均值但当这两个条件都不能确定时,我们 常替换t检验法为Wilcoxon秩和检验Wilcoxon秩和检验是基于样本数据秩和先将两样本看成是单一样本(混合样本)然 后由小到大排列观察值统一编秩如果原假设两个独立样本来自相同的总体为真,那么秩将 大约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约均匀被分在两个样本中 如果备选假设两个独立样本来自不相同的总体为真,那么其中一个样本将会有更多的小秩 值,这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,因此就会得到一个较 大的秩和。

      设两个独立样本为:第一个x的样本容量为勺,第二个y样本容量为〃之,在容量为n = 〃1 + n2的混合样本(第一个和第二个)中,x样本的秩和为七y样本的秩和为W且有W + W = 1 + 2 + + n = n(n; D我们定义n (n +1) TT7 以x样本为例,若它们在混合样本中享有最小的n1个秩,于是-x = 1* § ,也是-x可能取的最小值;同样-可能取的最小值为"2(上+ °那么,-的最大取值等于混合样本 y 2 x- n(n +1) n (n +1) _的总秩和减去Wy的最小值,即一1^--A^ ;同样,^^的最大取值等于n(n + 1) n (n + 1)一-一--^^ 所以,(2)和⑶式中的叫和W2均为取值在0与n(n: D - n(n* + D - n(n + D = n n的变量当原假设为真时,所有的尤和y相当于从2 2 2 12 i i同一总体中抽得的独立随机样本,\和yi构成可分辨的排列情况,可看成一排n个球随机地 指定n个为]球另n2个为y球,共有C:1种可能,而且它们是等可能的基于这样分析,在 原假设为真的条件下不难求出叫和W2的概率分布,显然它们的分布还是相同的,这个分布 称为样本大小为n1和n2的Mann-Whitney-Wilcoxon分布。

      一个具有实际价值的方法是,对于每个样本中的观察数大于等于8的大样本来说,我们可以采用标准正态分布乙来近似检验由于W的中心点为哗,根据(28.2)式,W中心点 1 2 *H为n n n (n +1) n (n + n +1) 口 = 1 2 + _1 = —1 2 2 2 2W*的方差c 2从数学上可推导出n n (n + n +1)°2 = 12 12 2如果样本中存在结,将影响到公式(28.5 )中的方差,按结值调整方差的公式为(6)n n (n + n +1) n n £ (t 3 -T ) b 2 = 12 1 2——-一 L2 j j 12 12(n + n )(n + n — 1)其中、.第j个结值的个数结值的存在将使原方差变小,这是一个显然正确的事实标准化W 一 n1(n1+ n疽D ±0.5〜N (0,1)尤 2:n n (n + n +1) n n £ (T 3 —T),1 2 1 2 — 1_2 . ’ 12 12(n + n )(n + n — 1)其中分子加0.5或减0.5是为了对离散变量进行连续性修正,对于W「u大于0减0.5修正, 对于W -R小于0加0.5修正。

      尤<例>某航空公司的CEO注意到飞离亚特兰大的飞机放弃预定座位的旅客人数在增加, 他特别有兴趣想知道,是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预定 座位的旅客获得一个从亚特兰大起飞的9次航班和从芝加哥起飞的8次航班上放弃预定座 位的旅客人数样本,见表1中的第2列和第4列所示表1放弃预定座位的旅客人数及统一秩值航班次数亚特兰大(x组)芝加哥(y组)放弃人数统一编秩放弃人数统一编秩1115.513721591483103.5103.541812815115.51610620139272416171182215211492517秩和Wx96.5W y56.5如果假定放弃预定座位旅客人数的总体是正态分布且有相等的方差,我们可以采用两样 本比较的t检验但航空公司的CEO认为这两个假设条件不能满足,因此采用非参数的 Wilcoxon秩和检验将x组与y组看成是单一样本进行编秩,见表1中的第3列和第5列所 示最小值是8秩值为1,最大值是25秩值为17,有两个结值10和11,两个10平均分享 秩值3和4为3.5,两个11平均分享秩值5和6为5.5如果两组放弃预定座位的旅客人数是 相同的,那么我们期望的两组秩和七和Wy大约是相同的;如果两组放弃预定座位的旅客人 数是不相同的,那么我们期望的两组秩和七和.也是非常不相同的。

      注意到七=9,n2 = 8, W^ =96.5, Wy =56.5,H0 :两组放弃预定座位旅客人数的分布是 相同的标准正态分布Z值的计算结果为°亦 9(9 + 8 + D96.5 0.5z = , 2 = 1.44515■ 9(8)(9 + 8 +1) 9(8)(8 - 2 + 8 - 2) I — 12 12(9 + 8)(9 + 8 -1)如果设定显著水平a = 0.05,我们知道标准正态分布在0.05显著水平时,上临界值为 1.645,下临界值为一1.645,由于1.445<1.645,所以不能拒绝原假设在使用Wilcoxon秩和检验时,也可以采用第二个样本的秩和W来计算标准正态分布Z y值,但要注意公式中n1和n2的对换Z值的计算结果为8(9 + 8 +1),56.5 — + 0.5z = , 2 = —1.44515■ 9(8)(9 + 8 +1) 9(8)(8 — 2 + 8 — 2)I — 12 12(9 + 8)(9 + 8 — 1)由于一1.445> —1.645,所以得到是相同的结果,不能拒绝原假设另外,要特别注意的是由于在连续型分布中随机地抽出n个样本,几乎极少可能存在有 些值相等的情况,但在社会经济中有很多离散变量,很可能存在数值相同的情况,即样本中 存在着“结”。

      我们处理“结”的方法采用分享平均秩,但当大量“结”存在时,将可能直接 影响七 的方差,因此需要把(5)式中的方差修正为(6)但在手工计算和结值不多的情况下, 常使用未修正方差来简化计算,因为与修正方差的计算结果比较只存在一些小差异,大多数 情况下不影响最终的推断结果二、单因子非参数方差分析的nparlway过程单因子非参数方差分析的npar1way过程是分析变量的秩,并计算几个基于经验分布的函 数(EDF)和通过一个单因子分类变量的响应变量确定的秩得分的统计量秩的得分计算分成 四种:Wilcoxon得分、中位数得分、Savage得分和Van der Waerden得分然后再由秩得分 计算简单的线性秩统计量,由这个秩统计量可以检验一个变量的分布在不同组中是否具有相 同的位置参数,或者在EDF检验下,检验这个变量分布在不同组中是否分布相同秩得分的 统计量也可以先用proc rank过程计算秩得分,然后用proc anova过程分析这些秩得分而得到1. 四种不同的秩得分计算用以下公式定义的统计量S =乎 Ca(R ) (8)i=1称为线性秩统计量其中R.是第i个观察的秩,a(R )是秩得分,C,是一个指示向量(由0 和1组成),它表示了第i个观察所属的类,n是观察的总数。

      npar1way过程的四种不同的 a (R,)秩得分计算为:1) Wilcoxon 得分在Wilcoxon得分中a( R,) = R, (28.9)它对Logistic分布的位置移动是局部最优的在计算两样本情况下的Wilcoxon秩和统计量时, 过程对零假设下的渐进标准正态分布的z统计量进行一个连续的+0.5和一0.5校正2) Median 得分Median得分又称为中位数得分当观察的秩大于中位点时,中位数得分为1,否则为0, 即a(R ) = 1 当Ri > (n +1)/2 (28.10)a(R ) = 0 当R < (n +1)/2对于双指数分布,中位数得分是局部最优3) Van der Waerden 得分Van der Waerden得分简称为VW的得分它是对正态分布的次序统计量的期望值的近 似,即a(Rj) = F-i(R /(n +1)) (28.11)其中F-i3)函数是标准正态的累积分布函数的反函数,这个得分对正态分布是最优的4) Savage 得分Savage得分是指数分布的次序统计量的期望值减去1使得得分以0为中心,既a(R )=勇'1/(n — i +1) — 1 (28.12)i=iSavage得分在指数分布中比较尺度的不同性或在极值分布中的位置移动上是最优的。

      2. 叩arlway过程说明proc npar1way过程一般由下列语句控制:proc npar1way data=数据集〈选项>;class 分类变量;var 变量列表;by 变量列表; run ; 为了使用proc npar1way,必须要proc和class语句其余语句是供选择的1) proc叩arlway语句的选项• anov 对原始数据执行标准方差分析• edf— 计算基于经验分布函数(EDF)的统计量,如Kolmogorov-Smirnov、Cramer-Von Meses、Kuiper 统计量• missing 把class变量的缺失值看作一个有效的分类水平• median 行一个中位数得分分析对于两样本产生一个中位数检验,对于更多样本产生一个Brown-Mood检验• savage—— 行一个Savage得分分析该检验适用于数据服从指数分布的组间比 较• vw 行一个Van der Waerden得分分析这是一个通过应用反正态分布累积函数得到近似的正态得分对于两个水平情况,这是一个标准Van der Waerden检验• wilcoxon 对数据或 Wilcoxon得分进行秩分布。

      对于两个水平,它与Wilcoxon秩和检验一样;对于任何数量的水平,这是一个Kruskal-Wallis检验对于两样本情况, 该过程使用一个连续的校正2) class 语句class语句是必需的,它指定一个且只能一个分类变量该变量用来标识数据中的各个类 Class语句变量可以是字符型或数值型3) var语句var语句命名要分析的响应变量或自变量如果省略var语句,过程分析数据集中除class语句指定的数据变量外的所有数值型变量4) by语句一个by语句能够用来得到由by变量定义的几个观察。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.