好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第二章非参数统计分析0303课件.ppt

88页
  • 卖家[上传人]:m****
  • 文档编号:569460338
  • 上传时间:2024-07-29
  • 文档格式:PPT
  • 文档大小:926KB
  • / 88 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第二章单样本非参数检验2024/7/291 思考的要点        各种检验方法的思路        各种检验方法统计量的构造        各种检验方法的应用场合         在SAS与R中如何完成         2024/7/292 第一节第一节 符号检验符号检验第二节第二节 Cox-StuartCox-Stuart趋势检验趋势检验 第三节第三节 游程检验游程检验第四节第四节 WilcoxonWilcoxon符号秩检验符号秩检验第五节第五节 正态记分检验正态记分检验第六节第六节 与参数检验相对效率比较与参数检验相对效率比较2024/7/293 符号检验的统计量为B=得正号的个数  符号检验符号检验设随机变量X1,…,Xn是从某个总体X中抽出的简单随机样本且分布函数F(X)在X=0是连续的假设检验问题检验的统计量可以取B 第一节第一节 符号检验符号检验        在原假设为真的条件下,B服从参数为n和0.5的二项分布b(n,0.5)由于原假设为真时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设2024/7/294 精确的符号检验是指检验的p值是由精确的概率给出的。

      我我们们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法   【例4】联合国人员在世界上71个大城市的生活花费指数(上海是44位,数据为63.5)按自小至大的次序排列如下一、精确中位数的符号检验一、精确中位数的符号检验2024/7/295          有人说64应该是这种大城市花费指数的中位数,有人说64顶多是低位数(下四分位数),进行检验数据如下: 122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,   89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,  77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,  67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,  62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8, 49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,   36.4,32.7,32.7,32.2,29.1,27.8,27.82024/7/296 2024/7/297        通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。

      然而,在本例中,总体分布是未知的为此,首先看该数据的直方图从图中很难说这是什么分布假定用总体中位数来表示中间位置,这意味着样本点,取大于me的概率应该与取小于me的概率相等所研究的问题,可以看作是只有两种可能“成功”或“失败”    2024/7/298 符号检验的思路,记成功:X-0大于零,即大于中位数M,记为“+”;失败:X-0小于零,即小于中位数M,记为“-”令 S+=得正符号的数目        S-=得负符号得数目可以知道S+或S— 均服从二项分布B(65,0.5)则可以用来作检验的统计量其假设为:2024/7/299 关于非参数检验统计量需要说明的问题关于非参数检验统计量需要说明的问题          在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S++S-=N那么我们在检验时应该用那个呢?约定选择统计量2024/7/2910 假设检验统计量S-=28是得负号的个数得正号的个数43P-值检验的结果拒绝零假设结论中位数大于642024/7/2911 该检验R的代码           x<-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,   89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,  77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,  67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,  62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8, 49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,   36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sign(x-64)==1)pbinom(71-y,71,0.50)2024/7/2912 二、大样本的情形 当样本容量足够大,我们可以利用二项分布的正态近似来对该问题进行检验。

      因为计数统计量在原假设为真时,服从b(n,0.5)且其均值为0.5n,方差为0.25n则检验的统计量为 2024/7/2913 第二节第二节 Cox-StuartCox-Stuart趋势检验趋势检验 人们经常要看某项发展的趋势.但是从图表上很难看出是递增,递减,还是大致持平. 【 例 5】 我 国 自 1985年 到 1996年 出 口 和 进 口 的 差 额(balance)为(以亿美元为单位) —149.0 119.7 37.7 77.5 —66.0 87.4 80.5 43.5 122.2 54.0 167.0 122.2          从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的点图.从图可以看出,总趋势似乎是增长,但1993年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验.2024/7/2914 2024/7/2915 三种假设:  怎么进行这些检验呢?可以把每一个观察值和相隔大约n/2的另一个观察值配对比较;因此大约有n/2个对子.然后看增长的对子和减少的对子各有多少来判断总的趋势.具体做法为取 和 。

      这里2024/7/2916 在这个例子中n=12,因而c=6这6个对子为(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)2024/7/2917           用每一对的两元素差Di=xi-xi+c的符号来衡量增减令S+为正Di=xi-xi+c的数目,而令S-为负的Di=xi-xi+c的数显然当正号太多时,即S+很大时(或S-很小时),有下降趋势,反之,则有增长趋势.在没有趋势的零假设下它们应服从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)该检验在某种意义上是符号检验的一个特例2024/7/2918 类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量K=S+,K=S-和K=min(S+,S-)在本例中,这6个数据对的符号为 5负1正, 所以我们不能拒绝原假设 假设统计量 P值K=min(S+,S-)P(K

       2024/7/2920 2024/7/2921 SPSS无此检验,我们用R完成该检验,代码如下x<-c(54379,45461,55408,59712,60776,57635,63335,71296,70250,76866,75561,66427,61330,58186,67799,76360,86207,75509,83020,89614,75791,80835,72179,61520,66726,60629,68549,73310,80719,67759,70352,82825,70541,74631,68938,53318,62653,58578,63292,69535,73379,62859,72873,87260,67559,76647,70590,58935,58161,64057,63051,58807,63663,57367,70854,79949,66992,80140,62260,55942,58367,56673,61039,74958,85859,67263,87183,97575,79988,88501,68600,58442,68955,56835,67021,81547,85118,70145,95080,106186,86103,88548,70090,65550,69223,85138,89799,99513,98114,68172,97366,116820,95665,109881,87068,75362,88268,85183,87909,79976,27687,50178,100878,131788,116293,120770,104958,109603)    d=x[1:54]-x[55:108]    y=sum(sign(d)==1)    pbinom(y,54,0.5)                直接得到p值=0.001919<0.05,拒绝无趋势的原假设原假设。

      2024/7/2922 补充:检验的p值           在假设检验中,常常通过检验的p值来决策 p值为拒绝原假设的最小概率对于t检验,如果计算出的统计量的值为t0,则左尾检验的p值为概率p(t t0)右尾检验的p值为概率p(t t0)双尾检验的p值为概率p(|t|| t0|)        但是对于非参数检验来说由于有两个等价的统计量,如得正号的个数与得负号的个数之和等于样本容量n;两个总体的秩和等于N(N+1)/22024/7/2923         比如是左侧检验,如果总体真实的中位数比假设的小,则检验的统计量w+表现出过小, w-表现出大,检验的p值为p( w+w小),此时用的最小的统计量对于右侧检验,如果总体真实的中位数比假设的大,则检验的统计量w+表现出过大, w-表现出小检验的p值为p( w+w大)实际上                   p( w+w大)                 = p( -w+-w大)                 = p[N(N+1)/2-w+ N(N+1)/2 -w大]               = p[w-w小]         可见检验的统计量用k=min(w+,w-)是合理的。

      另外双侧检验的p值是单侧的两倍2024/7/2924 游程检验是样本的随机性检验,其用途很广例如当我们要考察生产中次品出现是随机的,还是成群的,一个时间序列是平稳的还是非平稳的第三节 游程检验2024/7/2925 从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵检验费用与受检产品数量有关一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本现随机抽了28件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?有瑕疵的产品是随机出现    有瑕疵的产品是成群出现2024/7/2926 随机抽取的一个样本,其观察值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择.假设组为 H0 H0:: 序列是随机的序列是随机的 H1H1:: 序列不是随机的(双侧检验)序列不是随机的(双侧检验)如果关心的是序列是否具有某种倾向,则应建立单侧备择,假设组为 H0 H0:: 序列是随机的序列是随机的 H1: H1: 序列具有混合的倾向(右侧检验,游程过多)序列具有混合的倾向(右侧检验,游程过多) H0H0:: 序列是随机的序列是随机的 H1: H1: 序列具有成群的倾向(左侧检验,游程过小)序列具有成群的倾向(左侧检验,游程过小)游程:连续出现的具有相同特征的样本点为一个游程。

      游程:连续出现的具有相同特征的样本点为一个游程2024/7/2927      检验统计量在H0为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的相对于一定的m和n,序列游程的总数应在一个范围内     若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;     若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向选择的检验统计量为R=游程的总数目      2024/7/2928 可以证明则2024/7/2929 游程R的分布为,奇数时关于此可以做如下的考虑游程R的分布为,偶数时2024/7/2930       先在m+n个抽屉里随机选择m个,抽出的抽屉里放入“1”,没有的放入“0”,所有可能基本的基本事件数为:有种      或先在m+n个抽屉里随机选择n个,抽出的抽屉里放入“0”,没有的放入“1”,所有可能基本的基本事件数为:有种2024/7/2931        1、必定有k+1个由“1”构成的游程和k个由 “0”构成的游程;        2、或必定有k+1个由“0”构成的游程和k个由 “1”构成的游程。

      如果游程数为奇数R=2K+1,这意味着:2024/7/2932          这就必须在m-1个位置中插入K个“隔离元”,使有 “1”有k+1个游程,可以有         种,同样可以在n-1个“0”的n-1个空位上插入K-1个“隔离元”,有       种共有有利基本事件数              2024/7/2933 在第二种情形下,有                  故:得同理2024/7/2934 备择假设P值序列具有混合的倾向右尾概率序列具有聚类的倾向左尾概率序列是非随机的较小的左尾概率的两倍2024/7/2935                【例7】,在我国的工业和商业企业随机抽出22家进行资产负债率行业间的差异比较有如下资料:这两个行业的负债水平是否相等      首先,设 “1”为工业,“2”为商业,将两个行业的数据排序,得行业编号得游程:          1 1 1 1 1 2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 2 2工业64 76 55 82 59 82 70 75 61 64 73 83商业77 80 80 65 93 91 84 91 84 86 862024/7/2936 游程检验的菜单选择。

      2024/7/2937 2024/7/2938       游程检验的结果:共有21个个案,12个小于1.4286,9个大于等于1.4286游程6个检验的统计量的值为-2.19,相应的渐近p值=0.029,则拒绝原假设2024/7/2939            【例8】公司委托市场调查公司进行随机抽样调查为了对调查表的真伪进行判断,市场调查公司按顺序抽取了20份问卷其中消费者每年消费该公司的产品的花费数据如下表,分析问卷数据是否真实用游程检验样本编号12345678910消费额405205245465257234445375291291样本编号11121314151617181920消费额2612103052951252572601971601502024/7/2940          检验结果说明p值=0.808,不能拒绝随机数据的原假设2024/7/2941 第四节第四节 单样本的单样本的Wilcoxon符号秩检验符号秩检验         一、 Wilcoxon符号秩检验         前面几种推断的方法都只依赖于数据的符号,即方向没有考虑数据的大小,Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验的假设: 2024/7/2942 检验的步骤检验的步骤: 1. 计算 ,它们代表这些样本点到 的距离; 2. 把上面的n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4),然后分别将得正号的秩和得负号的秩相加。

      另指满足括号里的条件等于1,不满足等于零2024/7/2943 3. 双双       在零假设下,  和     应差不多.因而,当其中之一非常小时,应怀疑零假设;取检验统计量T=min(     ,    );       2024/7/2944 统计量的均值和方差如下:2024/7/2945 5. 根据得到的T值,查Wilcoxon符号秩检验的分布表以得到在零假设下p值.如果n很大要用正态近似:得到一个与T有关的正态随机变量Z的值,再查表得P值或直接用计算机得到P值2024/7/2946 Wilcoxon符号秩检验表符号秩检验表假设检验的统计量P值 2024/7/2947     【例9】 欧洲10个城镇每人每年平均消费酒类相当于纯酒精数(单位:升)   4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45人们普遍认为其中位数为8检验该假设    x<-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45)     wilcox.test(x-8)2024/7/2948  Wilcoxon signed rank testdata:  x - 8 V = 46, p-value = 0.06445alternative hypothesis: true location is not equal to 0 2024/7/2949        【例10】为了了解垃圾邮件对大型公司决策层工作的影响程度,某个网站收集了19家大型公司的CEO每天收到的垃圾邮件件数,得到如下数据:   310,350,370,375,385,400,415,425,440,195, 325,295,250,340,295,365,375,360,385         检验收到的垃圾邮件的数量的中间位置是否超过了320封。

      2024/7/2950 x<-c(310,350,370,375,385,400,415,425,440,195, 325,295,250,340,295,365,375,360,385)     wilcox.test(x-320)data:  x - 320 V = 146, p-value = 0.04207alternative hypothesis: true location is not equal to 0 2024/7/2951 注   Holdges-Lemmann 估计量           定义2.1     假设X1, X2,…, Xn为简单随机样本,计算任意两个样本点的平均数,从而得到一个样本长度为n(n+1)/2的新的数据,这组数据称为Walsh平均值,即2024/7/2952        定理   由定义2.1,Wilcoxon符号秩统计量W+可以表示为            即W+是Walsh平均值中符号为正的个数如果中心是,则定义       即W+()是检验的统计量2024/7/2953       定义2.2    假定假设X1, X2,…, Xn为F(X-)的简单随机样本,如果F(X)为对称,则定义Walsh中位数如下:           作为的Holdges-Lemmann 估计量。

          2024/7/2954           从应用的角度看,这种中位数的计算对于样本容量非常小时,更为合理比如X11季节调整中,季节变动和不规则变动相对数的平均值,就是计算的Holdges-Lemmann 中位数估计量         补充: X11季节调整2024/7/2955           定理  假定假设X1, X2,…, Xn为F(X-)的简单随机样本,如果F(X)为对称,则定义Walsh平均,记为    {WA(1),WA(2),...WA(N)},则          其中2024/7/2956 x<-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45)walsh=NULLi<-c(1:10)for(i in 1:10)for(j in i:10)walsh=c(walsh,(x[i]+x[j])/2)walsh=sort(walsh)qsignrank(0.025,10)2024/7/2957            为了了解垃圾邮件对大型公司决策层工作的影响程度,某个网站收集了19家大型公司的CEO影响每天收到的垃圾邮件件数,得到如下数据:   310 350 370 375 385 400 415 425 440 195 325 295 250 340 295 365 375 360 385从平均的意义看,收到的垃圾邮件的数量的中间位置是否超过了320封。

      2024/7/2958 data a;input x1-x19;cards; 310 350 370 375 385 400 415 425 440 195 325 295 250 340 295 365 375 360 385 ;%macro PGI;data b;set a;%do i=1 %to 19;%do j=&i %to 19;walsh =(x&i+X&j)/2;if walsh then output;keep walsh;%end;%end;%mend;%PGI;2024/7/2959 proc print data=b;run;proc sort data=b out=b2;by walsh;proc print data=b2;run;data b3;set b2;n+1;l=int(19*20/4-1.96*(19*20*39/24)**0.5)+1;if n=95 then output;if n=96 then output;else delete;proc print data=b3;run;2024/7/2960  Obs    walsh     n     l  1     355.0    95    47  2     357.5    96    472024/7/2961 第五节  正态得分检验 (一)思想 在各种各样的秩检验中,检验的统计量为秩的函数,而秩本身在没有结时是有限个自然数的排列,它的分布是均匀分布。

      人们自然会用其他分布的样本自然我们会想到正态分布正态记分检验的基本思想就是把升幂排列的秩Ri用升幂排列的正态分位点来替代我们在Wilcoxon符号检验的基础上,建立线性符号秩统计量2024/7/2962 正态记分检验的基本思想就是:     把升幂排列的秩用升幂排列的正态分位点来替代首先将按升幂排列,记秩为2024/7/2963 例如Wilcoxon统计量为统计量为Wilcoxon记分函数记分函数1n-1n累积概率1/(n+1)(n-1)/(n+1)n/(n+1)正态记分记分函数函数例如正态记分检验统计量为正态记分检验统计量为2024/7/2964 正态积分检验的统计量为:2024/7/2965 (二) 检验 检验的假设为:2024/7/2966 则检验的统计量为 2024/7/2967        例、下面的数据是亚洲10个国家的新生儿死亡率(‰) 33  36  31  15  9  6  4  65  77  88 2024/7/2968        秩 符号秩 平方3311 0.090909-1.33518-1.335181.7827013622 0.181818-0.90846-0.908460.8252953133 0.272727-0.60459-0.604590.36552315194 0.363636-0.34876-0.348760.1216319255 0.454545-0.11419-0.114190.0130386286 0.5454550.1141850.1141850.0130384307 0.6363640.3487560.3487560.12163165318 0.7272730.6045850.6045850.36552377439 0.8181820.9084580.9084580.825295885410 0.9090911.3351781.3351781.782701合计6.2163762024/7/2969 2024/7/2970 接受原假设。

      接受原假设2024/7/2971        假定表示犯第一类错误的概率,而表示犯第二类错误的概率(检验的势为1- )对于任意的检验T,理论上总可以找到样本容量n,使该检验满足固定的和显然为了达到这个要求,需要样本容量大的检验就不如需要样本容量小的检验效率高为了达到同样的和,检验T1需要n1个样本点,检验T2需要n2个样本点.我们用n1/n2来定义T2相对于T1的效率当然这个比值越大,T2需要的样本容量越小, T2的效率越高定义渐近相对效率ARE为2024/7/2972 第六节 单个总体渐近相对效率的比较        假定假设X1, X2,…, Xn为F(X-)的简单随机样本,我们来讨论符号检验,Wilcoxon符号秩检验和t检验三者的渐近相对效率我们需要检验                 前面我们已经学习了关于线性符号秩统计量,在一些条件成立下,线性符号秩统计量有计算功效的公式2024/7/2973 类似还可以计算其他检验的效力因子2024/7/2981 2 各种统计量渐近相对效率的比较2024/7/2982 渐近相对效率的比较nt/nw(或B)分布U(-1.1)N(0,1)Logisti重指数密度函数ARE(W,T)1(一样)3/(T)3/2(W+)ARE(B,T)1/3(T)2/(T)2(B)2024/7/2983 。

      点击阅读更多内容
      相关文档
      安徽省安全员《A证(企业负责人)》冲刺试卷三.docx 2026年房地产经纪人《房地产经纪业务操作》预测试卷三.docx 安徽省安全员《A证(企业负责人)》模拟试卷一.docx 2026年房地产经纪人《房地产交易制度政策》模拟试卷四.docx 安徽省安全员《B证(项目负责人)》冲刺试卷二.docx 2026年房地产经纪人《房地产经纪专业基础》预测试卷四.docx 2026年房地产经纪人《房地产经纪业务操作》考前点题卷一.docx 2023年通信工程师《通信专业实务(传输与接入-无线)》试题真题及答案.docx 安徽省安全员《A证(企业负责人)》试题精选.docx 2026年房地产经纪人《房地产经纪专业基础》预测试卷二.docx 2026年房地产经纪人《房地产经纪业务操作》考前点题卷二.docx 2026年房地产经纪人《房地产经纪职业导论》冲刺试卷三.docx 2026年房地产经纪人《房地产交易制度政策》冲刺试卷三.docx 2026年房地产经纪人《房地产经纪专业基础》考前点题卷二.docx 2026年房地产经纪人《房地产经纪职业导论》冲刺试卷五.docx 2026年房地产经纪人《房地产经纪职业导论》冲刺试卷四.docx 2026年房地产经纪人《房地产交易制度政策》冲刺试卷一.docx 2026年房地产经纪人《房地产交易制度政策》冲刺试卷四.docx 安徽省安全员《B证(项目负责人)》冲刺试卷三.docx 2026年房地产经纪人《房地产经纪业务操作》模拟试卷二.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.