
显著性检验的原理(共27页).ppt
26页本资料来源,第三章 显著性检验,第一节 显著性测验的原理第二节 测验两样本均数差异 (含两样本观察值配对和非配对的数据)第三节 测验二项资料的百分数 (针对单个样本百分数和两样本百分数)第四节 测验次数资料的卡方值 (包括适合性测验和独立性测验两类),第三章要点提示,显著性检验反映了调查或试验研究与上一章抽样分析的不同点,又是学习统计分析方法的基础,学习时应充分理解检验的原理和特点,熟悉两尾检验与一尾检验的异同;重点掌握检验和12时依据的抽样分布类型及标准误、S和差数标准误1- 2、S1- 2的计算公式,并与检验时依据的差数的抽样分布和计算差数平均数的标准误 、S的公式相区别;对于百分数的检验,要注意应用u-test的条件和不符合这些条件时进行连续性矫正的必要性;掌握依据2变量SS/2 服从的理论分布进行适合性检验和独立性检验时计算2值的方法 涉及教材内容:第五章前三节,第七章前四节 作业布置:教材第五章第四节内容自习; 教材P97T2、 T3、 T4、 T7、 T11; P144T4、 T6、 T7、 T8第一节 显著性检验的原理,一、什么是显著性检验? 在由样本研究总体时,先提出关于总体的统计假设 ( Ho ) ,然后利用样本提供的信息去反证它是否成立。
这种证明 Ho 是否成立的过程就叫统计假设测验,简称假设测(检)验 如果假设测验只针对一个 Ho , 并不同时研究其它假设, 则称为显著性检验 还有一些假设测验问题,需要研究两个或更多的统计假设, 必须采取包括多重比较在内的方差分析法才能解决,因而不再一般化地称之为假设测验, 所以假设测验大多局限于显著性测验例3.1 某地小麦亩产一般o= 300kg,并从多年种植的经验知= 75kg,今引进一新品种得 n = 25个亩产量观察值,算得=327kg ,如何评价其表面效应?解 本例表面效应 “27kg产量差异”,要区分它是本质差别还是抽样误差1. 先假定表面效应是抽样误差; Ho: = o或 = 300kg2.按误差理论计算获此抽样误差的概率; P( | | 27 ) = P( | o| 27 ) = P( |u|2775/25 ) = 2 P(u -9/5) = 2 (- 1.8)= 2 0.036 = 0.0723.根据小概率原理推断Ho是否成立; 按惯例= 0.05,故Ho成立第一节 显著性检验的原理,= 0.05也叫显著水平,是一个概率临界值,它是根据“小概率事件在当前这次试验(观察) 中实际不可能发生”这种“道德确定性”、基于农业和生物学领域的行业要求而规定的小概率标准。
= 0.05只能理解为否定 Ho时容许犯错误的概率, 本例获得27kg抽样误差的概率虽然很小, 但尚未小到否定Ho时规定的显著水平, 反过来讲就是没有95%以上的把握来认定其表面效应是“本质差别”而不是抽样误差; 或者说表面效应虽然较大, 但还没有大到有95%以上的把握来排除它是抽样误差的可能性上述通过计算两尾概率评价其表面效应的做法通常针对的提问方式是:“新品种的单产与当地品种有无显著差异?” 实际上评价表面效应还有一种问法:“新品种的单产是否高于当地品种?”解 这样提问往往是根据专业方面的信息已明知新品种的单产不可能低于当地品种,于是检验方法由两尾测验变成一尾测验1. 仍假定表面效应是抽样误差; Ho: o或 300kg2.计算获此抽样误差的一尾概率; P( 27 ) = P( o 27 ) = P( u9/5) = (- 1.8) = 0.036 3.根据小概率原理推断:Ho不成立第一节 显著性检验的原理,二、显著性检验的特点1. 是一种概率反证法; 先假定 (单向) 成立,再计算标准误,然后将表面效应转换成标准化变量后查算其属于抽样误差的概率是否为小概率,是则接受Ho; 否则拒绝Ho。
2. 用了小概率原理; 否定Ho有95%以上的把握,但不可能为100%,即表面效应只要大到视其为抽样误差时的两尾或一尾概率小到显著水平就能否定Ho,不然就暂且接受Ho ,决不意味着接受Ho时有95%以上的把握3. 不同的场合依据不同的抽样分布三、关于 t 分布 定义:t = ( ) S 其中S = S /n 叫样本标准误参数: t = 0, t = / (-2 )曲线特性: 以t = 0 处的纵轴对称,并以之为曲线最高点位置, 而后往两侧递降;不同的决定一条特异的 t 分布曲线; 曲线形状随着的增加, 峰顶由下往上朝标准 曲线的峰顶逼近, 两尾由上往下朝标准 曲线的两尾收拢; 而当 (120)时, t 分布曲线与标准曲线N(0, 1)重合4. 附表 4 与 t 分布的关系第一节 显著性检验的原理,附表4所列为9种两尾概率对应的| t | , 如右图所示, 当 n 1= 7时, 0.05和0.10栏目下的2.365和1.895就表明所得标准化变量 t 在 n = 8时绝对值超过2.365的概率(两尾面积)为0.05, 超过1.895的概率(两尾面积)为0.10 按照显著性检验原理,计算获得某抽样误差的概率只是为了确认它是否为小概率,那反过来也就可以根据0.05的显著水平确定标准化变量 u 或 t 的“临界值”,再和抽样误差标准化的结果相比较就是了,由此而来的显著性检验步骤见下例。
0.90,0.05,0.025,0.025,1.895,2.365,t,f ( t ),= 7,第一节 显著性检验的原理,f ( t ),t,=,= 2,= 7,= 4,N(0, 1),第一节 显著性检验的原理,四、显著性检验的步骤 例3.2 某地春小麦良种的千粒重0 = 34克,现自外地引进一高产品种,8个小区种植得平均千粒重为 = 35.2克,S = 1.64克,则测验该品种的千粒重是否显著高于当地良种的步骤为: H0: o或 34g ; S = S/n = 1.648 = 0.58 t = ( )S =1.20.58 = 2.07按自由度 = 7 查得: 一尾 t0.05 = 两尾 t0.10 = 1.895(4) 推断:t t0.05 H0 不成立 本次测验的显著水平: = 0.05,本例是按照题目要求进行一尾测验,实际应用中这种提问方式必须有所谓的“附加知识”为依据,即有来自专业方面的信息表明外地品种的千粒重不可能低于当地良种,否则就只能用两尾测验 H0: = o或 = 34g ; S = S/n = 1.648 = 0.58 t = ( )S =1.20.58 = 2.07(3) 按自由度 = 7 查得两尾 t0.05 = 2.365(4) 推断:tt0.05 H0 成立。
意即外地品种的千粒重与当地良种无显著差异 本例两尾测验对 H0 的态度与一尾测验截然不同,但实际研究中有相同的第二节 两个样本平均数,一、测验1- 2 例3.3 根据以往资料,某小麦品种每m2产量的2= 0.4(kg2 )今在该地的一块地上以A、B两法取样,A法取12个样点,得每m2产量1=1.2kg;B法取8个样点, 得2 = 1.4kg试问两法差异是否显著?解 题意指两种取方法得到的单产有无本质差别,即表面效应能否视为抽样误差1)H0: 1 =2 或 1-2 = 0(2)12 =22 = 2 = 0.4(kg2 )1-2=(0.4/12+0.4/8)=0.2887kg u=(1.21.4)0.2887= -0.69(3)查得两尾u0.05 = 1.96(4)推断: |u| u0.05 , H0成立 表明两种取样方法无本质差别 关于原始数据用不同的单位对显著性检验过程的影响问题, 要具体步骤具体分析,本例若以“斤”或500g为单位,则2 = 40.4(斤2 ), 1-2 = 20.2887(斤),而u= -0.69不变.,第二节 两个样本平均数,例3.4 调查某地每亩30万苗和35万苗的稻田各5块, 得到1= 428 kg, SS1=1930kg2;2 = 440kg,SS2 = 550kg2。
测验两种密度单产差异显著性的步骤为:(1) H0:1=2或 1-2 = 0(2) F= S大2 / S小2 =1930/4550/4= 3.57ns 查得右尾F0.05,4,4 = 6.39,于是有: Se2 = (SS1 + SS2) / (1+2) =2480 8 = (1S12 +2S22)/(1+2) = 310 S 1-2 = Se2 (1/n1 + 1/n2) = 11.14 t =( 1- 2 ) 1- 2 S1- 2 =( 1- 2 ) (1-2) S1- 2 = (428 440)/ 11.14 = -1.08(3)按 = 4+4 = 8查得两尾t0.05 = 2.306(4)推断: | t | t0.05 H0成立,本例属于实际应用中普遍遇到的参数12 及22 未知的情形,不可能用 u-test而只能用 t-test,由于S1- 通过合并均方 Se2 计算时必须以两样本均方经F-test证实无显著差异(齐性检验)为先决条件, 故要在用加权法合并两个样本方差前插入一个 F-test 过程 倘若经 F-test 证实有显著差异, 表明12 22 , 那就不能计算Se2而只能仿照中心极限定理有关结论计算: S 1-2 = (S12 /n1 + S22 /n2), 只是以它为标准误转换出来的标准化变量已不再是严格意义上的 “t” 变量 还是先了解一下F分布。
第二节 两个样本平均数,关于F的定义及其分布 从一个母总体 N (, 2) 中随机抽取两个独立样本, 算得两个样本均方依次为S12、S22,则定义:F= S12 / S22 抽样研究的结果证明, F是一个连续性随机变量, 理论上存在着抽样分布,这就是F分布它具有平均数为:F = 2 / (2 -2) F分布是由自由度1、2 决定的曲线系统, 因为受F 0的限制, 任一条限于纵坐标右侧; F分布曲线不对称往左倾斜,左倾程度随着1、2的一齐增加而减小, 2 时, F的取值从大于 1 的那边由右往左1,曲线峰顶 向上、向右往 F 1 的垂线逼近; 附表5 (右尾F临界值表)与F分布的关系第二节 两个样本平均数,F,f (F),1= 1,2 = 7,1= 1,2= 4,1= 1,2= 2,5.59 ,7.71 ,18.51 ,这里只显示1 = 1的反 J 型曲线, 1 = 2 时也是如此; 当13 时,F分布曲线就转为偏态,呈现反 S 型第二节 两个样本平均数,例3.5 在抽穗期间测定喷矮壮素玉米8株, 得到株高1= 176.3cm, SS1=3787.5cm2,对照区玉米9株,得株高2=233.3 cm,SS2 = 18400cm2,试测验矮化效果。
1) H0:12 或1-2 0 F = S大2 / S小2 = 2300541.1= 4.25* 查得F0.05,8,7 = 3.73(2)S 1-2 = (S12/n1 + S22 /n2) = (67.64 +255.56 ) = 18 “ t ” ( 1- 2 ) S1- 2 = (176.3 233.3)18 = -3.17(3)k = S2 1/(S2 1 + S2 2) 1- k = 0.79 = 67.64 323.2 = 0.21,故= 1 k2/1+(1-k)2/212 = 1 (0.212/ 7+ 0.79 2/ 8) = 11.85按查得一尾t0.05 = 两尾t0.10 = 1.782(4)推断: | t | t0.05 H0不成立 本例经F-test知两个样本所属的总体方差12 22 , 因此不能计算合并Se2而只能模仿中心极限定理计算S 1-2,由于以它为标准误转换出来的标准化变量已不再是严格意义上的“ t ” , 所以查表时不能简单地根据合并自由度15即1+2,而必须予以修正, 这就是:Aspin-Welch检验第二节 两个样本平均数,例3.6 一个容量为6的样本来自一个正态总体,得平均数为1 = 30,均方S12 = 4。












