
第三章统计推断PPT.ppt
120页统统 计计 推推 断断1统计推断的过程统计推断的过程样本统计量例如:样本均值、方差总体均值、方差总体样本3统计推断的内容统计推断的内容4第一节第一节 统计假设测验的基本原理统计假设测验的基本原理第二节第二节 单个平均数的假设测验和单个平均数的假设测验和区间估计区间估计第四节第四节 百分数的假设测验和百分数的假设测验和区间估计区间估计第三节第三节 两个平均数的假设测验和两个平均数的假设测验和区间估计区间估计统计推断统计推断5学习目标学习目标n理解统计假设测验的基本原理n掌握假设测验步骤n能对实际问题进行假设测验n掌握参数的区间估计方法6第一节第一节 统计假设测验的基本原理统计假设测验的基本原理Ø 统计假设测验的实例统计假设测验的实例Ø 假设测验的基本步骤假设测验的基本步骤Ø 一尾测验和两尾测验一尾测验和两尾测验Ø 假设测验的两类错误假设测验的两类错误7• 统计假设测验的实例统计假设测验的实例有一个小麦品种亩产量总体是正态分布,总体平均亩产360kg,标准差40kg此品种经过多年种植后出现退化,必须对其进行改良,改良后的品种种植了16个小区,获得其平均亩产为380kg,试问改良后品种在产量性状上是否和原品种有显著差异?8 µ0 =360kg , ==40µ µ = µ0 ??在研究中,往往首先要提出一个有关某一总体参数的假设,在研究中,往往首先要提出一个有关某一总体参数的假设,这种假设称为这种假设称为统计假设统计假设。
原品种原品种x=380kg, n=16--改良后改良后9二、统计假设测验的基本步骤二、统计假设测验的基本步骤(一)提出假设(一)提出假设 v 无效假设无效假设(null hypothesis) (null hypothesis) H0v 备择假设备择假设(alternate hypothesis) (alternate hypothesis) HA无效假设和备择假设是两种彼此对立的假设,接无效假设和备择假设是两种彼此对立的假设,接受了其中的一种,那么就要否定另一种受了其中的一种,那么就要否定另一种10假设改良后产量的总体平均数假设改良后产量的总体平均数µ µ,与原品种总体平均数,与原品种总体平均数 µ µ0 0相相等,等, , , 即表面差异即表面差异( -( -µ µ0 0=20=20㎏㎏) )全为试验全为试验误差,改良后的产量与原产量没有差异这个假设就叫误差,改良后的产量与原产量没有差异这个假设就叫无效无效假设假设,记为,记为H H0 0:: µ µ= = µ µ0 0。
- μ0)=(μ- μ0 )+εi= εi 与无效假设对立的统计假设称与无效假设对立的统计假设称备择假设备择假设,, 记为记为H HA A:: µ µ≠ ≠ µ µ0 011无效假设的形式是多种多样的,随研究的内容不同而不同:无效假设的形式是多种多样的,随研究的内容不同而不同:A. A. 对单个平均数的假设对单个平均数的假设无效假设无效假设H H0 0:: µ µ= = µ µ0 0备择假设备择假设H HA A:: µ µ≠ ≠ µ µ0 0B. B. 两个平均数相比较的假设两个平均数相比较的假设无效假设无效假设H H0 0:: µ µ1 1 = = µ µ2 2备择假设备择假设H HA A:: µ µ1 1≠ ≠ µ µ2 212C. C. 对单个样本百分数的假设对单个样本百分数的假设无效假设无效假设H H0 0::p=p= p p0 0备择假设备择假设H HA A:: p≠ p p≠ p0 0D. D. 两个样本百分数相比较的假设两个样本百分数相比较的假设无效假设无效假设H H0 0:: p p1 1 = p= p2 2备择假设备择假设H HA A:: p p1 1≠ p≠ p2 213Ø无效假设是有意义的无效假设是有意义的Ø据之可计算出因抽样误差而获得样本结果的概率据之可计算出因抽样误差而获得样本结果的概率但必须遵循两个原则但必须遵循两个原则:: H0是直接测验的假设是直接测验的假设 HA不是直接测验的假设,是在无效假设被不是直接测验的假设,是在无效假设被否定的情况下而必须接受的假设。
否定的情况下而必须接受的假设14(二)计算概率(二)计算概率u=标准正态离差标准正态离差 µ0_x-σx-=380--36040/√16=2(σx-=√n σ) µ0 =360kg , ==40x=380kg, n=16--原品种原品种改良后改良后无效假设无效假设H H0 0:: µ µ= = µ µ0 0 , ,备择假设备择假设H HA A:: µ µ≠ ≠ µ µ0 0查附表查附表2,,P((|u|>2))=2×0.0227=0.0454,表明,表明20Kg差异属于试验误差的概率为差异属于试验误差的概率为0.045415(三)确定显著水平(三)确定显著水平否定否定H H0 0的概率标准叫的概率标准叫显著水平显著水平(significant level)(significant level),,一般以一般以αα表示农业试验研究中常取农业试验研究中常取α =0.05α =0.05和和α = 0.01α = 0.01显著水平的选择应根据试验要求和试验结论的重显著水平的选择应根据试验要求和试验结论的重要性而定要性而定16(四)推断(四)推断H0的正误的正误否定无效假设否定无效假设H0,接受备择假设,接受备择假设HA,,即表面差异不全为即表面差异不全为试验误差,改良后的品种与原品种之间存在真实差异。
试验误差,改良后的品种与原品种之间存在真实差异根据根据小概率原理小概率原理来作出接受或否定来作出接受或否定H H0 0的结论一个事件发生的概率很小时(一个事件发生的概率很小时(P
2|u|>2))=0.0454=0.0454<<0.050.05,表明,表明20Kg20Kg差异属于试验差异属于试验误差的概率小于误差的概率小于5%5%17统计假设测验的基本步骤为:统计假设测验的基本步骤为:1. 1. 对样本所属总体提出假设(包括对样本所属总体提出假设(包括H H0 0和和H HA A)2. 2. 确定显著水平确定显著水平α α 3. 3. 在在 H H0 0正确的前提下,依统计数的抽样分布,计算正确的前提下,依统计数的抽样分布,计算实际差异由误差造成的概率实际差异由误差造成的概率4. 4. 将算得的概率与将算得的概率与αα相比较,根据小概率事件实际相比较,根据小概率事件实际不可能性原理作出是接受还是否定不可能性原理作出是接受还是否定H H0 0的推断18 先假设真实差异不存在,表面差异全为试验误差。
然后先假设真实差异不存在,表面差异全为试验误差然后计算这一假设出现的概率,根据小概率事件实际不可能性计算这一假设出现的概率,根据小概率事件实际不可能性原理,判断假设是否正确这是对样本所属总体所做假设原理,判断假设是否正确这是对样本所属总体所做假设是否正确的统计证明,称为是否正确的统计证明,称为统计假设测验统计假设测验19三、一尾测验和两尾测验三、一尾测验和两尾测验(一)接受区和否定区(一)接受区和否定区接受区接受区否定区否定区否定区否定区x 00.0250.0250.95α=0.05时时, 否定区域(否定区域(negation region)x-≤( µ0--1.96σx- )σx-x-≥( µ0+1.96)和和H0:: µ= µ0接受区域接受区域(acceptance region)x-<<µ0-1.96 σx-()<<µ0+1.96σx-()20同理,同理,α=0.01时,则时,则 H0:: µ= µ0的接受区域为的接受区域为x-<<µ0--2.58σx-()µ0++2.58σx-()<<否定区域为否定区域为--x≤( µ0--2.58σx- )σx-x ≥( µ0++2.58)或或-接受区接受区否定区否定区否定区否定区x 00.0050.0050.9921(二)一尾测验和两尾测验(二)一尾测验和两尾测验统计假设测验中统计假设测验中H0:: µ=µ0具有两个否定区,具有两个否定区,HA:: µ≠ µ0,,这类测验称这类测验称两尾测验两尾测验(two-tailed test),在假,在假设测验中所考虑的概率为左右两尾概率之和。
设测验中所考虑的概率为左右两尾概率之和否定区否定区否定区否定区x 022H0:: µ≤µ0,, HA:: µ>>µ0,,则否定区在则否定区在 分布的右尾分布的右尾x-例如:研究农药的残留问题,喷有例如:研究农药的残留问题,喷有机砷的蔬菜上有机砷的含量机砷的蔬菜上有机砷的含量为为µ,未,未喷的蔬菜上有机砷喷的蔬菜上有机砷的含量为的含量为µ0测验蔬菜上有测验蔬菜上有机砷的含量是否显著提高机砷的含量是否显著提高0.05x 0否定区否定区0.05x 0否定区否定区23x-H0:: µ≥µ0,, HA:: µ<<µ0,,则否定区在则否定区在 分布的左尾分布的左尾象这种在假设测验中所考虑的概率只用一尾概率的测验称象这种在假设测验中所考虑的概率只用一尾概率的测验称为一尾测验为一尾测验(one-tailed test)选用一尾测验还是两尾测验,应根据专业知识而定选用一尾测验还是两尾测验,应根据专业知识而定例如:研究矮壮素使玉米矮化的结果,例如:研究矮壮素使玉米矮化的结果,喷矮壮素的玉米平均株高是喷矮壮素的玉米平均株高是µ,未,未喷矮壮素的平均株高是喷矮壮素的平均株高是µ0。
对矮壮素对矮壮素是否能使玉米株高降是否能使玉米株高降低做假设测验低做假设测验否定区否定区 00.05x24四、假设测验的两类错误四、假设测验的两类错误第一类错误第一类错误正确正确正确正确第二类错误第二类错误检验结果有四种情况:检验结果有四种情况: 检验结果检验结果真实情况真实情况否定否定H0接受接受H0H0正确正确H0错误错误25f( )μ0(一)第一类错误(一)第一类错误如果无效假设是正确的,通过假设测验却否定了它,如果无效假设是正确的,通过假设测验却否定了它,所犯的错误称所犯的错误称第一类或第一类或ⅠⅠ型错误,型错误,也称弃真错误也称弃真错误接受区间接受区间否定区间否定区间由于犯由于犯ⅠⅠ型错误的型错误的概率不会超过显著概率不会超过显著水平水平аа ,故又称为,故又称为а 错误错误26如果无效假设是错误的,通过假设测验却接受了它,如果无效假设是错误的,通过假设测验却接受了它,所犯的错误称所犯的错误称第二类或第二类或ⅡⅡ型错误,也称纳伪错误型错误,也称纳伪错误二)第二类错误(二)第二类错误由于犯由于犯ⅡⅡ型错误的概率常记为型错误的概率常记为β ,故又称为,故又称为 β 错误错误。
27接受区间接受区间否定区间否定区间μμ0 0μμββ28由图可见,由图可见,ββ的大小与的大小与α α 有反比关系有反比关系接受区间接受区间否定区间否定区间μμ0 0μμββ接受区间接受区间μμββμμ0 0 在样本容量在样本容量n n一定时,提高显著水平,可以减少犯第一一定时,提高显著水平,可以减少犯第一类错误的概率,但同时增大了犯第二类错误的概率类错误的概率,但同时增大了犯第二类错误的概率29μμ0 0接受区间接受区间否定区间否定区间μμββ由图可见,由图可见,ββ的大小与|的大小与|μμ--μμ0 0|有反比关系|有反比关系接受区间接受区间否定区间否定区间μμ0 0μμββ在在n n和显著水平相同的条件下,真正的总体平均数和显著水平相同的条件下,真正的总体平均数 和假设和假设的平均数的平均数 0 0的相差越大,则犯第二类错误的概率越小的相差越大,则犯第二类错误的概率越小30由图可见,由图可见,ββ的大小与标准误的大小与标准误 有正比关系有正比关系nxs ss s= =μμx1μμ0 0b2x接受区间接受区间μμββμμ0 0为了降低犯为了降低犯β错误的概率,应适当增加样本容量。
错误的概率,应适当增加样本容量31a ab ba a 与与 b b 间的关系间的关系减少(增加)减少(增加)I型错型错误误,将会增加(减,将会增加(减少)少)II型错误型错误32(三)降低两类错误的措施(三)降低两类错误的措施1 1、为了降低犯两类错误的概率,需采用一个较低的显、为了降低犯两类错误的概率,需采用一个较低的显著水平,如著水平,如α=0.05α=0.052 2、显著水平一定,则改进试验技术和增加样本容量可以、显著水平一定,则改进试验技术和增加样本容量可以有效的降低犯两类错误的概率有效的降低犯两类错误的概率33第三章第三章 统计推断统计推断第一节第一节 统计假设测验的基本原理统计假设测验的基本原理第二节第二节 单个平均数的假设测验和单个平均数的假设测验和区间估计区间估计第四节第四节 百分数的假设测验和百分数的假设测验和区间估计区间估计第三节第三节 两个平均数的假设测验和两个平均数的假设测验和区间估计区间估计34第二节第二节 单个平均数的假设测验和单个平均数的假设测验和区间估计区间估计v 单个样本平均数的假设测验单个样本平均数的假设测验v 总体平均数的区间估计总体平均数的区间估计v 影响估计误差范围的因素影响估计误差范围的因素35一、单个样本平均数的假设测验一、单个样本平均数的假设测验x由| -μ0| 推断 μ-μ0=0? µ0 =360kg , ==40kgx=380kg, n=16--µ µ = µ0 ??原品种原品种新品系新品系36v从从 2 2已知的已知的总体抽样,无论样本容量的大小,其样本平均数总体抽样,无论样本容量的大小,其样本平均数 的抽样的抽样 分布必做正态分布,具有平均数分布必做正态分布,具有平均数 和方差和方差 。
xm=xm mn22s s= =s sxv从从 2 2未知的未知的总体抽样,当样本容量足够大时(总体抽样,当样本容量足够大时(n>30) n>30) ,,其样本平均数其样本平均数 的的抽样分布趋于近正态分布,具有平均数抽样分布趋于近正态分布,具有平均数 和方差和方差 n22S = =Sxm=xm mx由抽样分布可知:由抽样分布可知: xxt sm /0)( -=-x0=uxsm-x0=uxSmv当当 2 2未知的未知的总体抽样,样本容量总体抽样,样本容量n<30n<30时时 ,,其样本平均数其样本平均数 的抽样分布的抽样分布服从服从t t分布分布, , S S2 2代替代替σσ2 2所得到的统计量记为所得到的统计量记为t t x37U U测验:测验: σ σ2 2已知(无论已知(无论n≥30 n≥30 ,还是,还是 n n<<30 30 );); σ σ2 2未知,但未知,但n≥30n≥30(大样本)(大样本) 。
t t 测验测验:从:从 2 2未知的未知的总体抽样,样本容量总体抽样,样本容量n<30n<30时 由抽样分布知识可得:由抽样分布知识可得:(一)(一) 测验方法测验方法38(二)(二) 测验步骤测验步骤第一步第一步 建立假设建立假设H0::μ==μ0HA::μ≠μ0第二步第二步 确定显著水平确定显著水平α==0.05、、0.01第三步第三步 计算统计量计算统计量 u (t)值值-x0=uxsm-x0=uxSm-x0=txSm第四步第四步 查表求临界值查表求临界值uα( tα ),并作统计推断,并作统计推断39例例3.1 3.1 有一玉米杂交种亩产量总体为正态分布,其总体平均产量有一玉米杂交种亩产量总体为正态分布,其总体平均产量µ µ0 0= 430= 430㎏,㎏, ==30 30 ㎏,为提高制种产量进行反交制种,对反交杂交种进行了㎏,为提高制种产量进行反交制种,对反交杂交种进行了9 9个小区试验,个小区试验,平均产量为平均产量为415(415(㎏㎏/ /亩亩) )问反交种在产量上是否与正交种有显著差异?问反交种在产量上是否与正交种有显著差异?H0:: µ=µ0=430 ㎏㎏ ,, 即反交种与正交种在即反交种与正交种在产产量上没有差异。
量上没有差异HA:: µ≠µ0,,α=0.05=-1.5930415-430=0-=nxsm0-=xuxsmα=0.05时,时, uα=1.96=1.96,而实得,而实得 u =1.5=1.5,即,即 u <
的影响HA:: µ≠µ0,, α=0.0541测验计算测验计算x-=171×((19.0+17.3+…+16.4))=18.09(g)µ0xx-_s-t ==18.09-160.24=8.71查附表查附表4,,t0.05,16 =2.12,,t > t0.05,16,故否定,故否定H0,接受,接受HA 认为滴灌对大豆的百粒重有显著影响认为滴灌对大豆的百粒重有显著影响42 参数的区间估计概念参数的区间估计概念n根据一个样本的观察值给出总体参数的根据一个样本的观察值给出总体参数的估计范围估计范围n给出总体未知参数落在这一区间的给出总体未知参数落在这一区间的概率概率置信区间样本统计量(点估计)置信上限置信下限二、总体平均数的区间估计二、总体平均数的区间估计43 参数的区间估计原理参数的区间估计原理1.96x0.025-1.960.025P[(-1.96x) x (+1.96x )]=0.95P[(-ux) x (+ux )]= 1-44P[(-ux) x (+ux )]= 1-P[(- ux) x - (ux )]= 1-P[(-ux -x) - (ux -x)] = 1-P[(x -ux) (x+ux )]= 1-置信下限置信上限L2L1置信区间置信系数或置信度45置信限:置信限:L1和和L2置信区间置信区间 [L1、、L2]置信度:概率水平置信度:概率水平PP=1- α否定区否定区否定区否定区x接受区接受区L1L2L1xuxs a-=L2xuxsa+=[ ,, ]Lxuxs a+=点估计:点估计:46接受区域接受区域 1- α否定区域否定区域 α /2否定区域否定区域α /2L1L2置信限:置信限: 0的置信区间为的置信区间为[xuxsa-、、xuxsa+]L1xuxs a-=L2xuxsa+=(一)(一) 符合符合u分布的区间估计分布的区间估计1. 1. σσ2 2已知已知47实实 例例例:在某棉花试验田例:在某棉花试验田中,随机抽取中,随机抽取3636个小个小区,测得小区的皮棉区,测得小区的皮棉平均产量为平均产量为4.1kg4.1kg,已,已知总体方差知总体方差σσ2 2=0.09=0.09。
求求99%99%的置信度下该试的置信度下该试验田中小区皮棉产量验田中小区皮棉产量μμ的置信区间的置信区间该试验田中小区皮棉产量该试验田中小区皮棉产量μ在在3.971~4.229kg 之间,此估计的可靠度为之间,此估计的可靠度为99%.(x -u x) (x+u x )4.1 – 2.580.09 36,,3.971,,4.2294.1+ 2.580.09 3648接受区域接受区域 1- α否定区域否定区域 α /2否定区域否定区域α /2L1L22. 2. σσ2 2未知,但未知,但n≥30n≥30(大样本)(大样本)置信限:置信限:L1xux S a-=L2xux Sa+= 0的置信区间为的置信区间为[xux sa-、、xux sa+]49例例3.4 3.4 为估计某块麦田里的小麦平均株高,随机抽取为估计某块麦田里的小麦平均株高,随机抽取5050株作为一个样本,株作为一个样本,得到样本平均株高得到样本平均株高x=90cmx=90cm,,s=3.8cms=3.8cm,试用,试用95%95%的可靠度估计小麦的可靠度估计小麦的总体平均株高。
的总体平均株高50(二)(二) 符合符合 t 分布的区间估计分布的区间估计xxStxLStxLaa+=-=21置信限:置信限: 0的置信区间为的置信区间为[xtxsa-、、xtxa+]s51例例3.5 3.5 某一引进的小麦品种,在某一引进的小麦品种,在8 8个小区种植的千粒重克数为:个小区种植的千粒重克数为:35.635.6、、37.637.6、、33.433.4、、35.135.1、、32.732.7、、36.836.8、、35.935.9和和34.634.6,试用,试用95%95%的置信度估计该品的置信度估计该品种的总体平均千粒重种的总体平均千粒重52查附表4得,当df=7时,t0.05=2.365所以,该小麦品种总体千粒重在所以,该小麦品种总体千粒重在33.83~36.57之间,之间,估计的可靠度为估计的可靠度为95%53三三. 影响估计误差范围的因素影响估计误差范围的因素1. 样本容量样本容量 n,,n越大,误差范围越小越大,误差范围越小2. 显著水平显著水平 ,, 越小,越小,ua(ta) 越大,越大,误差范围越大误差范围越大3. 样本标准差样本标准差S,,S越大,误差范围越大。
越大,误差范围越大54第一节第一节 统计假设测验的基本原理统计假设测验的基本原理第二节第二节 单个平均数的假设测验和区间估计单个平均数的假设测验和区间估计第四节第四节 百分数的假设测验和百分数的假设测验和区间估计区间估计第三节第三节 两个平均数的假设测验和两个平均数的假设测验和区间估计区间估计统计推断统计推断55品种甲品种甲品种乙品种乙 甲甲 乙乙=??X甲甲=500kgX乙乙=525kg56第三节第三节 两个样本平均数的假设测验和两个样本平均数的假设测验和区间估计区间估计由两个样本平均数之差来测验这两个样本所属总体平均数是由两个样本平均数之差来测验这两个样本所属总体平均数是否存在显著差异,即测验两个处理的效果是否一样否存在显著差异,即测验两个处理的效果是否一样品种甲品种甲品种乙品种乙x甲甲=500kgX乙乙=525kg推断推断μ1--μ2=0?由|由| || 甲甲 乙乙=??x甲甲-x乙乙推断推断通过通过57Ø 成组数据的假设测验和区间估计成组数据的假设测验和区间估计Ø 成对数据的假设测验和区间估计成对数据的假设测验和区间估计按数据资料的来源按数据资料的来源58一、一、成组数据的假设测验和区间估计成组数据的假设测验和区间估计将试验单位完全随机分为两组,再随机各实施将试验单位完全随机分为两组,再随机各实施一处理,这样得到的数据称为成组数据,以组的平一处理,这样得到的数据称为成组数据,以组的平均数作为比较的标准。
均数作为比较的标准59(一)成组数据的假设测验(一)成组数据的假设测验用用 t 测验测验用用u 测验测验用近似用近似 t 测验测验1. 两个样本所属的总体方差两个样本所属的总体方差 12 和和 22 已知,已知,或总体方差未知,但两个样本都是大样本时或总体方差未知,但两个样本都是大样本时 12 22= 且两个样本为小样本,但可假定且两个样本为小样本,但可假定2. 两个样本所属的总体方差两个样本所属的总体方差 12 和和 22 未知,未知,两样本为小样本,且两样本为小样本,且 12 22≠3. 两个样本所属的总体方差两个样本所属的总体方差 12 和和 22 未知,未知,60 12 22已知,已知,和和1. 两个样本的总体方差两个样本的总体方差或或总体方差未知,但两个样本都是大样本总体方差未知,但两个样本都是大样本时样本样本1:平均数:平均数x1,方差,方差s12,容量,容量n1样本样本2:平均数:平均数x2,方差,方差s22,容量,容量n2H0:: µ1=µ2 ,, HA:: µ1≠µ2 α=0.05--x2)(x1 _u=sx1-x2--u = (x1- x2)-( 1- 2) x1-x2u = (x1- x2)-( 1- 2)sx1-x2--x2)(x1 _u= x1-x2--61sx1-x2--=√s12n1s22n2+ 第三步第三步: 推断推断 当当2.58 ≥ | |≥1.96时,推断时,推断u1和和u2的差异显著;的差异显著;当当| |≥2.58时,推断时,推断u1和和u2的差异极显著;的差异极显著;当当| |<1.96时,推断时,推断u1和和u2的差异不显著;的差异不显著; x1-x2--=√ 12n1 22n2+62例例3.7:水稻不同插秧期每穗结实数,试测验两个插秧期对水:水稻不同插秧期每穗结实数,试测验两个插秧期对水稻每穗结实数的影响。
稻每穗结实数的影响插秧期插秧期水稻不同插秧期每穗结实数水稻不同插秧期每穗结实数6月月4日日31847138464654448824816245576239376921534453614572356270428837744287474665542858635462593053296278536月月17日日314465324053546034494648493123695842442451324333254947663636343341623838406647712453202531416032563863H0:μ1 = μ2 即插秧期对水稻每穗结实数没有影响即插秧期对水稻每穗结实数没有影响 HA:: μ1 ≠ μ2 α=0.01第一步:设立无效假设和备择假设,规定显著水平第一步:设立无效假设和备择假设,规定显著水平第二步:计算各个样本平均数、方差,两个样本均数差第二步:计算各个样本平均数、方差,两个样本均数差数标准差和数标准差和μ值64第三步:推断第三步:推断u0.01=2.58,实得,实得|u|=3.54,, |u|>u0.01 ,所以否定,所以否定H0,接受,接受HA认为两个插秧期对水稻每穗结实数有极显著影响。
认为两个插秧期对水稻每穗结实数有极显著影响65由于假定由于假定 ,所以,所以 和和 都可用来作为都可用来作为 的估计值的估计值用用 t 测验测验用两个方差用两个方差 和和 的加权平均数来估计的加权平均数来估计 12 22= 且两个样本为小样本,但可假定且两个样本为小样本,但可假定2. 两个样本所属的总体方差两个样本所属的总体方差 12 和和 22 未知,未知,66当n1=n2=n时,67例例 3.8 为比较水稻田两种氮肥浅施的效果,用完全随机为比较水稻田两种氮肥浅施的效果,用完全随机排列进行试验,产量结果列于下表,试测验两种排列进行试验,产量结果列于下表,试测验两种氮肥浅施对水稻产量的差异显著性氮肥浅施对水稻产量的差异显著性 x1(浅施硝酸铵浅施硝酸铵)X2(浅施氯化铵浅施氯化铵)239.50248.15240.60255.85247.50261.20232.50257.40237.50255.4068第一步:设立无效假设第一步:设立无效假设H0,备择假设,备择假设HA,, 确定显著水平。
确定显著水平 H0: 1= 2即两种氮肥浅施水稻的产量无差异即两种氮肥浅施水稻的产量无差异 HA:: 1 ≠ 2 аа=0.05 两尾测验两尾测验第二步:计算各个样本平均数,平方和,两个样本的第二步:计算各个样本平均数,平方和,两个样本的合并均方,差数标准差和合并均方,差数标准差和t值6970查附表查附表4,当,当df=5+5-2=8时,时,t0.05=2.306,实得,实得|t|=4.98 |t|>t0.05 ,所以否定,所以否定H0,接受,接受HA 认为水田浅施氯化铵与浅施硝酸铵产量有显著差异认为水田浅施氯化铵与浅施硝酸铵产量有显著差异第三步:推断第三步:推断71例例 3.10 从前茬作物喷洒过有机砷杀虫剂的麦田随机采取从前茬作物喷洒过有机砷杀虫剂的麦田随机采取4样株,测样株,测定砷在植株体内的残留量分别为定砷在植株体内的残留量分别为7.5、、9.7、、6.8和和6.4mg,又,又从前作未喷洒过有机砷杀虫剂的对照田随机从前作未喷洒过有机砷杀虫剂的对照田随机3株,测得砷含株,测得砷含量为量为 4.2、、7.0和和4. 6 mg 。
试测定喷洒有机砷杀虫剂是否使试测定喷洒有机砷杀虫剂是否使后作植株体内砷含量显著地提高?后作植株体内砷含量显著地提高?喷洒有机砷杀虫剂只能使后作植株体内砷含量提高,没有降低喷洒有机砷杀虫剂只能使后作植株体内砷含量提高,没有降低的可能,所以用一尾测验的可能,所以用一尾测验 H0: 1≤ 2 即喷洒有机砷杀虫剂不会使后作植株体内砷含量提高即喷洒有机砷杀虫剂不会使后作植株体内砷含量提高 HA:: 1> 2 аа=0.05 7273查附表查附表4,当,当df=4+3-2=5,, 一尾概率一尾概率а=0.05时,时,0.95α=0.05当当df=5,, 一尾概率一尾概率а=0.05时时t0.05=2.015,实得,实得|t|=2.018,,|t|>t0.05 ,所以否定,所以否定H0,接受,接受HA,即前作喷洒过有机砷农,即前作喷洒过有机砷农药会显著提高后作植株体内药会显著提高后作植株体内有机砷含量有机砷含量2.01574α=0.0250.95α=0.025-2.5712.571当当df=5,, 两尾概率两尾概率а=0.05时时查附表查附表4,当,当df=4+3-2=5,, 两尾概率两尾概率а=0.05时,时,t0.05=2.571,,实得实得|t|=2.018,, |t| 株体内有机砷含量75用近似用近似 t 测验测验--x2)(x1 _t=sx1-x2--当n1=n2=n时, 用df=n-1时的t0.05和和t0.01值值当当n1≠n2时,时, 查查t0.05和和t0.01值值用矫正的自由度用矫正的自由度两样本为小样本,且两样本为小样本,且 12 22≠3. 两个样本所属的总体方差两个样本所属的总体方差 12 和和 22 未知,未知,76(二)两总体平均数差数的区间估计(成组数据)(二)两总体平均数差数的区间估计(成组数据)两样本为大样本时:两样本为大样本时:两样本为小样本时:两样本为小样本时:77二、二、成对数据的假设测验和区间估计成对数据的假设测验和区间估计把条件一致的两个供试单元配成一对,并设多个配对,把条件一致的两个供试单元配成一对,并设多个配对,再对每一配对两个单元随机独立实施一处理,这就是配再对每一配对两个单元随机独立实施一处理,这就是配对试验当试验单元间差异较大,用完全随机试验将对试验指标当试验单元间差异较大,用完全随机试验将对试验指标有明显影响有明显影响这样得到的数据称为成对数据这样得到的数据称为成对数据78配对试验的观察值模型为配对试验的观察值模型为(x11, x21) , ( x12 , x22 ) , … ( x1i , x2i ) … , ( x1n , x2n )由于各配对间供试单元差异较大,可由由于各配对间供试单元差异较大,可由di= x1i- x2i消除不消除不同配对间试验单元的差异。 同配对间试验单元的差异因此可通过各配对差数的平均数因此可通过各配对差数的平均数μd =0或某一常数,或某一常数,来推断来推断μ1 –μ2 =0或某一常数?或某一常数?差数差数d1、、d2 、、 …di… 、、dN 组成差数总体组成差数总体79 (一)、(一)、成对数据的假设测验成对数据的假设测验sd-=√nsd服从服从df=n-1的的t分布sd-称为差数标准误称为差数标准误-sd =Σ(Σ(di- -d) )2 2n-1√√ΣΣdi2 –(Σ–(Σdi) )2 2/n/nn-1=-μd)(d _st =d-差数差数d1、、d2 、、 …di… 、、dn 是一个差数样本是一个差数样本80例例3.15 选面积相同的小区选面积相同的小区10个,各分成两半,一半去雄一半不去雄,个,各分成两半,一半去雄一半不去雄,产量结果列于下表试测验两种产量的差异显著性产量结果列于下表试测验两种产量的差异显著性每小区的土壤条件接近一致,故两种处理的产量可视为成对数据每小区的土壤条件接近一致,故两种处理的产量可视为成对数据区号区号去雄(去雄(x1j)不去雄(不去雄(x2j) di(x1i-x2i)114.013.0+1216.015.0+1315.015.00418.517.0+1.5517.016.0+1617.012.5+4.5715.015.5-0.5814.012.5+1.5917.016.0+11016.014.0+281H0:μd=0 即玉米去雄与不去雄产量差异不显著。 玉米去雄与不去雄产量差异不显著HA: μd≠0 α=0.05查附表查附表4,当,当df=10-1=9时,时,t0.05=2.262,实得,实得|t|>t0.05 ,,所以否定所以否定H0,接受,接受HA,推断玉米去雄与不去雄产量差,推断玉米去雄与不去雄产量差异显著82 (二)、(二)、成对数据的区间估计成对数据的区间估计在1-a概率保证下μd置信区间的下限和上限为:83名称名称成组数据成组数据成对数据成对数据依据条件依据条件样本容量样本容量 12和和 22标准差标准差测验方法测验方法两个处理为完全随机两个处理为完全随机设计,处理间供试的设计,处理间供试的单位相互独立单位相互独立两个样本观察值因某种两个样本观察值因某种联系而一一对立,彼此联系而一一对立,彼此相关相关可以相等,也可以不等可以相等,也可以不等必须相等必须相等已知或未知(假设已知或未知(假设 12= 22、、 12≠ 22))不受不受 12和和 22的影响的影响用用u测验、测验、t测验测验 或近似或近似t测验测验用用t测验测验84第一节第一节 统计假设测验的基本原理统计假设测验的基本原理第二节第二节 单个平均数的假设测验和单个平均数的假设测验和区间估计区间估计第四节第四节 百分数的假设测验和百分数的假设测验和区间估计区间估计第三节第三节 两个平均数的假设测验和两个平均数的假设测验和区间估计区间估计第三章第三章 统计推断统计推断85由非此即彼事件所构成的总体叫由非此即彼事件所构成的总体叫二项总体二项总体,也叫,也叫0,,1总体。 总体 当每次独立的从二项总体抽取当每次独立的从二项总体抽取n个个体,这个个体,这n个个体:个个体:“此此”事件出现的次数事件出现的次数X可能有可能有0、、1、、2、、….n,共有共有n+1种种,这这n+1种可能性有它各自的概率,组成一个分布种可能性有它各自的概率,组成一个分布,这个分这个分布叫布叫二项概率分布二项概率分布或简称或简称二项分布二项分布 86A. n相同时相同时二项分布的形状二项分布的形状二项分布的形状决定于二项分布的形状决定于n和和p的大小的大小p=q= 0.5 n=6p=0.7 q=0.3 n=6p=0.3 q=0.7 n=687B. 当当n增大时增大时.p=0.1 n=10p=0.1 n=50p=0.1 n=100由图可见,由图可见, p一定,图形随一定,图形随n而变化,而变化,n大,图形顶点向中间移;大,图形顶点向中间移;n小,图形偏度大小,图形偏度大n→∞,,不论不论p为何值,图形都对称为何值,图形都对称数统可证数统可证,当,当n→∞,,p不过小,二项分布不过小,二项分布→正态分布正态分布 当当n→∞,而,而p又相当小时,二项分布又相当小时,二项分布→泊松分布泊松分布88二项成数总体标准差二项成数总体标准差以以成数成数(百分数)百分数)表示表示:二项成数总体平均数二项成数总体平均数p=m二项总体平均数二项总体平均数=npmx以以次数次数表示表示:二项总体标准差二项总体标准差89 二项分布属间断性变数资料,但是,当二项分布属间断性变数资料,但是,当n 较大,较大,p不过小,不过小,而而np和和nq又不小于又不小于5 时时,二项分布接近正态,二项分布接近正态分布,因而可将百分数资料作正态分布处理,从而作分布,因而可将百分数资料作正态分布处理,从而作出近似的测验。 出近似的测验90第四节第四节 样本百分数的假设测验和区间估计样本百分数的假设测验和区间估计Ø单个样本百分数的假设测验和区间估计单个样本百分数的假设测验和区间估计Ø两个样本百分数的假设测验和区间估计两个样本百分数的假设测验和区间估计91一一. .单个样本百分数的假设测验和区间估计单个样本百分数的假设测验和区间估计(一)单个样本百分数的假设测验(一)单个样本百分数的假设测验Ø np,,nq小于小于5时,通过二项展开式计算概率;时,通过二项展开式计算概率;Ønp,,nq大于大于5,小于,小于30时,可以进行时,可以进行 u测验,但要作测验,但要作连续性矫正;连续性矫正;Ø np,,nq大于大于30时,进行时,进行u测验,无需作连续矫正测验,无需作连续矫正测验某一样本百分数测验某一样本百分数 p所在总体的百分数所在总体的百分数P是否与是否与某一理论值某一理论值P0相同92若满足正态接近法的条件若满足正态接近法的条件, 则可对则可对H0::P=P0作作u测验测验无需连续矫正无需连续矫正需要连续矫正需要连续矫正百分数的标准误百分数的标准误93例例3.16 某种子站引进一批小麦种子,平均发芽率是某种子站引进一批小麦种子,平均发芽率是90%,为,为了防止种子带菌,对这批种子进行药物处理,并从处了防止种子带菌,对这批种子进行药物处理,并从处理后的种子中,随机抽出理后的种子中,随机抽出400粒进行发芽试验,结果发粒进行发芽试验,结果发芽种子数芽种子数356粒,不发芽粒,不发芽44粒,问药物处理对种子发芽粒,问药物处理对种子发芽率是否有影响。 率是否有影响这里这里n=400,,p0=0.90,, np,,nq大于大于30时,可进行时,可进行u测验,测验,无需作连续矫正无需作连续矫正.H0: p=p0=0.90 即处理后的小麦种子平均发芽率仍为即处理后的小麦种子平均发芽率仍为90%;;对对HA: p ≠p0,显著水平,显著水平α=0.0594第二步:计算样本百分数,标准误,正态标准离差第二步:计算样本百分数,标准误,正态标准离差 已知已知 p=0.90 q=1-p=1-0.90=0.10u0.05=1.96,实得,实得|u| =0.667 ,, |u|< u0.05故接受故接受H0,,推断该药推断该药物处理小麦种子对发芽率没有影响物处理小麦种子对发芽率没有影响第三步:推断第三步:推断95(二)单个样本百分数的区间估计(二)单个样本百分数的区间估计在显著水平为在显著水平为аа时,样本百分数所属的总体百分时,样本百分数所属的总体百分数数p p的置信区间:的置信区间:96例例3.7:某种农药防治粘虫,平均粘虫死亡率为:某种农药防治粘虫,平均粘虫死亡率为60%,现研制,现研制一种新农药进行试验,在一种新农药进行试验,在50头供试的粘虫中,结果有头供试的粘虫中,结果有38头头死亡,试测验新农药的杀虫效果是否不同于原农药?死亡,试测验新农药的杀虫效果是否不同于原农药? 估计新农药总体平均杀虫率的估计新农药总体平均杀虫率的95%的置信区间。 的置信区间n=50 p0=0.6 , np,,nq大于大于5,小于,小于30,进行,进行 u测测验,但要作连续性矫正验,但要作连续性矫正H0: p=p0=0.60 即即新农药的杀虫效果与原农药相同新农药的杀虫效果与原农药相同;;HA: p ≠p0,显著水平,显著水平α=0.0597 p=0.60,,q=1-p=1-0.6=0.4u0.05=1.96,实得,实得|u| =2.174 ,, |u|> u0.05 故否定故否定H0,接受,接受HA,,推断新农药的杀虫效果与原农药有显著不同推断新农药的杀虫效果与原农药有显著不同98估计新农药总体平均杀虫率的估计新农药总体平均杀虫率的95%的置信区间的置信区间由于由于H0被否定,被否定,新农药的杀虫效果显著不同于原农药新农药的杀虫效果显著不同于原农药99当当np,,nq小于小于30时,对总体百分数的区间估计也要作连续性矫正时,对总体百分数的区间估计也要作连续性矫正100二二. . 两个样本百分数的假设测验和区间估计两个样本百分数的假设测验和区间估计(一)两个样本百分数的假设测验(一)两个样本百分数的假设测验Ø np,,nq小于小于5时,按二项分布直接进行检验;时,按二项分布直接进行检验;Ønp,,nq大于大于5,小于,小于30时,可以进行时,可以进行 u测验测验 (t测验测验) ,,但要作连续性矫正;但要作连续性矫正;Ø np,,nq大于大于30时,进行时,进行u测验,无需作连续矫正。 测验,无需作连续矫正测验两个样本百分数测验两个样本百分数p1和和p2的差异显著性,即由两样本的差异显著性,即由两样本百分数百分数p1和和p2之差推断两样本所属总体之差推断两样本所属总体P1和和P2是否相同是否相同101Ø np,,nq大于大于30,进行,进行 u测验,无需作连续矫正测验,无需作连续矫正在在H0::P1=P2下下,分别从两个总体抽出的两个样本百分数的差数为分别从两个总体抽出的两个样本百分数的差数为 ,,它服从平均数为它服从平均数为0,标准差为,标准差为 的正态分布的正态分布设设p1= x1/n1,, p2= x2/n2,,102两样本百分数的差数标准误为两样本百分数的差数标准误为在两总体的百分数为未知时,在在两总体的百分数为未知时,在 的假设下,的假设下,可用样本百分数的加权平均值作为估计值可用样本百分数的加权平均值作为估计值两总体百分两总体百分数已知数已知p_x1+x2n1+n2=103例例3.20 现研究一种新型杀虫剂,试验现研究一种新型杀虫剂,试验1000头虫子中杀死头虫子中杀死728头,头,原类似杀虫剂,在原类似杀虫剂,在1000头虫子中杀死头虫子中杀死657头,问新型杀虫剂的杀虫头,问新型杀虫剂的杀虫率是否高于原杀虫剂?率是否高于原杀虫剂?对对HA: p1 >>p2H0: p1≤p2 即新型杀虫剂的杀虫率并不高于原杀虫剂即新型杀虫剂的杀虫率并不高于原杀虫剂显著水平显著水平α=0.05104u>u0.05,所以否定,所以否定H0,接受,接受HA,,一尾测验一尾测验α=0.05时,时, u0.05=1.64,,实得实得u=3.44,,认为新型杀虫剂的杀虫效果显著高于原杀虫剂。 认为新型杀虫剂的杀虫效果显著高于原杀虫剂105Ø np,,nq大于大于5,小于,小于30时,可以进行时,可以进行 u测验,但要测验,但要作连续性矫正;作连续性矫正;当两个样本百分数当两个样本百分数当两个样本百分数当两个样本百分数108当当n1<30或或n2<30时,时,109例例3.21 有一批种子,采用两种不同的保存方法,然后在相同的条有一批种子,采用两种不同的保存方法,然后在相同的条件下进行发芽试验从第一种保存方法中取出件下进行发芽试验从第一种保存方法中取出150粒,发芽粒,发芽141粒,粒,发芽率发芽率 ,第二种方法中取出,第二种方法中取出190粒,发芽粒,发芽175粒,发芽粒,发芽率率 ,问保存方法对种子发芽率是否有影响问保存方法对种子发芽率是否有影响H0::P1=P2 ,即两种方法的,即两种方法的总总体体发发芽率相同芽率相同对对 HA::P1≠P2α=0.05p_x1+x2n1+n2=110=0.02786u0.05=1.96,,因因 |uc|=0.209 两种方法保存的种子发芽率没有显著差异111(( 二)两个样本百分数的区间估计二)两个样本百分数的区间估计在显著水平为在显著水平为аа时,两个样本百分数所属的总体百时,两个样本百分数所属的总体百分数差数分数差数p p1 1-p-p2 2的置信区间:的置信区间:112本本 章章 小小 结结一、统计假设测验的基本原理一、统计假设测验的基本原理p 假设测验的步骤假设测验的步骤p 一尾测验和两尾测验一尾测验和两尾测验p 假设测验的两类错误假设测验的两类错误113二、样本平均数的假设测验二、样本平均数的假设测验 U-测验测验: 已知已知t –测验测验: 未知,小样本未知,小样本单个样本平均单个样本平均数的假设测验数的假设测验 两个样本两个样本平均数的平均数的假设测验假设测验 U-测验测验: 未知,大样本未知,大样本成组数据成组数据成对数据成对数据U-测验测验: 已知或未知,大样本已知或未知,大样本t –测验测验: 未知,小样本未知,小样本 1 ≠ 2 t –测验测验: 未知,小样本未知,小样本 1 = 2 t –测验测验114三、样本百分数的假设测验三、样本百分数的假设测验 单个样本百分单个样本百分数的假设测验数的假设测验 两个样本百分两个样本百分数的假设测验数的假设测验 np,,nq<<5时,通过二项展开式计算概率;时,通过二项展开式计算概率;5 <<np,,nq<<30时,进行时,进行 u测验,但要矫正;测验,但要矫正; np,,nq> >30时,进行时,进行u测验。 测验115作作 业业n朱明哲朱明哲 62-63页页 5、、6、、7、、8116THE END!THE END!117[例例] 某养鱼场发生了药物中毒,抽查甲池中的某养鱼场发生了药物中毒,抽查甲池中的29尾鱼有尾鱼有20尾尾死亡,抽查死亡,抽查乙池中的乙池中的28尾鱼有尾鱼有21尾死亡尾死亡试比较甲、试比较甲、乙两池发生药物中毒后,鱼的死亡是否有差异乙两池发生药物中毒后,鱼的死亡是否有差异H0::P1=P2 ,即甲乙两池,即甲乙两池鱼鱼的死亡率没有的死亡率没有显显著差异对对 HA::P1≠P2α=0.05p_x1+x2n1+n2=p1= x1/n1=20/29=0.690 p2= x2/n2=21/28=0.750118=0.119当当df=29+28-2=55时,时,t0.05 =2.004,,|t| =0.209 总体的相应参数在一定概率保证下,在一定概率保证下,估计参数可能在内的估计参数可能在内的一个范围或区间一个范围或区间由一个或一系由一个或一系列样本所得的列样本所得的结果来推断总结果来推断总体的特征体的特征120。
