
教学课件第四章理论分布和抽样分布.ppt
107页第四章第四章 理论分布和抽样分布理论分布和抽样分布第一节第一节 事件、概率和随机变量事件、概率和随机变量第二节第二节 二项式分布二项式分布第三节第三节 正态分布正态分布第四节第四节 抽样分布抽样分布第一节第一节 事件、概率和随机变量事件、概率和随机变量一、事件和事件发生的概率一、事件和事件发生的概率二、事件间的关系二、事件间的关系三、计算事件概率的法则三、计算事件概率的法则四、随机变量四、随机变量一、事件和事件发生的概率一、事件和事件发生的概率 事件事件 ----在自然界中一种事物,常存在几种可能出在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件现的情况,每一种可能出现的情况称为事件 随机事件随机事件(random event)(random event) ----某特定事件只是可能某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件发生的几种事件中的一种,这种事件称为随机事件 概率概率(probability)(probability) ----每一个事件出现的可能性称每一个事件出现的可能性称为该事件的概率。
为该事件的概率 必然事件必然事件-----对于一类事件来说,在同一组条件的对于一类事件来说,在同一组条件的实现之下必然要发生的,称为必然事件;其概率为实现之下必然要发生的,称为必然事件;其概率为1 不可能事件不可能事件 -----对于一类事件来说,在同一组条件对于一类事件来说,在同一组条件的实现之下必然不发生的,称为不可能事件,其概率为的实现之下必然不发生的,称为不可能事件,其概率为0 事件发生的可能性事件发生的可能性(概率概率)是在大量的实验中观察得到的,是在大量的实验中观察得到的,例如棉田发生盲蝽象为害的情况,并不是所有的棉株都受害,例如棉田发生盲蝽象为害的情况,并不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定这里将一个调查结果列于表握越准确、越稳定这里将一个调查结果列于表4.1 表表4.1 在相同条件下盲在相同条件下盲蝽象在某棉田危害程度的象在某棉田危害程度的调查结果果调查株数株数(n)52550100200500100015002000受害株数受害株数(a) 21215 33 72177 351 525 704棉株受害棉株受害频率率(a/n)0.400.480.300.330.360.354 0.351 0.350 0.352 由表由表4.1可以看到:调查可以看到:调查5株时,有株时,有2株受害,受害株的频株受害,受害株的频率为率为40%,调查,调查25株时受害频率为株时受害频率为48%,调查,调查100株时受害频株时受害频率为率为33%。
可以看出三次调查结果有差异,说明受害频率有波可以看出三次调查结果有差异,说明受害频率有波动、不稳定而当进一步扩大调查的单株数时,发现频率比动、不稳定而当进一步扩大调查的单株数时,发现频率比较稳定了,调查较稳定了,调查500株到株到2000株的结果是受害棉株稳定在株的结果是受害棉株稳定在35%左右 现以现以n代表调查株数,以代表调查株数,以a代表受害株数,那么可以计算代表受害株数,那么可以计算出受害频率出受害频率p=a/n从棉株受害情况调查结果看,频率在从棉株受害情况调查结果看,频率在n取取不同的值时,尽管调查田块是相同的,频率不同的值时,尽管调查田块是相同的,频率p却不同,只有在却不同,只有在n很大时频率才比较稳定一致因而,调查株数很大时频率才比较稳定一致因而,调查株数n较多时的稳较多时的稳定频率才能较好地代表棉株受害的可能性定频率才能较好地代表棉株受害的可能性 统计学上用统计学上用n较大时稳定的较大时稳定的p近似代表概率通过大量实近似代表概率通过大量实验而估计的概率称为实验概率或统计概率,以表示此处验而估计的概率称为实验概率或统计概率,以表示此处P代代表概率,表概率,P(A)代表事件代表事件A的概率,的概率,P(A)变化的范围为变化的范围为0~1,即,即0≤P(A)≤1。
小概率原理小概率原理----若事件若事件A发生的概率较小,如小于发生的概率较小,如小于0.05或或0.01,则认为事件,则认为事件A在一次试验中不太可能发生,这称为小在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理这里的概率事件实际不可能性原理,简称小概率原理这里的0.05或或0.01称为小概率标准,农业试验研究中通常使用这两个小称为小概率标准,农业试验研究中通常使用这两个小概率标准概率标准二、事件间的关系二、事件间的关系(一一) 和事件和事件(二二) 积事件积事件 (三三) 互斥事件互斥事件(四四) 对立事件对立事件(五五) 完全事件系完全事件系(六六) 事件的独立性事件的独立性 (一一) 和事件和事件 事件事件A和和B至少有一个发生而构成的新事件称为事件至少有一个发生而构成的新事件称为事件A和和B的的和事件和事件,记为,记为A+BA+B,读作,读作“或或A发生,或发生,或B发生发生” 例如,有一批种子,包含有能发芽的和不能发芽的例如,有一批种子,包含有能发芽的和不能发芽的若若A为为“取到能发芽种子取到能发芽种子”,,B为为“取到不能发芽种子取到不能发芽种子”,,则则A+B为为“或者取到能发芽种子或者取到不能发芽种子或者取到能发芽种子或者取到不能发芽种子”。
事件间的和事件可以推广到多个事件:事件事件间的和事件可以推广到多个事件:事件A1、、A2、、…、、An至少有一发生而构成的新事件称为事件至少有一发生而构成的新事件称为事件A1、、A2、、…、、An的和事件,记为的和事件,记为A1+A2+…+An= (二二) 积事件积事件 事件事件A和和B同时发生所构成的新事件称为事件同时发生所构成的新事件称为事件A和和B的的积积事件事件,记作,记作ABAB,读作,读作“A和和B同时发生或相继发生同时发生或相继发生” 事件间的积事件也可以推广到多个事件:事件事件间的积事件也可以推广到多个事件:事件A1、、A2、、…、、An同时发生所构成的新事件称为这同时发生所构成的新事件称为这n个事件的积事件,个事件的积事件,记作记作A1A2…An= (三三) 互斥事件互斥事件 事件事件A和和B不可能同时发生,即不可能同时发生,即AB为不可能事件,记作为不可能事件,记作A·B=V,称事件,称事件A和和B互斥或互不相容互斥或互不相容 例如,有一袋种子,按种皮分黄色和白色若记例如,有一袋种子,按种皮分黄色和白色。
若记A为为“取取到黄色到黄色”,,B为为“取到白色取到白色”,显然,显然A和和B不可能同时发生,不可能同时发生,即一粒种子不可能既为黄色又为白色,说明事件即一粒种子不可能既为黄色又为白色,说明事件A和和B互斥 这一定义也可以推广到这一定义也可以推广到n个事件事件个事件事件A1、、A2、、…、、An不不可能同时发生所构成的新事件称为这可能同时发生所构成的新事件称为这n个事件互斥或互不相容,个事件互斥或互不相容,记作记作A1·A2…·An=V (四四) 对立事件对立事件 事件事件A和和B不可能同时发生,但必发生其一,即不可能同时发生,但必发生其一,即A+B为为必然事件必然事件(记为记为A+B=U),,AB为不可能事件为不可能事件(记为记为A·B=V),),则称事件则称事件B为事件为事件A的的对立事件对立事件,并记,并记B为为 例如,上面例子中例如,上面例子中A为为“取到黄色取到黄色”,,B为为“取到白色取到白色”,,A与与B不可能同时发生,但是,任意抽取一粒种子,其不可能同时发生,但是,任意抽取一粒种子,其皮色不是黄色就是白色,即皮色不是黄色就是白色,即A和和B必发生其一,因此,必发生其一,因此,A和和B互为对立事件。
互为对立事件积事件积事件AB和事件和事件A+BABAB互斥事件互斥事件 对立事件对立事件 AB(五五) 完全事件系完全事件系 若事件若事件A1、、A2、、…、、An两两互斥,且每次试验结果必发两两互斥,且每次试验结果必发生其一,则称生其一,则称A1、、A2、、…、、An为为完全事件系完全事件系 例如,仅有三类花色:黄色、白色和红色,则取一朵花,例如,仅有三类花色:黄色、白色和红色,则取一朵花,“取到黄色取到黄色”、、“取到白色取到白色”和和“取到红色取到红色”就构成完全事就构成完全事件系(六六) 事件的独立性事件的独立性 若事件若事件A发生与否不影响事件发生与否不影响事件B发生的可能性,则称事发生的可能性,则称事件件A和事件和事件B相互独立相互独立 例如,事件例如,事件A为为“花的颜色为黄色花的颜色为黄色”,事件,事件B为为“产产量高量高”,显然如果花的颜色与产量无关,显然如果花的颜色与产量无关,则事件则事件A与事件与事件B相互独立相互独立三、计算事件概率的法则三、计算事件概率的法则(一一) 互斥事件的加法互斥事件的加法 (二二) 独立事件的乘法独立事件的乘法(三三) 对立事件的概率对立事件的概率(四四) 完全事件系的概率完全事件系的概率(五五) 非独立事件的乘法非独立事件的乘法 (一一) 互斥事件的加法互斥事件的加法 假定两互斥事件假定两互斥事件A和和B的概率分别为的概率分别为P(A)和和P(B)。
则则事件事件A与与B的和事件的概率等于事件的和事件的概率等于事件A的概率与事件的概率与事件B的概的概率之和,即率之和,即P(A+B)=P(A)+P(B) 加法定理对于多个两两互斥的事件也成立:假定加法定理对于多个两两互斥的事件也成立:假定A1、、A2、、…、、An n个事件彼此间均是两两互斥的事件,其概个事件彼此间均是两两互斥的事件,其概率依次为率依次为P(A1),P(A2),…,P(An),则,则A1,,A2到到An和事和事件的概率件的概率P(A1+A2+ … +An)等于等于P(A1),P(A2),…,P(An)之和,即之和,即P(A1+A2+ … +An)=P(A1)+P(A2)+ … +P(An) 例如,一捆花中红、黄、白花的概率分别为例如,一捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取一朵非白色花的概率为,那么我们随机抽取一朵非白色花的概率为0.5(=0.2+0.3),这只是由加法定理得到的两个事件概这只是由加法定理得到的两个事件概率之和(二二) 独立事件的乘法独立事件的乘法 假定假定P(A)和和P(B)是两个独立事件是两个独立事件A与与B各自出现的概率,各自出现的概率,则事件则事件A与与B同时出现的概率等于两独立事件出现概率同时出现的概率等于两独立事件出现概率P(A)与与P(B)的乘积,即的乘积,即P(AB)=P(A)P(B) 乘法定理对于乘法定理对于n个相互独立的事件也成立。
假定个相互独立的事件也成立假定P(A1),,P(A2),…,P(An)是是n个相互独立事件各自出现的概率,则该个相互独立事件各自出现的概率,则该n个事件同时出现的概率个事件同时出现的概率P(A1A2…An)等于各自出现概率之乘积,等于各自出现概率之乘积,即即P(A1A2…An)=P(A1)P(A2)…P(An) 现有现有4粒种子,其中粒种子,其中3粒为黄色、粒为黄色、1粒为白色,采用粒为白色,采用复置抽样试求下列两事件的概率:复置抽样试求下列两事件的概率:(A)第一次抽到黄色、第二次抽到白色;第一次抽到黄色、第二次抽到白色;(B)两次都抽到黄色两次都抽到黄色 由于采用复置抽样由于采用复置抽样(即每一次抽出观察结果后又放回即每一次抽出观察结果后又放回再进行下一次抽样再进行下一次抽样),所以第一次和第二次的抽样结果,所以第一次和第二次的抽样结果间是相互独立的间是相互独立的 采用概率的古典定义,可以求出抽到黄色种子的概采用概率的古典定义,可以求出抽到黄色种子的概率为率为0.75,抽到白色种子的概率为,抽到白色种子的概率为0.25因此,有因此,有P(A)=P(第一次抽到黄色种子第一次抽到黄色种子)P(第二次抽到白色种子第二次抽到白色种子) =0.25×0.75=0.1875,,P(B)=P(第一次黄色种子第一次黄色种子)P(第二次黄色种子第二次黄色种子) =0.75×0.75=0.5625。
(三三) 对立事件的概率对立事件的概率 若事件若事件A的概率为的概率为P(A),那么其对立事件的概率为:,那么其对立事件的概率为: (四四) 完全事件系的概率完全事件系的概率 完全事件系的概率为完全事件系的概率为1 例如例如“从从10个数字中随机抽得任何一个数字都可个数字中随机抽得任何一个数字都可以以”这样一个事件是完全事件系,其概率为这样一个事件是完全事件系,其概率为1 (五五) 非独立事件的乘法非独立事件的乘法 如果事件如果事件A和和B是非独立的,那么事件是非独立的,那么事件A与与B同时发同时发生的概率为事件生的概率为事件A的概率的概率P(A)乘以事件乘以事件A发生的情况下发生的情况下事件事件B发生的概率发生的概率P(B|A),即:即:P(AB)=P(A)P(B|A)四、随机变量四、随机变量 随机变量是指随机变数所取的某一个实数值随机变量是指随机变数所取的某一个实数值 例例1:抛硬币试验,硬币落地后只有两种可能结果::抛硬币试验,硬币落地后只有两种可能结果:币值面向上和国徽面向上,用数币值面向上和国徽面向上,用数“1”表示表示“币值面向上币值面向上”,用数,用数“0”表示表示“国徽面向上国徽面向上”。
把把0,1作为变量作为变量y的取值在讨论试验结果时,就可以简单地把抛硬币试的取值在讨论试验结果时,就可以简单地把抛硬币试验用取值为验用取值为0,1的变量来表示的变量来表示 P(y=1)=0.5,P(y=0)=0.5 例例2:用:用“1”表示表示“能发芽种子能发芽种子”,其概率为,其概率为p;用;用“0”表示表示“不能发芽种子不能发芽种子”,其概率为,其概率为q显然 p+q=1,,则则 P(y=1)=p,,P(y=0)=q=1-p 例例3:用变量:用变量y表示水稻产量,若表示水稻产量,若y大于大于500kg的概率的概率为为0.25,大于,大于300kg且等于小于且等于小于500kg的概率为的概率为0.65,等于,等于小于小于300kg的概率为的概率为0.1 则用变量则用变量y的取值范围来表示的试验结果为的取值范围来表示的试验结果为 P(y≤300)=0.10, P(300<y≤500)=0.65, P(y>500)=0.25。
离散型随机变量离散型随机变量 ----当试验只有几个确定的结果,并可当试验只有几个确定的结果,并可一一列出,变量一一列出,变量y的取值可用实数表示,且的取值可用实数表示,且y取某一值时,其概取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量率是确定的,这种类型的变量称为离散型随机变量 将这种变量的所有可能取值及其对应概率一一列出所形成将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:的分布称为离散型随机变量的概率分布: 概率概率变量量yiy1y2y3……ynP1P2P3…… Pn也可用函数也可用函数f(y)表述,称为概率函数表述,称为概率函数 前面例前面例1、例、例2中的中的y就是离散型随机变量,将其可能取就是离散型随机变量,将其可能取值与对应概率一一列出,即为:值与对应概率一一列出,即为:变量变量y01概率概率0.50.5变量变量y01概率概率qp 连续型随机变量连续型随机变量(continuous random variate)(continuous random variate) ----对于随机变量,若存在非负可积函数对于随机变量,若存在非负可积函数f(y)(-∞<<y<+<+∞),对任意,对任意a和和b(a<b)都有都有P(a≤y<b)= ,则称,则称y为为连续型随机变量连续型随机变量(continuous random variate)(continuous random variate),,f(y)称称为为y的的概率密度函数概率密度函数(probability density function)(probability density function)或或分布密度分布密度(distribution density)(distribution density)。
上述例上述例3中的中的y就是一个连续型随机变量就是一个连续型随机变量第二节第二节 二项式分布二项式分布一、二项总体及二项式分布一、二项总体及二项式分布二、二项式分布的概率计算方法二、二项式分布的概率计算方法三、二项式分布的形状和参数三、二项式分布的形状和参数四、多项式分布四、多项式分布一、二项总体及二项式分布一、二项总体及二项式分布 所谓 所谓二项总体二项总体( binary population )( binary population ),就是非此即彼的,就是非此即彼的两项构成的总体.两项构成的总体. 例如:小麦种子发芽和不发芽,大豆子叶色为黄色和青例如:小麦种子发芽和不发芽,大豆子叶色为黄色和青色,调查棉田盲蝽象为害分为受害株和不受害株等等色,调查棉田盲蝽象为害分为受害株和不受害株等等 通常将二项总体中的 通常将二项总体中的“此此”事件以变量事件以变量“1”表示,具概表示,具概率率p;将;将“彼彼”事件以变量事件以变量“0”表示,具概率表示,具概率q因而二项总因而二项总体又称为体又称为0、1总体,其概率则显然有:总体,其概率则显然有:p+q=1或或q=1-p 如果从二项总体进行如果从二项总体进行n次重复抽样,设出现次重复抽样,设出现“此此”的次数为的次数为y,那么,那么y的取值可能为的取值可能为0、1、2、…、n,共有,共有n+1种可能取值,这种可能取值,这n+1种取值各有其概率,因而由变量种取值各有其概率,因而由变量y及其概率就构成了一个分布,这个分布叫做及其概率就构成了一个分布,这个分布叫做二项式概率分二项式概率分布布,简称,简称二项式分布二项式分布或或二项分布二项分布( binomial ( binomial distribution )distribution )。
二项总体的抽样试验具有二项总体的抽样试验具有重复性和独立性重复性和独立性..Ø 重复性重复性是指每次试验条件不变,即在每次试验中是指每次试验条件不变,即在每次试验中“此此”事件出现的概率皆为事件出现的概率皆为p.. Ø 独立性独立性是指任何一次试验中是指任何一次试验中“此此”事件的出现与其事件的出现与其余各次试验中出现何种结果无关.余各次试验中出现何种结果无关.二、二项式分布的概率计算方法二、二项式分布的概率计算方法 例:在由具有一对基因差异的亲本杂交形成的例:在由具有一对基因差异的亲本杂交形成的F2代群体中,出现黄色子叶的概率为代群体中,出现黄色子叶的概率为0.75,出现青色子,出现青色子叶的概率为叶的概率为0.25,这是二项总体的概率分布如果从,这是二项总体的概率分布如果从这种总体抽取这种总体抽取3(n)粒,那么得到粒,那么得到1(y)粒是黄子叶的概粒是黄子叶的概率是多少呢?率是多少呢? 抽取三粒种子抽取三粒种子(以以Y代黄子叶,以代黄子叶,以G代青子叶代青子叶),,即即n=3,有两粒黄子叶种子,即,有两粒黄子叶种子,即y=2,这时有,这时有3种不同种不同组合:组合: GGY,GYG,YGG。
出现第一粒,第二粒出现第一粒,第二粒和第三粒种子是互不影响的,因此这三个事件是独和第三粒种子是互不影响的,因此这三个事件是独立事件,由乘法法则可得:立事件,由乘法法则可得: 由于这三个事件都是相互互斥的,所以出现两粒黄子由于这三个事件都是相互互斥的,所以出现两粒黄子叶种子叶种子(y=2)的概率为这三种概率之和:的概率为这三种概率之和:上述结果也可以表示为:上述结果也可以表示为: 即复合事件的概率必等于该事件出现的组合数目乘即复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;而这一复合事件的可能组合数目以单个事件的概率;而这一复合事件的可能组合数目则相当于从则相当于从n(3)个物体中任取其个物体中任取其y(2)个物体的组合数个物体的组合数数学上的组合公式为:数学上的组合公式为: 二项式中包含两项,这两项的概率为二项式中包含两项,这两项的概率为p、q,并且,并且p+q=1,可推知变量,可推知变量y的概率函数为:的概率函数为:累积函数累积函数F(y)F(y):变量小于等于:变量小于等于y的所有可能取值的概率之和的所有可能取值的概率之和理论次数理论次数:对于任意:对于任意y,理论次数,理论次数=nP(y) 这一分布律也称这一分布律也称贝努里贝努里( Bernoulli )分布分布,并有,并有 的泰勒展开式为:的泰勒展开式为: 可以看到,上式右边的每一项即为二项分布中变量可以看到,上式右边的每一项即为二项分布中变量y 取取0、1、2、…、n时的概率,又时的概率,又p+q=1,从而,从而 (p+q)n=1 [例例4.1] 棉田盲蝽象为害的统计概率乃从调查棉田盲蝽象为害的统计概率乃从调查2000株后株后获得近似值获得近似值p=0.35。
现受害株事件为现受害株事件为A,其概率为,其概率为p=0.35,,未受害株事件为对立事件,其概率未受害株事件为对立事件,其概率q=(1--0.35)=0.65这一试验是可以重复的假定做了试验是可以重复的假定做了n次试验,即抽出次试验,即抽出n株为一个抽株为一个抽样单位,那么,试问出现有样单位,那么,试问出现有y株是受害的,其概率应有多少?株是受害的,其概率应有多少? 假定以假定以n=1,即抽出一株为一个抽样单位,这里已知,即抽出一株为一个抽样单位,这里已知P(A)=0.35和和P( )=0.65,总体的理论次数分布则以,总体的理论次数分布则以n乘上述乘上述概率分布,即概率分布,即np和和n(1--p),所以有,所以有2000×0.35=700株受害株受害和和2000×0.65=1300株未受害株未受害 如调查如调查5株为一个抽样单位,即株为一个抽样单位,即n=5,则受害株数,则受害株数y=0,1,2,3,4和和5的概率可以计算出来,如表的概率可以计算出来,如表4.2棉株受害数乃一随机变数受害数乃一随机变数(y),可以计算变量,可以计算变量y相应的概率函相应的概率函数数 如果每次抽如果每次抽5个单株,抽个单株,抽n=400次,则理论上我们能次,则理论上我们能够得到够得到y=2的次数应为:的次数应为: 理论次数理论次数=400×P(2)=400×0.3364=134.56(次次)图图4.1和图和图4.2给出了概率函数图和累积概率函数图给出了概率函数图和累积概率函数图 和其累计函数和其累计函数表表4.2 调查单位位为5株的概率分布表株的概率分布表( (p=0.35,q=0.65) )受害株数概率函数P(y)P(y)F(y)nP(y)P(0)0.11600.116046.40P(1)0.31240.4284124.96P(2)0.33640.7648134.56P(3)0.18110.945972.44P(4)0.04880.994719.52P(5)0.00531.00002.12 受害株数受害株数(y) 受害株数受害株数(y)图图4.1 棉株受盲蝽象为害的概率分布图棉株受盲蝽象为害的概率分布图(p=0.35,n=5) 图图4.2 棉株受盲蝽象为害的累积棉株受盲蝽象为害的累积概率函数概率函数F(y)图图 (p=0.35,n=5) [例例4.2] 某种昆虫在某地区的死亡率为某种昆虫在某地区的死亡率为40%,即,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽样,现对这种害虫用一种新药进行治疗试验,每次抽样10头头作为一组治疗。
试问如新药无疗效,则在作为一组治疗试问如新药无疗效,则在10头中死头中死3头、头、2头、头、1头,以及全部愈好的概率为多少?头,以及全部愈好的概率为多少?按上述二项分布概率函数式计算按上述二项分布概率函数式计算 7头愈好,头愈好,3头死去概率:头死去概率:8头愈好,头愈好,2头死去概率:头死去概率:9头愈好,头愈好,1头死去概率:头死去概率:10头全部愈好的概率:头全部愈好的概率: 若问若问10头中不超过头中不超过2头死去的概率为多少?则应该头死去的概率为多少?则应该应用累积函数,即应用累积函数,即三、二项式分布的形状和参数三、二项式分布的形状和参数 图图4.3为上述棉株受害概率如为上述棉株受害概率如p=1/2时的概率分布图时的概率分布图从图从图4.1和和4.3可看出,如可看出,如p=q,二项式分布呈对称形状,,二项式分布呈对称形状,如如p≠q,则表现偏斜形状则表现偏斜形状 受害株数受害株数( y) 图4.3 棉株受盲椿害的概率函数f(y)图(p=0.5,,n=5株) 受害株数受害株数(y) 图图4.1 棉株受盲蝽象为害的概率分棉株受盲蝽象为害的概率分布图布图(p=0.35,n=5) 二项式分布的参数二项式分布的参数 仍以上述棉株受害为例,抽取仍以上述棉株受害为例,抽取5株中受害株数的多少株中受害株数的多少(y)作为统计指标的话,从总体中可以抽取的所有样本均有一个作为统计指标的话,从总体中可以抽取的所有样本均有一个y,这样所有的,这样所有的y构成了一个新总体,该总体也属于二项式总体,构成了一个新总体,该总体也属于二项式总体,其平均数、方差和标准差如下式其平均数、方差和标准差如下式 从而,上述棉田受害率调查结果,从而,上述棉田受害率调查结果,n=5,p=0.35,可求得,可求得总体参数为:总体参数为: =5×0.35=1.75株,株, 株。
株四、多项式分布四、多项式分布 所谓所谓多项总体多项总体,是指将变数资料分为,是指将变数资料分为3类或多类的类或多类的总体 例如在给某一人群使用一种新药,可能有的疗效好,例如在给某一人群使用一种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,就是三项分布有的没有疗效,而另有疗效为副作用的,就是三项分布 多项总体的随机变量的概率分布即为多项总体的随机变量的概率分布即为多项式分布多项式分布( ( multinomial distribution )multinomial distribution ) 设总体中共包含有设总体中共包含有k项事件,它们的概率分别为项事件,它们的概率分别为p1、、p2、、p3、、…、、pk,显然,显然p1+p2+p3+…+pk=1若从这种若从这种总体随机抽取总体随机抽取n个个体,那么可能得到这个个体,那么可能得到这k项的个数分项的个数分别为别为y1、、y2、、y3、、…、、yk,显然,显然y1+y2+y3+…+yk=n那么得到这样一个事件的概率为:么得到这样一个事件的概率为: 多项分布的概率计算多项分布的概率计算 [例例4.3] 某药对病人有效的概率为某药对病人有效的概率为1/2,对病人无效的,对病人无效的概率为概率为1/3,有副作用的概率为,有副作用的概率为1/6,若随机抽取,若随机抽取2个使用个使用该药的病人,那么我们的结果可能包括这样几种事件:该药的病人,那么我们的结果可能包括这样几种事件:2个病人有副作用;一个无效、一个有副作用;两个无效;个病人有副作用;一个无效、一个有副作用;两个无效;一个有效、一个有副作用;一个有效、一个无效;两个一个有效、一个有副作用;一个有效、一个无效;两个均有效。
这几种事件的概率分别为多少呢?可以使用上均有效这几种事件的概率分别为多少呢?可以使用上述的概率分布公式来计算,如表述的概率分布公式来计算,如表4.3表表4.3 多多项式分布的概率式分布的概率计算算变 量(y1、y2、y3)概率及其计算P(y1、y2、y3)(0,0,2)(0,1,1)(0,2,0)(1,0,1)(1,1,0)(2,0,0)五、泊松分布五、泊松分布—二项分布的一种极限分布二项分布的一种极限分布 二项分布中往往会遇到一个概率二项分布中往往会遇到一个概率p或或q是很小的值,例如是很小的值,例如小于小于0.1,另一方面,另一方面n又相当大,这样的二项分布必将为另又相当大,这样的二项分布必将为另一种分布所接近,或者为一种极限分布这一种分布称泊一种分布所接近,或者为一种极限分布这一种分布称泊松概率分布,简称松概率分布,简称泊松分布泊松分布( Poisson distribution )( Poisson distribution )令令np=m,则泊松分布如下式:,则泊松分布如下式:y=0,1,2,…,∞ e=2.71828…为自然对数的底数为自然对数的底数 凡在观察次数凡在观察次数n相当大时,某一事件出现的平均次数相当大时,某一事件出现的平均次数m(m是一个定值是一个定值)很小,那么,这一事件出现的次数将符很小,那么,这一事件出现的次数将符合泊松分布。
合泊松分布 泊松分布的平均数泊松分布的平均数 、方差、方差 和标准差和标准差 如下式如下式: 这一分布包括这一分布包括一个参数一个参数m,由,由m的的大小决定其分布形状大小决定其分布形状如图如图4.4当m值小值小时分布呈很偏斜形状,时分布呈很偏斜形状,m增大后则逐渐对称增大后则逐渐对称图4.4 不同m值的泊松分布 [例例4.4] 1907年年Student氏进行以血球计计数酵母细氏进行以血球计计数酵母细胞精确度试验如这种计数技术是有效地合适,则在每胞精确度试验如这种计数技术是有效地合适,则在每一平方格的细胞数目理论上应作为一个泊松分布一平方格的细胞数目理论上应作为一个泊松分布 表表4.4是从是从1mm2分为分为400个平方格的结果总共计数个平方格的结果总共计数的细胞数为的细胞数为1872个,因之平均数个,因之平均数m=1782/400=4.68理论次数须从泊松分布的概率计算,即从次数须从泊松分布的概率计算,即从(p+q)n的极限为:的极限为:其中其中y=0,1,2,3,… 是是 的泰勒展开式的泰勒展开式(4·8) 表4.4 血球计所计数的每平方格内酵母细胞数酵母酵母细胞数胞数012345678次次 数数…2043538670543718理理 论 次次 数数3.7117.3740.6563.4174.1969.4454.1636.2121.18酵母酵母细胞数胞数910111213141516总次次 数数10522…………400理理 论 次次 数数11.025.162.190.860.310.100.030.01400.00本例本例m=4.68,e-m=(2.71828)-4.68=0.009275,,0.009275×400=3.71. 3.71是理论次数第一项,其他各理论是理论次数第一项,其他各理论次数均可按次数均可按(4·8)计算。
概率值乘以计算概率值乘以400得理论次数得理论次数本例标准差估计值为本例标准差估计值为 第三节第三节 正态分布正态分布一、二项分布的极限一、二项分布的极限—正态分布正态分布二、正态分布曲线的特性二、正态分布曲线的特性三、计算正态分布曲线区间面积或概率的方法三、计算正态分布曲线区间面积或概率的方法一、二项分布的极限一、二项分布的极限—正态分布正态分布 以上述二项分布棉株受害率为例,假定受害概率以上述二项分布棉株受害率为例,假定受害概率p=1/2,那么,,那么,p=q=1/2现假定每个抽样单位包括现假定每个抽样单位包括20株,株,这样将有这样将有21个组,其受害株的概率函数为个组,其受害株的概率函数为 于是概率分布计算如下:于是概率分布计算如下: 现将这概率分布绘于图现将这概率分布绘于图4.5从图4.5看出它是对看出它是对称的,分布的平均数称的,分布的平均数 和方差和方差 为:为: =npq=20(1/2)(1/2)=5(株株)2 np=20(1/2)=10(株株),, 图4.5 棉株受害率(0.5+0.5)20分布图(实线表示二项 式概率分布,虚线表示接近的正态分布曲线)Ø如如p=q,不论,不论n值值大或小,二项分布大或小,二项分布的多边形图必形成的多边形图必形成对称;对称;Ø如如p≠q,而,而n很大很大时,这多边形仍趋时,这多边形仍趋对称对称。
倘倘n或组数增加到无穷多时或组数增加到无穷多时(n→∞),多边形的折线,多边形的折线就表现为一个光滑曲线这个光滑曲线在数学上的意义就表现为一个光滑曲线这个光滑曲线在数学上的意义是一个二项分布的极限曲线是一个二项分布的极限曲线,属于连续性变数分布曲线属于连续性变数分布曲线,一般称之为一般称之为正态分布曲线正态分布曲线或或正态概率密度曲线正态概率密度曲线可以推导出正态分布的概率密度函数为:导出正态分布的概率密度函数为: (4·9) 其中,其中,y是所研究的变数;是所研究的变数; 是概率密度函数;是概率密度函数; 和和 为总体参数,为总体参数, 表示所研究总体平均数,表示所研究总体平均数, 表表示所研究总体标准差,不同正态分布可以有不同的示所研究总体标准差,不同正态分布可以有不同的 和和 ,但某一定总体的,但某一定总体的 和和 是常数 参数参数 和和 有如下的数学表述有如下的数学表述 (4·10) 令令 可将可将(4·9)式标准化为:式标准化为: (4·11) 上式称上式称为标准化正准化正态分布方程,它是参数分布方程,它是参数 时的正态分布时的正态分布(图图4.7)。
记作记作N(0,1) 正态分布的曲线图正态分布的曲线图 -3 -2 -1 0 1 2 3图图4.6 正态分布曲线图正态分布曲线图(平均数为平均数为 ,标准差为,标准差为 )图图4.7 标准正态分布曲线图标准正态分布曲线图(平均数平均数 为为0,标准差,标准差 为为1)二、正态分布曲线的特性二、正态分布曲线的特性 1. 正态分布曲线是以正态分布曲线是以y = 为对称轴,向左右两侧作对称为对称轴,向左右两侧作对称分布,所以它是一个对称曲线从所竖立的纵轴分布,所以它是一个对称曲线从所竖立的纵轴f(y= )是最是最大值,所以正态分布曲线的算术平均数、中数和众数是相等大值,所以正态分布曲线的算术平均数、中数和众数是相等的,三者均合一位于点的,三者均合一位于点 上 2. 正态分布曲线以参数正态分布曲线以参数 和和 的不同而表现为一系列曲的不同而表现为一系列曲线,所以它是一个曲线簇而不仅是一个曲线线,所以它是一个曲线簇而不仅是一个曲线 确定它在横轴确定它在横轴上的位置,而上的位置,而 确定它的变异度,不同确定它的变异度,不同 和和 的正态总体具的正态总体具有不同的曲线和变异度,所以任何一个特定正态曲线必须在有不同的曲线和变异度,所以任何一个特定正态曲线必须在其其 和和 确定后才能确定。
图确定后才能确定图4.8 和和4.9表示这个区别表示这个区别图图4.8 标准差相同标准差相同( 1)而平均数不而平均数不同同( =0、、 =1、、 =2)的三个正态分布曲线的三个正态分布曲线 图图4.9 平均数相同平均数相同( 0)而标准差不而标准差不同同( =1、 =1.5、 =2)的三个正态的三个正态分布曲线分布曲线 3. 正态分布资料的次数分布表现为多数次数集中于算术平正态分布资料的次数分布表现为多数次数集中于算术平均数均数 附近,离平均数越远,其相应的次数越少;且在附近,离平均数越远,其相应的次数越少;且在 左右左右相等相等| |范围内具有相等次数;在范围内具有相等次数;在| |≥3 以上其次数极以上其次数极少 4. 正态曲线在正态曲线在| |=1 处有处有“拐点拐点”曲线两尾向左右曲线两尾向左右伸展,永不接触横轴,所以当伸展,永不接触横轴,所以当y→±∞,分布曲线以,分布曲线以y轴为渐近线,轴为渐近线,因之曲线全距从-因之曲线全距从-∞到到+∞。
5. 正态曲线与横轴之间的总面积等于正态曲线与横轴之间的总面积等于1,因此在曲线下横轴,因此在曲线下横轴的任何定值,例如从的任何定值,例如从y=y1到到y=y2之间的面积,等于介于这两个之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于定值间面积占总面积的成数,或者说等于y落于这个区间内的落于这个区间内的概率 正态曲线的任何两个正态曲线的任何两个y定值定值ya与与yb之间的面积或概率乃完之间的面积或概率乃完全以曲线的全以曲线的 和和 而确定的详细数值见附表而确定的详细数值见附表2,下面为几,下面为几对常见的区间与其相对应的面积或概率的数字:对常见的区间与其相对应的面积或概率的数字: 区间区间 ±1 面积或概率面积或概率=0.6827 ±2 =0.9545 ±3 =0.9973 ±1.960 =0.9500 ±2.576 =0.9900 例如,上章水稻例如,上章水稻140行产量资料的样本分布表现出接近行产量资料的样本分布表现出接近正态分布,其平均数正态分布,其平均数( )、标准差、标准差(s)以及离均差为以及离均差为1、2和和3个标准差的区间所包括的次数列于表个标准差的区间所包括的次数列于表4.5。
实验的结果与正态实验的结果与正态分布的理论结果很相近分布的理论结果很相近 ±ks数值(g)区间(g)区间内包括的次数次数%±1s157.9± 36.4121.5~194.5 99 70.71±2s157.9± 72.8 85.1~230.7134 95.71±3s157.9±109.2 48.7~267.1140100.00表表4.5 140行水稻产量在行水稻产量在 ±1s,, ±2s,, ±3s范围内所包括的次数表范围内所包括的次数表三、计算正态分布曲线区间面积或概率的方法三、计算正态分布曲线区间面积或概率的方法 在正态分布曲线下,在正态分布曲线下,y的定值从的定值从y=a到到y=b间的概率可用曲线间的概率可用曲线下区间的面积来表示,或者说,用其定积分的值表示,如图下区间的面积来表示,或者说,用其定积分的值表示,如图4.10所示的面积所示的面积4·13)同样可以计算曲线下从同样可以计算曲线下从-∞到到y的面积,其公式如下:的面积,其公式如下:(4·14) 这里这里FN(y)称为正态分布的累积函数,具有平均数称为正态分布的累积函数,具有平均数 和和标准差标准差 。
A=P(a 的概率 所有正态分布都可以转换为标准化正态分布方程式所有正态分布都可以转换为标准化正态分布方程式首先计算:首先计算:先将先将y转换为转换为u值值 然后查表计算概率然后查表计算概率 同理可得:同理可得: FN(40)=0.9773 所以:所以:P(26<y≤40)=FN(40)--FN(26)=0.9773--0.2119 = 0.7654 P(y>40)=1-P(y≤40)=1-0.9773 =0.0227 查附表查附表2,当,当u=-0.8时,时,FN(26)=0.2119,说明这,说明这一分布从一分布从--∞到到26范围内的变量数占全部变量数的范围内的变量数占全部变量数的21.19%,或者说,,或者说,y≤26概率为概率为0.2119.图4.12 概率计算图示 [例例4.5] 在应用正态分布时,经常要讨论随机变数在应用正态分布时,经常要讨论随机变数y离其平均数的差数大于或小于若干个值的概率例如计离其平均数的差数大于或小于若干个值的概率例如计算离均差绝对值等于小于和等于大于算离均差绝对值等于小于和等于大于1 的概率为:的概率为:也可以简写为也可以简写为 相应地,离均差绝对值等于小于相应地,离均差绝对值等于小于2 、等于大于、等于大于2 、等、等于小于于小于3 和等于大于和等于大于3 的概率值为:的概率值为:以上结果解释了正态分布曲线的概率特性,可参考图以上结果解释了正态分布曲线的概率特性,可参考图4.13。 图图4.13 离均差的绝对值离均差的绝对值≤1 , 2 和和1.96 的概率值的概率值 [例例4.6] 计算正态分布曲线的中间概率为计算正态分布曲线的中间概率为0.99时,时,其其y或或u值应等于多少?值应等于多少? 因为正态分布是对称的,故在曲线左边从-因为正态分布是对称的,故在曲线左边从-∞到-到- u的概率和在曲线右边从的概率和在曲线右边从u到到∞的概率都应等于的概率都应等于1/2(1--0.99)=0.005 查表,查表,u=--2.58时,时, fN(y) =0.00494≈0.005 于是知,当于是知,当 ±2.58时,在其范围内包括时,在其范围内包括99%的的变量,仅有变量,仅有1%变量在此范围之外上述结果写作:变量在此范围之外上述结果写作:同理可求得:同理可求得: 以上以上 乃正态曲线下左边一尾乃正态曲线下左边一尾y从从--∞到到 上的面积和右边一尾上的面积和右边一尾y从从 到到∞上的面积之和,亦可写成:上的面积之和,亦可写成:同理,同理, 亦可写成:亦可写成: 以上两式等号右侧的前一项为以上两式等号右侧的前一项为左尾概率左尾概率,后一项为,后一项为右右尾概率尾概率,其和概率称为,其和概率称为两尾概率值两尾概率值。 在附表3列出了两尾概率取某一值时的临界在附表3列出了两尾概率取某一值时的临界u值值(正态正态离差离差u值值),可供直接查用可供直接查用 例如,可查得例如,可查得P=0.01时时u=2.5758,P=0.05时时u=1.9599,即表示:,即表示: P(|u|≥2.5758)=0.01, P(|u|≥1.9599)=0.05如果仅计算一尾,则为一尾概率值例如计算如果仅计算一尾,则为一尾概率值例如计算 P(u≥1.6448)=P(|u|≥1.6448)=(0.1)=0.05这个这个0.05称为称为y值大于值大于 的一尾概率值的一尾概率值当概率一定时,两尾概率的当概率一定时,两尾概率的|u|总是大于一尾概率总是大于一尾概率|u|第四节第四节 抽样分布抽样分布统计学的一个主要任务是研究总体和样本之间的关系统计学的一个主要任务是研究总体和样本之间的关系 两个方向两个方向 从总体到样本的方向从总体到样本的方向, 即本节所要讨论的抽样分布即本节所要讨论的抽样分布 从样本到总体的方向,即统计推断问题。 从样本到总体的方向,即统计推断问题抽样分布抽样分布( sampling distribution )( sampling distribution )是统计推断的基础是统计推断的基础 一、统计数的抽样及其分布参数一、统计数的抽样及其分布参数二、正态总体的抽样分布二、正态总体的抽样分布三、二项总体的抽样分布三、二项总体的抽样分布一、统计数的抽样及其分布参数一、统计数的抽样及其分布参数 从总体中随机抽样得到样本,获得样本观察值后可以从总体中随机抽样得到样本,获得样本观察值后可以计算一些统计数,统计数分布称为计算一些统计数,统计数分布称为抽样分布抽样分布 抽样抽样 复置抽样复置抽样,指将抽得的个体放回总体后再继续抽样,指将抽得的个体放回总体后再继续抽样不复置抽样不复置抽样,指将抽得的个体不放回总体而继续进行抽样,指将抽得的个体不放回总体而继续进行抽样(一一) 样本平均数的抽样及其分布参数样本平均数的抽样及其分布参数总体总体随机样本随机样本1 2 3 无穷个样本无穷个样本 ……图图4.14 总体和样本的关系总体和样本的关系 如图如图4.14从一从一个总体进行随机抽个总体进行随机抽样可以得到许多样样可以得到许多样本,如果总体是无本,如果总体是无限总体,那么可以限总体,那么可以得到无限多个随机得到无限多个随机样本。 样本 如果从容量为如果从容量为N的有限总体抽样,若每次抽取容量为的有限总体抽样,若每次抽取容量为n的的样本,那么一共可以得到样本,那么一共可以得到 个样本个样本(所有可能的样本个数所有可能的样本个数) 抽样所得到的每一个样本可以计算一个平均数,全部可能抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数,如的样本都被抽取后可以得到许多平均数,如 等 如果将抽样所得到的所有可能的样本平均数集合起来便构如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量成一个新的总体,平均数就成为这个新总体的变量 由平均数构成的新总体的分布,称为平均数的由平均数构成的新总体的分布,称为平均数的抽样分布抽样分布 随机样本的任何一种统计数都可以是一个变量,这种变量随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的的分布称为统计数的抽样分布抽样分布除平均数抽样分布外还有总和数、方差的抽样分布等除平均数抽样分布外还有总和数、方差的抽样分布等。 新总体与母总体在特征参数上存在函数关系以平均新总体与母总体在特征参数上存在函数关系以平均数抽样分布为例,这种关系可表示为以下两个方面数抽样分布为例,这种关系可表示为以下两个方面 (1) 该抽样分布的平均数该抽样分布的平均数 与母总体的平均数相等与母总体的平均数相等 (4·17) (2) 该抽样分布的方差与母总体方差间存在如下关系:该抽样分布的方差与母总体方差间存在如下关系: (4·18) 其中其中n为样本容量抽样分布的标准差又称为标准误,为样本容量抽样分布的标准差又称为标准误,它可以度量抽样分布的变异它可以度量抽样分布的变异 [例例4.7] 设有一总体设有一总体N=3 (例例2,4,6)以样本容量以样本容量n=1、、n=2、n=4及及n=8,从总体中进行复置抽样,抽出全部样本于,从总体中进行复置抽样,抽出全部样本于表表4.6 表表4.6中列出这些不同样本容量的中列出这些不同样本容量的 抽样分布,并在图抽样分布,并在图4.15用方柱形图表示其分布形状用方柱形图表示其分布形状由表中第一列当由表中第一列当N=3,n=1的总体平均数和方差为:的总体平均数和方差为: 当样本容量依次为当样本容量依次为2、4、8时,其时,其 相应为相应为4、4、、4;;其其 相应为相应为4/3、2/3、1/3。 即即 ,, n=1 1n=2 2n=4 4n=8 8yffff2 24 46 61 11 11 12 23 34 45 56 61 12 23 32 21 12.02.02.52.53.03.03.53.54.04.04.54.55.05.05.55.56.06.01 14 4101016161919161610104 41 12.002.002.252.252.502.502.752.753.003.003.253.253.503.503.753.754.004.004.254.254.504.504.754.755.005.005.255.255.505.505.755.756.006.001 18 8363611211226626650450478478410161016110711071016101678478450450426626611211236368 81 139816561平均数4444方 差8/34/32/31/3 表表4.6 各种不同样本容量的样本平均数各种不同样本容量的样本平均数( )的抽样分布的抽样分布 n=1n=2图4.15 各种不同各种不同样本容量的本容量的 分布方柱形图分布方柱形图 图4.15 各种不同各种不同样本容量的本容量的 分布方柱形图分布方柱形图 n=4n=8 (二二) 样本总和数的抽样及其分布参数样本总和数的抽样及其分布参数 样本本总和数和数(用用 代表代表)的抽样分布参数与母总体间存在的抽样分布参数与母总体间存在如下关系:如下关系: (1) 该抽样分布的平均数该抽样分布的平均数 与母总体的平均数间的关系为:与母总体的平均数间的关系为:(4·19) (2) 该抽样分布的方差该抽样分布的方差 与母总体方差间存在如下关系:与母总体方差间存在如下关系: (4·20) (三三) 两个独立随机样本平均数差数的抽样及其分布参数两个独立随机样本平均数差数的抽样及其分布参数 如果从一个总体随机地抽取一个样本容量为如果从一个总体随机地抽取一个样本容量为n1的样本,同的样本,同时随机独立地从另一个总体抽取一个样本容量为时随机独立地从另一个总体抽取一个样本容量为n2的样本,那的样本,那么可以得到分别属于两个总体的样本,这两个独立随机抽取的么可以得到分别属于两个总体的样本,这两个独立随机抽取的样本平均数间差数样本平均数间差数( )的抽样分布参数与两个母总体间存的抽样分布参数与两个母总体间存在如下关系:在如下关系:(1) 该抽样分布的平均数与母总体的平均数之差相等。 该抽样分布的平均数与母总体的平均数之差相等 (2) 该抽样分布的方差与母总体方差间的关系为:该抽样分布的方差与母总体方差间的关系为: (4·21)(4·22) [例例4.8] 假定第一个总体包括假定第一个总体包括3个观察值,个观察值,2、4和和6 (N1=3,n1=2),所有样本数为,所有样本数为Nn=32=9个,总体平均数和个,总体平均数和方差方差 =4,, =8/3第二个总体包括第二个总体包括2个观察值,个观察值,3和和6 (N2=2),抽出的样本容量为,抽出的样本容量为3(n2=3),所以所有样本数为,所以所有样本数为23=8个,总体平均数和方差个,总体平均数和方差 =4.5,, =2.25现将上述现将上述两个总体两个总体 的次数分布列于表的次数分布列于表4.7,并计算出其分布的参,并计算出其分布的参数 将第一总体的将第一总体的9个样本平均数和第二总体的个样本平均数和第二总体的8个样本平均个样本平均数作所有可能的相互比较,这样共有数作所有可能的相互比较,这样共有9×8=72个比较或个比较或72个差数,这个差数,这72个差数次数分布列于表个差数次数分布列于表4.8和表和表4.9。 表4.7 从两个总体抽出的样本平均数的次数分布表ff2 21 13 31 13 32 24 43 34 43 35 53 35 52 26 61 16 61 1总 和和9 9总 和和8 8 表4.8 样本平均数差数的次数分布表 2, 2, 2, 23, 3, 3, 34,4, 4, 45,5,5, 56,6,6,6总 和 3, 4, 5, 63, 4, 5, 63,4, 5, 63,4,5, 63,4,5,6-1,-2,-3,-40,-1,-2,-3,1,0,-1,-22,1,0,-13,2,1,0f 1, 3, 3, 12, 6, 6, 23,9, 9, 32,6,6, 21,3,3,172表4.9 样本平均数差数分布的平均数和方差计算表ff( )( ) ( )2( )2-4-3-2-10123151218181251-4-15-24-18012103-3.5-2.5-1.5-0.50.51.52.53.512.256.252.250.250.252.256.2512.2512.2531.2527.004.504.5027.0031.2512.25总72-36150.00 由表由表4.9可算得可算得而而 这与这与(4·21)式计算结果式计算结果 、、(4·22)式计算结果式计算结果 均相同。 均相同 二、正态总体的抽样分布二、正态总体的抽样分布 (一一) 样本平均数的分布样本平均数的分布 从正态总体抽取的样本平均数的分布一般为从正态总体抽取的样本平均数的分布一般为N( , ) 图图4.16给出样本容给出样本容量量n=1,4与与9时的分布,时的分布,从图中可以看出随着样本从图中可以看出随着样本容量的增加,分布的集中容量的增加,分布的集中程度增加了,说明方差减程度增加了,说明方差减少了图4.16 不同样本容量的抽样分布 由中心极限定理知,只要样本容量适当大,不论总由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其体分布形状如何,其 的分布都可看作为正态分布,且的分布都可看作为正态分布,且具平均数具平均数 和方差和方差 在实际应用上,如在实际应用上,如n>30就可就可以应用这一定理以应用这一定理 平均数的标准化分布是将上述平均数平均数的标准化分布是将上述平均数 转换为转换为u变数4·23) [例例4.9] 在江苏沛县调查在江苏沛县调查336个个m2小地老虎虫危害情况的小地老虎虫危害情况的结果,结果, =4.73头,头, =2.63,试问样本容量,试问样本容量n=30时,由于随机时,由于随机抽样得到样本平均数抽样得到样本平均数 等于或小于等于或小于4.37的概率为多少?的概率为多少? 查附表查附表2,P(u≤-0.36)=0.2266,即概率为,即概率为22.66% (属属一尾概率一尾概率)。 因所得概率较大,说明差数-因所得概率较大,说明差数-0.36是随机误差,是随机误差,从而证明这样本平均数从而证明这样本平均数4.37是有代表性的,变异系数为:是有代表性的,变异系数为:(二二) 两个独立样本平均数差数的分布两个独立样本平均数差数的分布 假定有两个正态总体各具有平均数和标准差为假定有两个正态总体各具有平均数和标准差为 ,, 和和 ,, ,从第一个总体随机抽取,从第一个总体随机抽取n1个观察值,同时独立地从第个观察值,同时独立地从第二个总体随时机抽取二个总体随时机抽取n2个观察值这样计算出样本平均数个观察值这样计算出样本平均数和标准差和标准差 ,,s1和和 ,,s2 从统计理论可以推导出其样本平均数的差数从统计理论可以推导出其样本平均数的差数( )的抽样分布,具有以下特性:的抽样分布,具有以下特性: (1) 如果两个总体各作正态分布,则其样本平均数差数如果两个总体各作正态分布,则其样本平均数差数( )准确地遵循正态分布律,无论样本容量大或小,准确地遵循正态分布律,无论样本容量大或小,都有都有N( , )。 (2) 两个样本平均数差数分布的平均数必等于两个总体两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即平均数的差数,即 (3) 两个独立的样本平均数差数分布的方差等于两个两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即总体的样本平均数的方差总和,即 其差数标准差为:其差数标准差为: (4·24)这个分布也可标准化,获得这个分布也可标准化,获得u值4·25)小结:小结:l若两个样本抽自于同一正态总体,则其平均数差数的抽若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:样分布不论容量大小亦作正态分布具:l若两个样本抽自于同一总体,但并非正态总体,则其平均若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在数差数的抽样分布按中心极限定理在n1和和n2相当大时相当大时(大于大于30)才逐渐接近于正态分布才逐渐接近于正态分布l若两个样本抽自于两个非正态总体,当若两个样本抽自于两个非正态总体,当n1和和n2相当大、而相当大、而 与与 相差不太远时,也可近似地应用正态接近方法估计相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。 偏离正态的程度和相差大小而转移三、二项总体的抽样分布三、二项总体的抽样分布(一一) 二项总体的分布参数二项总体的分布参数 其中其中p为二项总体中要研究的属性事件发生的概率,为二项总体中要研究的属性事件发生的概率,q=1-p 标准差标准差:方差方差:平均数平均数: (二二) 样本平均数样本平均数(成数成数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本平均数抽样分从二项总体进行抽样得到样本,样本平均数抽样分布的参数为:布的参数为:平均数平均数:方差方差:标准误标准误:同样同样n是样本容量是样本容量 (三三) 样本总和数样本总和数(次数次数)的抽样分布的抽样分布 从二项总体进行抽样得到样本,样本总和数的抽样分从二项总体进行抽样得到样本,样本总和数的抽样分布参数为:布参数为:平均数平均数:方差方差:标准误标准误: [例例4.9] 棉田盲蝽象为害棉株分为受害株与未受害棉田盲蝽象为害棉株分为受害株与未受害株假定调查株假定调查2000株作为一个总体,受害株为株作为一个总体,受害株为704株 这是一个二项总体,于是计算出受害率这是一个二项总体,于是计算出受害率p=35.2%,或,或0.352,, = =0.4776或或47.76%。 现从这一总体抽样,以株为单位,用简单随机抽样现从这一总体抽样,以株为单位,用简单随机抽样方法,调查方法,调查200株棉株,获得株棉株,获得74株受害,那么,观察受株受害,那么,观察受害率害率(就是成数,或者说是样本平均数就是成数,或者说是样本平均数) =37.0% , 试问样本平均数与总体真值的差数的概率为多少?试问样本平均数与总体真值的差数的概率为多少? 总体真值总体真值p=0.352,, 差数差数=( )=(0.370-0.352)=0.018 成数的标准差成数的标准差 = = =0.034或或3.4% 由于二项分布在由于二项分布在np及及nq大于大于5时,趋近于正态分布,时,趋近于正态分布,本例样本较大可看为正态分布,采用正态离差本例样本较大可看为正态分布,采用正态离差u查出概率。 查出概率于是于是 =0.53 如果以次数资料如果以次数资料(或称为或称为“样本总和数资料样本总和数资料”)表示表示也可得到同样结果总体调查也可得到同样结果总体调查2000株中受害株有株中受害株有704株,株,调查调查200株的理论次数应为株的理论次数应为np=200×0.352=70.4株现观察受害株为观察受害株为74株株(总和数总和数),, 差数差数=( -np)=74-70.4 =3.6株,株, =3.6/6.754=0.53,,与上相同,获得这种差数的概率为与上相同,获得这种差数的概率为0.59 查附表查附表3,当,当u=0.53,概率值为,概率值为0.59,, 即获得这种即获得这种| |≥0.018的概率的概率(两尾概率两尾概率)为为0.59,这就说明样本估计的受害率为,这就说明样本估计的受害率为37.0%有代表性%有代表性(可以可以近似代表总体的受害率近似代表总体的受害率)。
