
卫生统计学:第7章 假设检验.ppt
47页假设检验在统计方法中的地位统计方法描述统计推断统计参数估计假设检验第7章 假设检验 【案例7-1】为了解1岁婴儿的血红蛋白浓度,某医生从该地抽取了1岁婴儿25名,测得其血红蛋白浓度的均数为123.5g/l,标准差为11.6g/l, 而一般正常婴儿的血红蛋白浓度平均为125g/l,故认为该地1岁婴儿的血红蛋白浓度低于一般正常婴儿的血红蛋白浓度平均值 该结论是否正确,为什么? 如何解决此类问题? 第一节 假设检验的基本思想及步骤一、假设检验的基本思想 该次抽样得出1岁婴儿123.5g/l 低于一般正常婴儿125g/l 的原因? 0?0?IF: x 与0 相差不大,接近,则可能是由于抽样引起,则可以认为样本来自一般正常小儿IF: x 与0 相差很大,则不能用抽样误差解释,则怀疑本次抽样的1岁婴儿不是来自一般正常小儿这个总体 =0 由抽样误差引起0 由本质差别引起 x 与0相差多大可以认为是由抽样误差导致的?什么是假设检验 假设检验是推论统计的重要内容,是先对总体的未知数量特征作出某种假设,然后抽取样本,利用样本信息对假设的正确性进行判断的过程n统计假设有参数假设、总体分布假设、相互关系假设(两个变量是否独立,两个分布是否相同)等。
n参数假设是对总体参数的一种看法总体参数包括总体均值、总体比例、总体方差等分析之前必需陈述我认为德国我认为德国6 6岁儿童平均岁儿童平均身高为身高为1.251.25米米! !参数假设检验 参数假设检验是通过样本信息对关于总体参数的某种假设合理与否进行检验的过程 即先对未知的总体参数的取值提出某种假设,然后抽取样本,利用样本信息去检验这个假设是否成立如果成立就接受这个假设,如果不成立就放弃这个假设例1:根据1989年的统计资料,某地女性新生儿的平均体重为3190克为判断该地1990年的女性新生儿体重与1989年相比有无显著差异,从该地1990年的女性新生儿中随机抽取30人,测得其平均体重为3210克 1989年3190克 1990年3210克 但这种差异可能是由于抽样的随机性带来的,也许这两年新生儿的体重并没有显著差异究竟是否存在显著差异?可以先假设这两年新生儿的体重没有显著差异,然后利用样本信息检验这个假设能否成立这是一个关于总体均值的假设检验问题 例2:某公司进口一批钢筋,根据要求,钢筋的平均拉力强度不能低于2000克,而供货商强调其产品的平均拉力强度已达到了这一要求,这时需要进口商对供货商的说法是否真实作出判断。
进口商假设平均拉力强度不低于2000克, 然后用样本的平均拉力强度来检验假设是否正确 这也是一个关于总体均值的假设检验问题例3:某种大量生产的袋装食品,按规定每袋重量不得少于250克,现从一批该种食品中任意抽取50袋,发现有6袋重量低于250克若规定食品不符合标准的比例达到5就不得出厂,问该批食品能否出厂 可以先假设该批食品的不合格率不超过5,然后用样本不合格率来检验假设是否正确 这是一个关于总体比例的假设检验问题 假设检验的基本思想 假设检验所依据的基本原理是小概率原理 什么是小概率?q概率是01之间的一个数,因此小概率就是接近0的一个数q著名的英国统计家Ronald Fisher 把20分之1作为标准,也就是0.05,从此0.05或比0.05小的概率都被认为是小概率qFisher没有任何深奥的理由解释他为什么选择0.05,只是说他忽然想起来的什么是小概率原理?小概率原理发生概率很小的随机事件(小概率事件p5% )在一次实验中几乎是不可能发生的根据这一原理,可以先假设总体参数的某项取值为真,也就是假设其发生的可能性很大,然后抽取一个样本进行观察,如果样本信息显示出现了与事先假设相反的结果且与原假设差别很大,则说明原来假定的小概率事件在一次实验中发生了,这是一个违背小概率原理的不合理现象,因此有理由怀疑和拒绝原假设;否则不能拒绝原假设。
检验中使用的小概率是检验前人为指定的 例如:某厂产品合格率为99%,从一批(100件)产品中随机抽取一件,恰好是次品的概率为1%随机抽取一件是次品几乎是不可能的, 但是这种情况发生了,我们有理由怀疑该厂的合格率为99%.这时我们犯错误的概率是1% 检验统计量 用于假设检验问题的统计量称为检验统计量 与参数估计相同,需要考虑: 总体是否正态分布; 大样本还是小样本; 总体方差已知还是未知假设检验相关概念 显著性水平 用样本推断H0是否正确,必有犯错误的可能 原假设H0正确,而被我们拒绝,犯这种错误的概率用表示把称为假设检验中的显著性水平( Significant level), 即决策中的风险 显著性水平就是指当原假设正确时人们却把它拒绝了的概率或风险 通常取0.05或=0.01或=0.001, 那么, 接受原假设时正确的可能性(概率)为:95%, 99%, 99.9% 假设检验的一些基本概念 接受域与拒绝域 接受域:原假设为真时允许范围内的变动,应该接受原假设 拒绝域:当原假设为真时只有很小的概率出现,因而当统计量的结果落入这一区域便应拒绝原假设,这一区域便称作拒绝域 例:0.05时的接受域和拒绝域双侧检验与单侧检验假设检验根据实际的需要可以分为 :双侧检验(双尾): 指只强调差异而不强调方向性的检验。
单侧检验(单尾):强调某一方向性的检验左侧检验右侧检验假设检验中的单侧检验示意图 拒绝域 拒绝域 (a)右侧检验 (b)左侧检验二、假设检验的基本步骤 (一)建立检验假设,确定检验水准 (二)选定检验方法,计算检验统计量 (三)确定P值,做出推断结论(一)建立检验假设,确定检验水准 假设检验中,我们称作为检验对象的待检验假设为原假设或零假设,用H0表示原假设的对立假设称为备择假设或备选假设,用H1表示 原假设H0:1岁婴儿 = 一般正常小儿 备择假设H1:1岁婴儿 一般正常小儿(二)选定检验方法,计算检验统计量 If H0成立,则(三)确定P值,做出推断结论0.64662.064, P0.05,所以,不拒绝H0第二节第二节假设检验中的两类错误假设检验中的两类错误 H0 检验决策实际情况H0为真H0为假接受H0正确决策(1 )第二类错误(b)拒绝H0第一类错误()正确决策(1-b)假设研究的问题双侧检验左侧检验右侧检验H0m = m0m m0m m0H1m m0m m0第四节 单侧和双侧检验双侧检验(显著性水平与拒绝域 )抽样分布抽样分布H H0 0值值临界值临界值临界值临界值/2 /2/2 样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域1 - 1 - 置信水平置信水平单侧检验(显著性水平与拒绝域)H H0 0值值临界值临界值 样本统计量样本统计量拒绝域拒绝域抽样分布抽样分布1 - 1 - 置信水平置信水平左侧检验 (显著性水平与拒绝域)H H0 0值值临界值临界值 样本统计量样本统计量拒绝域拒绝域抽样分布抽样分布1 - 1 - 置信水平置信水平观察到的样本统计量观察到的样本统计量左侧检验 (显著性水平与拒绝域)H H0 0值值临界值临界值 样本统计量样本统计量拒绝域拒绝域抽样分布抽样分布1 - 1 - 置信水平置信水平右侧检验 (显著性水平与拒绝域)H H0 0值值临界值临界值 样本统计量样本统计量拒绝域拒绝域抽样分布抽样分布1 - 1 - 置信水平置信水平观察到的样本统计量观察到的样本统计量右侧检验 (显著性水平与拒绝域)H H0 0值值临界值临界值 样本统计量样本统计量抽样分布抽样分布1 - 1 - 置信水平置信水平拒绝域拒绝域 抽样估计与假设检验都是统计推断的重要内容。
参数估计是根据样本统计量估计总体参数的真值; 假设检验是根据样本统计量来检验对总体参数的先验假设是否成立 第五节 区间估计与假设检验 1.区间估计与假设检验都是根据样本信息对总体参数进行推断,都是以抽样分布为理论依据,都是建立在概率基础上的推断,推断结果都有一定的可信程度或风险2. 对同一问题的参数进行推断,二者使用同一样本、同一统计量、同一分布,因而二者可以相互转换区间估计问题可以转换成假设问题,假设问题也可以转换成区间估计问题3. 区间估计中的置信区间对应于假设检验中的接受区域,置信区间以外的区域就是假设检验中的拒绝域区间估计与假设检验的主要联系区间估计与假设检验的主要区别1.区间估计通常求得的是以样本估计值为中心的双侧置信区间,而假设检验以假设总体参数值为基准,不仅有双侧检验也有单侧检验2.区间估计立足于大概率,通常以较大的把握程度(置信水平)1-去保证总体参数的置信区间而假设检验立足于小概率,通常是给定很小的显著性水平去检验对总体参数的先验假设是否成立 课外阅读小概率原理举例: 某工厂质检部门规定该厂产品次品率不超过4方能出厂今从1000件产品中抽出10件,经检验有4件次品,问这批产品是否能出厂? 如果假设这批产品的次品率P4,则可计算事件“抽10件产品有4件次品”的出现概率为: 可见,概率是相当小的,1万次实验中可能出现4次,然而概率如此小的事件,在一次实验中居然发生了,这是不合理的,而不合理的根源在于假设次品率P4 ,因而认为假设次品率P4是不能成立的,故按质检部门的规定,这批产品不能出厂。
单侧检验 (原假设与备择假设的确定) 一项研究表明,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上检验这一结论是否成立研究者总是想证明自己的研究结论(寿命延长)是正确的备择假设的方向为“”(寿命延长)建立的原假设与备择假设应为 H0: 1500 H1: 1500单侧检验 (原假设与备择假设的确定)q一项研究表明,改进生产工艺后,会使产品的废品率降低到2%以下检验这一结论是否成立研究者总是想证明自己的研究结论(废品率降低)是正确的备择假设的方向为“”(废品率降低)建立的原假设与备择假设应为 H0: 2% H1: 2%单侧检验 (原假设与备择假设的确定)q某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上如果你准备进一批货,怎样进行检验检验权在销售商一方作为销售商,你总是想收集证据证明生产商的说法(寿命在1000小时以上)是不是正确的备择假设的方向为“”(寿命不足1000小时)建立的原假设与备择假设应为 H0: 1000 H1: 1000双侧检验 双侧检验属于决策中的假设检验即不论是拒绝H0还是接受H0,都必需采取相应的行动措施 例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格。
待检验问题是该企业生产的零件平均长度是10厘米吗?(属于决策中的假设)则建立的原假设与备择假设应为 H0: X = 10 H1: X 10单侧检验原假设与备择假设的确定 应区别不同情况采取不同的建立假设方法一般是将研究的预期效果(希望、想要证明的假设)作为备择假设H1,将认为研究结果无效作为原假设H0先确立备择假设H1因为只有当检验结果与原假设有明显差别时才能拒绝原假设而接受备择假设,原假设不会轻易被拒绝,就使得希望得到的结论不会轻易被接受,从而减少结论错误q 例如,有研究预计,采用新技术生产后将会使某产品的使用寿命明显延长到1500小时以上则建立的原假设与备择假设应为: H0: X 1500 H1: X 1500q 例如,有研究预计,改进生产工艺后会使某产品的废品率降低到2%以下则建立的原假设与备择假设应为: H0: X 2% H1: X 2% 用置信区间进行检验均值双侧检验1.求出双侧检验均值的置信区间2已知时:2未知时:2.若样本统计量x的值落在置信区间外, 则拒绝H0 用置信区间进行检验 均值单侧检验1.左侧检验:求出单边置信下限 若样本统计量x的值小于单边置信下限,则拒绝H02.右侧检验:求出单边置信上限 若样本统计量x的值大于单边置信上限,则拒绝H0用置信区间进行检验 (例题分析) 例 一种袋装食品每包的标准重量应为1000克。
现从生产的一批产品中随机抽取16袋,测得其平均重量为991克已知这种产品重量服从标准差为5。












