
第二篇习习题答案.docx
10页第二篇 概率与推断基础一、讨论题1. 简述随机变量的均数与样本均数的区别答:由随机实验中产生的结果用数值表示的变量叫随机变量随机变量的均数是指随机变量所有可能值的平均,但它不是一般意义下的平均,而是要把每个取值都按照它的概率来加权之后的平均,每个可能取值的权重就是取这个值的概率通常用而不是简单的来表示随机变量的均数,这样有利于我们理解描述的到底是哪一个随机变量样本均数是指某样本所有观测值的平均值,是描述样本数据特征的一个统计量,通常用表示对于一个特定总体而言,样本观测值会随抽取的样本不同而变化,相应的样本均数也会因样本的不同而变化但是随机变量的均数是一个描述总体特征的参数,它是随机变量所有可能取值的平均值2. 简要回答二项分布、Poisson分布及正态分布的区别与联系答:(1)三者的区别表4-1 三种分布的比较二项分布Poisson分布正态分布概率函数概率函数意义说明n个观察数中恰好发生X个某事件的概率说明一定观察单位内发生某事件数为X的概率X对应的曲线上的点代表概率密度,一个范围如X1-X2内的面积才代表概率决定参数n ,πμμ,σ均数与方差关系一般(Z分布除外)适用条件互斥性,独立性,稳定性(用大量重复实验得到的样本率来估计参数π)同前,尚需n很大(趋向于无穷大),π很小连续分布,服从正态性类型离散型随机变量的概率分布离散型随机变量的概率分布连续型随机变量的概率分布可加性无有有(2)三者的联系Poisson分布是二项分布的特殊情况,服从Poisson分布的资料也肯定服从二项分布。
因此,能用Poisson分布法处理的资料原则上也能用二项分布来处理(但需知道总观察数和阳性数),只不过此时计算较繁而已反之则不然,服从二项分布者不一定都能用Poisson分布法来处理,需满足Poisson分布的近似条件才可不论二项分布还是Poisson分布,只有满足正态近似条件时才可用正态近似法当然此时也可用两种分布相应的方法,但正态近似法较为简便3. 指出下述陈述的错误并给出解释1)中心极限定理指出对于大样本而言,总体均数近似服从正态分布答:此描述的错误主要在后半句“总体均数近似服从正态分布”,中心极限定理是针对样本均数而言的中心极限定理是指从任意均数等于,方差等于的一个总体中抽取样本量为的简单随机样本当样本量很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布2)对于大样本而言,观察值近似服从正态分布答:当样本量很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布即中心极限定理是针对样本均数而言3)从总体进行简单随机抽样,抽取的样本量越大,样本均数的标准差越大答:,均数的标准差与样本量的平方根成反比,即抽取的样本量越大,样本均数的标准差越小4. 如何理解“样本率的抽样分布同样遵循中心极限定理”答:二项分布可看成多次伯努利试验的和:用时表示结果第次实验“成功”,时表示第次实验结果“失败”,可以将各个相加得到总的“成功”次数(即),而“成功”率为,可将其看做一个均数,即样本量为的样本率可以用取值为0和1变量的样本均数来表示,因此其同样也遵循中心极限定理。
5. 使用置信区间的常见注意事项答:①公式不适用于所有抽样方法,不同的抽样方法需采用不同的均数估计公式;②数据须来自相应总体的简单随机抽样,个体间相互独立是使用上述估计公式的前提;③对于来自随意收集且偏倚较大的数据,没有恰当的方法进行统计推断,统计分析无法拯救糟糕的数据;④在计算置信区间之前往往需先对数据进行探索性分析,例如找出异常值,检验数据是否服从正态分布;⑤公式是事先假定总体标准差已知,实际研究中很可能无法得到总体标准差当样本量较大时,可选用样本标准差s估计,对应置信区间可用公式近似估计;⑥实际操作中的问题(如无应答与失访)会给抽样研究带来额外的误差,这些误差可能比随机抽样误差大得多,并且研究结果中这些误差并不能被误差范围所反映;⑦统计推断的概率是指该方法重复进行的正确频率,即在100次抽样中,平均而言95%置信区间有95次包含了总体均数,但并不知道某一次结果的正确性6. 解释零假设与备择假设的含义答:零假设又称无效假设,记为,是在我们没有证明某现象之前做出的保守推测,是被用来检验的假设,通常表述为“没有差异”,表示差异是由抽样误差引起的;备择假设又称对立假设,记为,表示其差异是因为比较的对象之间存在本质不同。
在现实研究中,描述的往往是我们希望看到的结果7. 假设检验的思想、步骤及其与置信区间的区别与联系答:假设检验的思想:我们对总体特征(如参数、分布)进行某种推测,进而用概率来判断样本数据所提供的信息和我们对总体特征猜想的一致性,根据小概率反证法思想,结合专业知识判断这一猜想的正确性假设检验的步骤:(1)建立检验假设,确定检验水准;(2)计算检验统计量;(3)确定P值,做出统计推断假设检验与置信区间的区别与联系:(1)联系:对于同一资料其统计推断结论是等价的,可信区间也可回答假设检验的问题如已知的总体均数在样本均数所估计的可信区间之内时,可认为两个总体均数相同,反之则可认为不同2)区别:置信区间估计用于推断总体参数所在的范围,而假设检验用于推断总体参数之间是否不同置信区间在回答差别有无统计学意义的同时,还能提供一些假设检验不能提供的信息,并可以提示差别是否具有实际意义因此,置信区间与假设检验的作用是相辅相成的,将两者结合起来,可以提供更为全面的统计推断信息8.解释第I类错误、第II类错误和检验效能以及它们之间的关系答:第Ⅰ类错误:当为真,拒绝(接受),此时的错误称为第Ⅰ类错误,其发生的概率记为。
第Ⅱ类错误:当为真,接受(拒绝),此时的错误称为第Ⅱ类错误,其发生的概率记为检验效能:检验水准为,当为真时,假设检验能够拒绝的概率称为能发现该的检验效能三者的关系为:固定检验水准下的检验效能就是1减第Ⅱ类错误去犯第Ⅱ类错误的概率,即检验效能为1−;当样本量固定时,与成反比,与()成正比;如果把设置得很小,势必增大犯II型错误的概率,从而降低检验效能;反之,如果重点在于减少,势必增加犯I型错误的概率,从而降低了置信度要同时减小和,只有通过增加样本含量来实现二、综合分析题1. 经长期临床观察,胃溃疡患者发生胃出血的率为20%,某医院随机观察了20例65岁以上老年胃溃疡患者1)求其中没有1例发生胃出血症状的概率2)求最多有8例发生胃出血症状的概率答:(1)需要计算的没有1例发生胃出血症状的概率,即,可以采用公式来计算,也可以采用软件进行计算,例如应用R软件输入语句:P1 = dbinom(0,20,0.2)运行后得到P1≈0.0122)需要计算下侧累计概率,即,手工计算会比较复杂,可采用统计软件进行计算例如应用R软件输入语句:P2 = pbinom(8,20,0.2)≈0.992.某乡镇有人口10000人。
该地疾病预防控制中心拟在该乡进行一次血吸虫感染率普查,方法是先将每10人的粪便作为一个混合样本,若为阴性,则10人均为阴性;若为阳性,再对该混合样本的10人粪便逐人检查问此法比一般的逐人粪便检查法减少多大工作量(假设血吸虫感染率为5%)答:这是一个二项分布问题,π=0.05,n=10按10人一个混合样品,应有1000个混合样品这1000个混合样品都必须做一次检查,阳性者还要分别检查,因此总的预期检查次数为:N=混合样品数+混合样品阳性率×混合样品数×10可见,关键为求混合样品的阳性率已知每份样品的阳性率为5%,阴性率即为1-0.05=0.95,10份样品均为阴性的概率按二项分布为P(0)=0.9510=0.5987,于是混合样品为阳性的概率为1-0.9510N=1000+(1-0.5987)×1000×10=5013节约的工作量即为10000-5013=4987次(约50%)3. 某地18岁女青年收缩压(mm-Hg)服从在该地随机选一名18岁女青年,测量她的收缩压为X(mm-Hg)1)求,;(2)确定最小的x,使答:(1)通过将标准化为标准正态变量后再来求概率要求,查标准正态分布表得:于是 =0.3372, (2)先对x进行标准化,则,使的最小的x,即,则,解不等式得到:x=129.68。
4. 假设已知高校学生每晚睡眠时间近似服从均数为6.78小时,标准差为1.24小时的正态分布现计划采用简单随机抽样方法抽取150例高校学生,计算每晚平均睡眠时间1)该样本平均睡眠时间的标准差是多少?(2)使用“68-95-97.5法则”描述该样本均数的变异3)计算平均睡眠时间低于6.9小时的概率答:(1)由题干知,高校学生每晚睡眠时间近似服从正态分布, 小时,小时,此时n=150,根据中心极限定理,样本均数的均数为,样本均数的标准差为,所以:(2)根据“68-95-97.5法则”,约68%的样本均数在(6.68,6.88)内;约95%的样本均数在(6.58,6.98)内;约99.7%的样本均数在(6.48,7.08)内3)要求的累计概率是5.已知某地近5年儿童蛲虫感染率平均为35%(设为总体率),该地疾病预防控制中心为了解今年该地儿童蛲虫病感染情况,随机抽样调查了100名儿童1)请问此样本率的均数和标准差分别为多少?(2)如果希望样本率的标准差小于0.02,则随机抽样的样本量需要达到多少?答:(1)此时及均大于5,样本率p的抽样分布近似服从正态分布,可用公式和来分别计算样本率 p的均数和标准差,即:(2)由,得,样本率的标准差越小则需要的样本量越大,当样本率的标准差为0.02时,n≈569。
因此,如果希望样本率的标准差小于0.02,则随机抽样的样本量至少需要569人6.在某市随机抽取90名19岁健康男性大学生,测量他们的身高,得样本均数为172.2cm,标准差为4.5cm1)请估计该市19岁健康男性大学生平均身高的95%置信区间2)如果希望95%的误差范围是1cm,则需要调查该市多少名19岁健康男性大学生?答:(1),=1.96,可得均数的95%置信区间的误差范围为:则:因此,该市19岁健康男性大学生平均身高的95%置信区间为(171.27,173.13)cm2)若95%的误差范围是1cm,则7.某医院呼吸内科用相同方法测定随机抽样得到的两组患者的动脉血二氧化碳分压,肺心病患者240例,为10.48±6.20 (kPa);慢性支气管炎合并肺气肿患者200例,为6.12±1.51 (kPa)1)请计算两组患者的血液二氧化碳分压的95%置信区间,并比较两组95%置信区间的误差范围2)若正常人动脉血二氧化碳分压平均为5.15 (kPa),请问慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压是否有差异?答:(1)因为两组样本量均比较大,可以用样本标准差作为总体标准差的估计值,即,=1.96,可得均数的95%置信区间为:因此,肺心病患者动脉血二氧化碳分压95%置信区间的误差范围是0.78,其95%置信区间为(9.7,11.26) kPa;慢性支气管炎合并肺气肿患者动脉血二氧化碳分压95%置信区间的误差范围是0.21,其95%置信区间为为(5.91,6.33) kPa。
2):慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压。












