您所在位置：网站首页 > 办公文档 > 解决方案 > 第18章样本含量的估计

第18章样本含量的估计.docx

21页

卖家[上传人]：公****

文档编号：407812690

上传时间：2023-06-29

文档格式：DOCX

文档大小：104.42KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 21 举报版权申诉马上下载

文本预览

下载提示

常见问题

第十八章样本含量估计无论是调查研究还是实验性研究，医学研究大都是抽样研究，最终目的在于利用实际观测得到的样本信息推断未知的总体特征，即统计推断抽样研究设计时需要回答一个非常关键的问题：样本中包含多少个研究对象(人、动物、生物学材料等)才能既满足统计学要求，完成有效的统计推断，又照顾研究的可行性、伦理学等实际问题，从而最大限度控制研究成本和研究风险，提高研究效率这就是样本含量估计(estimation of sample size)本章将从统计推断的目的出发，介绍样本含量估计意义及常用的计算公式，并在此基础上介绍检验效能的估计 (power analysis) o第一节样本含量估计的意义及方法一、样本含量估计的意义由于抽样研究中抽样误差不可避免，样本统计量与其所对应的总体参数间总是存在一定差异因此，尽量减小抽样误差是提高统计推断精度的必然要求在总体变异性确定的条件下，样本中所含的研究对象数越多，抽样误差必然越小，样本统计量的稳定性肯定越高，总体参数的估计精度越好，假设检验中的检验效能(power=1-)亦会越高，从而避免出现假阴性的结论同时在实验性研究中，只有在研究对象数量足够大时才能使随机分组更加有效，从而保证组间均衡性。

但在实际研究中，除了要考虑抽样误差外，还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题，并非研究对象数越多越好比如在改良肩周炎贴膏临床试验中，如果片面地追求大样本，研究中所需的人力、物力、财力等物质支持必然增大，研究的可行性下降由于需纳入更多病例，可能会延长产品研发周期，影响新药投产上市；若增加医院或临床实验中心参与该研究，又增加了组织协调的工作量和工作难度同时增加各种混杂、偏倚发生的机会，比如由于肩周炎发病、预后与季节、气候密切相关，临床病例接收时间太长，组内病例同质性差；测量仪器增多导致测量误差增大，观察疗效的医院、医生增多，研究结果的一致性降低等现实问题，使得试验结果难于分析或者难以合理解释，影响研究结论的科学性另外，由于所施加干预措施可能存在的不良事件反应尚属未知，让过多的临床病例面临风险，亦有悖医学伦理原则因此，恰当的样本含量应该是满足医学科研统计学要求，保证一定推断精度和检验效能的前提下的最少研究对象数二、样本含量估计的方法样本含量的估计方法目前主要有两种：一是公式法，可根据研究目的、设计类型、已知条件等选择合适的公式进行估算，是目前使用最广泛的方法。

二是查表法，统计学家利用公式法获得样本含量后编制成工具表，使用者只需根据已知条件查表即可获得相应的样本含量，省去了繁杂的计算过程，但较为局限本章将主要介绍公式法样本含量的估计第二节调查设计中样本含量估计调查研究的目的在于描述健康相关状态、事件在研究当时某特定群体中的分布，并在此基础上通过不同群体分布的比较，探索可能的关联或影响因素但其主要目的仍在于描述分布，如考察某地菜农钩虫感染率、医学生的吸烟率、某地健康男性居民血红蛋白的含量等若研究方式为抽样研究，便需要利用已知的样本信息推断总体参数，如总体均数日、总体率兀的估计等因此本节将根据所估计的参数不同，介绍样本含量估计的基本条件，及总体均数、总体率估计中的样本含量估计方法一、样本含量估计的基本条件采用公式计算样本含量，必须有一些先决条件和基本信息，下面以例18.1 为例简单介绍总体参数估计中样本含量估计的基本条件例18.1拟采用单纯随机抽样的方法调查某地区男性成年人群血红蛋白含量愆缶)的平均水平根据文献，中国男性成人血红蛋白含量为(140±30)g/L，要求所获得允许误差不超过5g/L，取a= 0.05，问需要调查多少位该地区成年男性？此研究为调查研究，目的在于利用抽样获得的样本均数X估计该地区成年男性血红蛋白含量(g/L)的总体均数虫假定该地区成年男性血红蛋白含量X服从正态分布，以文献中中国男性成人的血红蛋白含量信息进行替代(u=140g/L， a = 30g/L)，则该地区成年男性的血红蛋白含量X〜M140, 302)。

题意要求允许误差不超过5g/L，以=0.05,可解释为样本均数X与总体均数四之间的差距(8 = X -日)不超过5g/L，且X落在135〜145g/L之间的概率为1-a =0.95由于总体服从正态分布，样本均数的分布亦服从正态分布，当抽样方式为单纯随机抽样，且总体为无限总体时，标准误bX =b.".n，x的分布记为X〜N(A b2)可用图18.1表示X图18.1样本均数的抽样分布示意图结合图18.1，根据正态分布的原理可得:X -可气2(18.1)上式反推即可获得单纯随机抽样研究中总体均数估计中的样本含量公式:(18.2)式中，b为总体标准差；5为允许误差；Z 为标准正态分布a下双尾Z值a/2如例 18.1 中 b =30g/L，5 =5g/L，Za/2 = Z0 05/2 = 1.96，代入式(18.2)得:所以至少需要调查139人才能达到所要求的精度由公式(18.2)可知，在总体服从正态分布且为无限总体、抽样方式为单纯随机抽样的前提下，其所需基本信息包括：1. 置信度1-a 置信度越高，需要的样本含量越大，常取a 0.052. 允许误差(allowable error)是指研究者要求的样本统计量与其对应的总体参数之间的最大差距，其既可以用绝对误差5 (5 = X-日或5= \p-兀|)，也可以用相对误差£来表示，其中8 = |X -可加或8 = |p-叫巾，则绝对误差5 =平或5 = £兀。

根据前面章节置信区间的估计，5即区间长度的一半允许误差越小，所需样本含量越大3.总体变异度常用总体标准差a刻画，总体率估计中的袂(1—兀) 总体的变异程度越高，所需样本含量越大二、单纯随机抽样的样本含量估计(一)估计总体均数时的样本含量估计调查研究中利用抽样获得的样本均数歹估计总体均数r例18.1即为估计总体均数时的样本含量估计，这里不再赘述需指出的是，式(18.2)适用于无限总体抽样时的样本含量估计，对个体数为N的有限总体中进行单纯随机抽样时，需在式(18.2)计算出样本含量n的基础上利用式(18.3)进行校正:(18.3)若抽样比nN很小，如小于0.05或0.1，这种校正可省略同时，实际工作中总体标准差a常常未知，可首先通过小规模预调查获得的样本标准差S估计a此时，若继续采用式(18.2)估计样本含量，往往造成样本量的低估，尤其当样本量较小时，实际上难以达到总体均数估计的精度要求需用式(18.4)进行校正：(t - S ¥n = -W2— (18.4)k 5 7式(18.4 )中t表示自由度v = n -1时t分布界值，在估计出样本含量前其未 a/2知，可先用Zg计算出初步的样本含量n⑴，并以自由度V] = n1 -1获得t心，代入式(18.3)，求出更近似的n ，依次类推，直至样本例数稳定。

但在实际应用(2)中，如果样本估计量较大(如n > 50)，为方便起见可无需校正如例18.1中，若根据前期预调查得该地血红蛋白含量标准差s =30g/L，其余条件不变，问需要调查多少该地区居民?a/2根据Z 计算出的初步样本含量n⑴=139，t005/2 138 =1.9773，带入式(18.4)得:n(2)=140.7 幻 141以n =141，t = 1.9771，代入式(18.4)得〃⑶=140.7浇141， n = n ，可停止计算故至少需要调查141位成年男性二)估计总体率时的样本含量估计调查研究中常需利用抽样获得的样本率〃估计总体率兀，由第十章的学习可知，当n较大，兀和1-兀均不太小，如nn和n(1-兀)均大于5时，样本率〃的分布亦近似服从正态分布，记为p ~ N(兀，b2)，其中七=Jn(1—丸)/n，同样根据正态分布原理，由式(18.1)反推可得：(Z ¥ _ n = —W2 I ・n(1—n) (18.5)I 5 J式中，n为总体率，其它符号含义同前总体率未知时，可取n 50%，以使 n (1-n)达到最大，算得样本含量也最大，从而保证总体率推断的精确性例18.2研究某地菜农钩虫感染率，要求允许误差不超过2%，取以=0.05，需调查多少人？根据题意，a= 0.05，Z = Z =1.96, 5 =2%=0.02。

总体率未知，取 n 0.50代入式(18.5)得：•n (1 -n)=(1.96 ¥V 0.02 Jx 0.5 x (1 - 0.5) = 2401式(18.5 )同样仅适用于无限总体抽样的样本含量估计，对有限总体进行抽样时，仍需按式(18.3)进行校正同时，当总体率n接近0或1时，如n >70%或n <30%，应用式(18.5)会有偏差，此时可对n作以孤度为单位的平方根反正弦变换，再利用正态分布原理获得样本含量的估计公式:57.3Z(18.6) .「叫2 ——arcsin(5 ； Jn(1-n))此外，亦可使用基于Poisson分布的正态近似样本含量估计等，读者可根据上述理论自行推导，或参考其它书籍，这里不再赘述三、其它概率抽样方法的样本含量估计概率抽样方法不同，样本含量估计方法各异对系统抽样而言，抽样间隔不同，其抽样误差也不同，故系统抽样尚无统一的方法估计样本含量但如果研究的变量与总体中个体的编号无确定的上升、下降或周期性变化的关系，系统抽样的抽样误差应小于单纯随机抽样，可参照单纯随机抽样所计算的样本含量这里简单介绍分层随机抽样和整群抽样中样本含量的估计一) 分层随机抽样样本含量的估计抽样方式为分层抽样研究中，若总体为无限总体，可在估计各层总体参数。

2i或兀基础上，以各层例数在总体中所占比例W为权重进行加权平均，获得总体 • .i i方差(b2 = £b2 • W )或总体率(丸=£丸• W )，再按式(18.2)或式(18.5)估计调查总例数若总体为有限总体，设总体例数为N，共有L层，每层例数为代，各层总体方差为6(总体率的估计中b2 =兀.(1—兀.))，则调查总例数的估计公式为：n = '"；”； § (18.7)N202 Z2 ) + 乙 N2b 2a 2 i i式中w.为各层样本比例(sample fraction)，即w =n/n，余符号同前若按比例分配，则w = N?N = W ；若进行最优分配，w. = Nb : §N.b.得到总的样本例数n后，各层样本量为n = nw二) 整群随机抽样样本含量的估计整群抽样中，由于群内个体的相似性和群间个体的异质性，使得整群抽样获得的方差往往大于单纯随机抽样的方差若定义整群抽样中计算的方差与单纯随机抽样中方差比值为设计效率DEFF(design effect)，其估计公式为：DEFF = 1 + p (m -1)式中m为各群平均个体数；p为群内相关系数(intra-cluster correlation, ICC)，即群间方差bB与总方差bB + bW的比值(p=b2/(b2 +b2)),反映群内个体的相似程度，其未知时，可通过预调查进行估计。

整群随机抽样样本含量n的计算，首先按单纯随机抽样计算样本含量n，再 C乘以整群抽样的设计效应，则：匕=n - DEFF (18.8)所需群数G = njm第三节实验研究中的样本含量估计实验研究的目的主要在于通过不同干预措施或实。

点击阅读更多内容