
卫生统计学课件:07抽样分布.ppt
43页抽样分布抽样分布抽样误差抽样误差v抽样误差抽样误差Sampling error §由抽样引起的样本统计量与总体参数间的差异v来源来源:§个体变异§抽样v表现表现§样本统计量与总体参数间的差异§样本统计量间的差异抽样误差抽样误差v从总体均数从总体均数 为为155.4cm,标准差,标准差 为为5.3cm的正的正态分布总体中随机抽样样本大小为态分布总体中随机抽样样本大小为30n=30… ….从正态总体从正态总体 抽样得到的抽样得到的1000个样本均数的频数个样本均数的频数分布分布(ni=30)Mean=155.426抽样误差抽样误差v结果结果::§各样本均数不一定等于总体均数§样本均数间存在差异§样本均数的分布规律:围绕总体均数上下波动§样本均数的变异:由样本均数的标准差描述v样本均数的规律性样本均数的规律性§随机的§在概率意义下是有规律的---抽样分布§通过大量重复抽样,借助频数表描述§样本均数的变异规律(抽样分布)与个体观察值变异规律有关v即使只有一个样本资料即使只有一个样本资料,也可由样本资料的个体观也可由样本资料的个体观察值的变异规律间接得到样本均数的变异规律察值的变异规律间接得到样本均数的变异规律抽样分布抽样分布正态总体样本均数的分布正态总体样本均数的分布v已知某地高三男生的平均身高为已知某地高三男生的平均身高为 ,标标准差为准差为 ,将其视为一个总体。
将其视为一个总体v从该总体中随机抽样从该总体中随机抽样§样本含量为n§每次抽取10000个样本并计算各自的样本均数§以10000个样本均数作为一个新的样本制作频数图抽样抽样1样本含量n=4 的平均数 =168.19 的标准差 =2.9670 抽样抽样2样本含量 n=16 的平均数 =168.158 的标准差 =1.4884 抽样抽样3样本含量 n=36 的平均数 =168.1493 的标准差 =0.9997 v从正态分布的总体从正态分布的总体 中随机抽取样本含量中随机抽取样本含量为为n的样本的样本X1,,X2,,…,,Xn,其样本均数,其样本均数 §服从正态分布,总体均数为 ;§样本均数的总体标准差正态总体样本均数的分布正态总体样本均数的分布v若若 ,则其中任意一个随机样本,则其中任意一个随机样本Xn的均数的均数v进行标准化变换进行标准化变换:正态总体样本均数的分布正态总体样本均数的分布v样本均数的标准差样本均数的标准差 ,称为样本均数的标准误,称为样本均数的标准误(standard error of mean ,SE),简称均数,简称均数标准误标准误v它反映样本均数之间的离散程度,也反映样本均它反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。
数抽样误差的大小v误差大小误差大小 ,实质是要估计,实质是要估计 的分布特征的分布特征 正态总体样本均数的分布正态总体样本均数的分布v由于实际由于实际 往往未知,需要用样本往往未知,需要用样本 来估计来估计 ,样本均数标准误的估计式为,样本均数标准误的估计式为v注意区别:注意区别:v证明:证明:正态总体样本均数的分布正态总体样本均数的分布v在例在例4.2中,已知某地中,已知某地7岁正常发育男孩的身高岁正常发育男孩的身高(cm)服从服从正态分布正态分布N(120,52)§正常发育7岁男孩身高的95%参考值范围为 §若在该地正常7岁男孩中随机抽一个样本,样本含量为100,其样本均数的95%参考值范围为§样本均数落在=(119.02,120.98)cm 范围的概率为95%非正态总体样本均数的分布非正态总体样本均数的分布v从总体均数为从总体均数为1的指数分布中抽样,样本大小分别的指数分布中抽样,样本大小分别为为4,,9,,100每次抽10000个样本制作频数个样本制作频数分布图分布图抽样抽样1样本含量n=4 的平均数 =1.0133 的标准差 =0.5031 的中位数 =0. 9298抽样抽样2样本含量n=9 的平均数 =0.9959 的标准差 =0. 3332 的中位数 =0.9574抽样抽样3样本含量n=100 的平均数 =0.9993 的标准差 =0.1001 的中位数 =0.9958v非正态指数分布总体中随机抽样所得样本均数非正态指数分布总体中随机抽样所得样本均数 ::§在样本含量较小时呈偏态,样本含量较大时接近正态分布§均数 始终在总体均数 附近§均数 的标准差v偏态分布的资料,如果总体均数为偏态分布的资料,如果总体均数为 ,标准差为,标准差为 ,可以证,可以证明:当样本量明:当样本量n非常大时,样本均数的分布近似正态分布非常大时,样本均数的分布近似正态分布N( , 2/n) 非正态总体样本均数的分布非正态总体样本均数的分布v样本均数总是随机地出现在总体均数的两侧附近,样本量越大,样本均数非常靠近总体均数的概率就越大 t分布分布v标准正态分布与标准正态分布与t统计量统计量 v实际研究中实际研究中 未知,用样本的标准差未知,用样本的标准差S作为作为 的一的一个近似值个近似值(估计值估计值)代替代替 ,得到变换后的统计量,得到变换后的统计量并记为并记为 v如在正态总体如在正态总体N(168.18,62)中随机抽样,样本量分别中随机抽样,样本量分别取取n =5,,n =100,均抽,均抽10000个样本,分别计算个样本,分别计算t值值和和U值并作相应值并作相应t的频数图的频数图v样本标准差样本标准差S随样本的变化而变化随样本的变化而变化,因此统计量因此统计量t变异成分变异成分要大于要大于U t分布分布 t分布分布样本含量n=5样本含量n=100 t统计量的频数图 v结果结果§小样本时,t统计量和U统计量的分布有明显差别§大样本时,t统计量和U统计量的分布非常接近。
v频数图频数图§当样本量较大时,统计量t的频数图与标准正态分布曲线非常接近§样本含量较小时,t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大 t分布分布v英国统计学家英国统计学家W. S. Gosset(1908)给出了统计量给出了统计量t的的分布规律,并称统计量分布规律,并称统计量t的分布规律为的分布规律为t分布,自由度为分布,自由度为v,记为,记为t(v)分布 v每个自由度每个自由度v对应一个分布,因此对应一个分布,因此t分布是一簇分布分布是一簇分布 vt分布仅与总体均数有关,与总体标准差无关分布仅与总体均数有关,与总体标准差无关 t分布分布v三条三条t分布密度曲线分布密度曲线 t分布分布v=1v=5v=∞t分布的图形特征分布的图形特征v分布特征分布特征 §t分布曲线是单峰的§关于t = 0对称§自由度越大,t值越小v t分布与正态分布的关系分布与正态分布的关系 §自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积§当自由度 时,t分布逼近于标准正态分布t分布面积和界值分布面积和界值 v同样的尾部面积,同样的尾部面积,t分布的界值随着自由度增大而减分布的界值随着自由度增大而减小;小; t分布的界值要大于标准正态分布的界值分布的界值要大于标准正态分布的界值v同样的自由度,同样的自由度,t界值越大,尾部面积越小界值越大,尾部面积越小vt界值的意义:单侧界值界值的意义:单侧界值 t0.05,10=1.812 t分布面积和界值分布面积和界值 v给定自由度给定自由度v,,t分布曲线的双侧尾部面积和为分布曲线的双侧尾部面积和为 时时对应的对应的t值,记为值,记为 ,,t的双侧界值的双侧界值 v单侧界值:一侧尾部面积为单侧界值:一侧尾部面积为 时对应的时对应的t值值§对称性得:尾部面积为的单侧界值 =尾部面积为2的双侧界值 t分布界值示意图,表示阴影的面积 样本率的分布样本率的分布 v总体率由样本率估计总体率由样本率估计§例如,设样本的个体数(即样本含量)为n,若x为样本的某指标阳性个体数,则可用样本阳性率 估计研究人群的阳性率 (总体阳性率); v由于个体差异和偶然性的影响由于个体差异和偶然性的影响,,样本率也存在抽样误差样本率也存在抽样误差---由抽样由抽样造成样本率与总体率造成样本率与总体率(研究人群的率研究人群的率)的差异的差异 v样本率是随机的,但在概率意义下也是有规律的样本率是随机的,但在概率意义下也是有规律的---样本率的分布。
样本率的分布v随机抽样试验,分别在总体率随机抽样试验,分别在总体率 =0.4,,0.5,,0.01的总体中随机抽样,其总体率的总体中随机抽样,其总体率 和样本含量和样本含量nv每种情况分别随机抽每种情况分别随机抽10000个样本,每个样本计个样本,每个样本计算其样本率,把同一种情况的算其样本率,把同一种情况的10000个样本率视个样本率视为一个新的样本资料作频数图为一个新的样本资料作频数图 样本率的分布样本率的分布 抽样抽样1抽样抽样2抽样抽样3抽样抽样4v结果结果§总体率相同时,样本含量越大,样本率的分布越趋向对称§样本含量n相同时,越偏离0.5,样本率的分布越偏态分布§总体率=0.5时,任意样本含量的样本率都呈对称分布§样本率p的样本标准差 样本率的分布样本率的分布 。












