
预防医学(二)第十六章 数值变量资料的统计分析.pptx
45页第一节 数值变量资料的统计描述第十六章 数值变量资料的统计分析学习要点学习要点1.了解数值变量资料的统计描述中频数分布表的制作、总体均数的区间估计、检验假设的意义和步骤;2.熟悉数值变量资料的t检验;3.掌握集中趋势指标与离散趋势指标的计算与应用意义第一节第一节 数值变量资料的统计描述数值变量资料的统计描述统计描述是用统计表和统计指标来描述资料的分布规律及数量特征一、频数分布表对于一群同质个体的某项定量指标,收集到计量数据之后,欲了解其分布的范围、数据最集中的区间以及分布的形态,可通过编制频数分布表或简称频数表第一节第一节 数值变量资料的统计描述数值变量资料的统计描述 第一节第一节 数值变量资料的统计描述数值变量资料的统计描述一、频数分布表1.计算全距(极差)R=最大值-最小值 2.确定组距+(1)确定组段数:815组(100例左右)(2)确定组距:组距i=全距/组段数3.划分组段4.统计频数第一节第一节 数值变量资料的统计描述数值变量资料的统计描述一、频数分布表第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标数值变量资料的集中趋势指标用平均数来描述,代表一组同质变量值的平均水平常用的平均数有算数均数、几何均数、中位数(一)算数均数1.将各观察值相加后除以观察值个数所得的商即为算术均数。
总体均数用希腊字母表示样本均数用x表示适用于呈对祢分布或近似对称分布的资料第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(一)算数均数2.计算方法(1)直接法:变量值个数不多(2)频数表法(加权法)n100第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(一)算数均数3.均数的应用:(1)反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较(2)适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势由于均数易受到极端值的影响,故不适用于描述偏态分布资料的集中趋势,这时需要采用几何均数或中位数在描述正态分布特征方面具有重要意义第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(一)算数均数例:某年某市120名12岁健康男孩身高(cm)资料如下表,求其平均数第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(一)算数均数第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(二)几何均数(G)1.将n个变量值的乘积开n次方所得的根适用于:数值变量呈倍数关系或呈对数正态分布,如抗体效价、抗体滴定度、疾病潜伏期2.计算方法(1)直接法(变量值个数不多)第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(二)几何均数(G)2.计算方法(1)直接法(变量值个数不多)例:5人的血清滴度分别为1:2、1:4、1:8、1:16、1:32,求平均滴度。
第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(二)几何均数(G)2.计算方法(2)频数表法(加权法):变量值个数较多或变量值为频数表资料第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(二)几何均数(G)2.计算方法(2)频数表法例:某年某市100名儿童接种某种疫苗后,测定抗体滴度的资料如第、列 所示,求该疫苗的抗体平均滴度第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标这100名儿童的抗体平均滴度为1:16.11计算几何均数注意:变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(三)中位数和百分位数1.中位数(M):将一组变量值按大小顺序排列,位次居中的变量值适用于:变量值中出现特小或特大的数值;资料的分布呈明显偏态;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布类型不清2.计算方法(1)直接法:n为奇数M=X(n+1)/2第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(三)中位数和百分位数2.计算方法(1)直接法:n为偶数(2)频数表法式中,L为中位数所在组段的下限,i为中位数所在组段的组距,fM为中位数所在组段的频数,n为总频数,fL为小于L的各组段的累计频数第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(三)中位数和百分位数3.百分位数指将n个观察值从小到大依次排列,再把它分成100等份,对应于X%位的数值即为第x百分位数中位数是第50百分位数,用P50表示第25,第75,第95百分位数记为P25,P75P95是统计学上常用的指标第一节第一节 数值变量资料的统计描述数值变量资料的统计描述二、集中趋势指标(三)中位数和百分位数4.计算方法式中fx为Px所在组段的频数,i为该组段的组距,L为该组段下限,fLg为小于L的各组段累计频数第一节第一节 数值变量资料的统计描述数值变量资料的统计描述三、离散趋势指标平均水平指标仅描述一组数据的集中趋势,可作为总体均 数的一个估计值。
由于变异的客观存在,需要一类指标描述资料的离散趋势全距,四分位数间距,方差,标准差,变异系数1.极差(R)是一组变量值中最大值与最小值之差,反映一组变量值的变异范围R=max-min第一节第一节 数值变量资料的统计描述数值变量资料的统计描述三、离散趋势指标1.极差优点:表示变异范围,简单明了;各种分布类型的资料均可用缺点:只用到最大、最小值,样本信息没能充分利用,不能反映所有数据的变异程度;受样本含量影响较大,样本例数越多,R可能越大,2组观察值例数悬殊时不用R比较;样本含量不变时,每次抽样得到的极差值相差较大,R稳定性较差第一节第一节 数值变量资料的统计描述数值变量资料的统计描述三、离散趋势指标2.四分位数间距(Q)Q=P75-P25四分位数间距越大,说明变异度越大;反之,说明变异度越小3.方差(均方差)反映一组数据的平均离散水平方差愈小,说明变量值的变异程度愈小;方差愈大,说明变异程度愈大第一节第一节 数值变量资料的统计描述数值变量资料的统计描述三、离散趋势指标3.方差4.标准差:把方差开平方,恢复了原来的单位,S表示样本标准差,表示总体标准差说明变量值的变异程度;标准差愈小,说明变量值的变异程度愈小;标准差愈大,说明变异程度愈大。
第一节第一节 数值变量资料的统计描述数值变量资料的统计描述三、离散趋势指标5.变异系数(CV)反映变量值的相对离散程度的指标变异系数为无量纲单位,可以比较不同单位指标间的变异度;变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度第一节第一节 数值变量资料的统计描述数值变量资料的统计描述四、正态分布与参考值的制定1.正态分布(高斯分布)是一种重要的连续型分布,应用甚广,是许多统计方法的理论基础第一节第一节 数值变量资料的统计描述数值变量资料的统计描述四、正态分布与参考值的制定(1)正态分布的特征在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以X=为对称轴,左右完全对称在X=处,f(X)取最大值,其值为;X越远离,f(X)值越小正态分布有两个参数,即均数和标准差第一节第一节 数值变量资料的统计描述数值变量资料的统计描述四、正态分布与参考值的制定(1)正态分布的特征在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以X=为对称轴,左右完全对称在X=处,f(X)取最大值,其值为;X越远离,f(X)值越小正态分布有两个参数,即均数和标准差o均数描述了正态分布的集中趋势位置,若固定o,改变值,曲线沿着X轴平行移动,其形状不变,故称为位置参数。
标准差o描述了正态分布的离散程度,若固定,o越小,曲线越陡峭;反之,o越大,曲线越平坦),故o称为形状参数或离散度参数第一节第一节 数值变量资料的统计描述数值变量资料的统计描述 第二节第二节 数值变量资料的统计推断数值变量资料的统计推断用样本信息来推断总体的特征,称为统计推断用样本信息来推断总体的特征,称为统计推断假设检验、参数估计 一、均数的抽样误差与标准误抽样误差:是指在没有系统误差和过失误差的前提下,单纯由于随机抽取样本而产生的样本指标(统计量)间或样本指标与总体指标(参数)之间的随机性误差抽样研究的目的是用样本信息推断总体特征因随机抽样造成的样本均数与总体均数之间差异或各样本均数之间差异称为均数的抽样误差第二节第二节 数值变量资料的统计推断数值变量资料的统计推断 一、均数的抽样误差与标准误有没有表示样本均数抽样误差大小的指标呢?求样本均数的标准差即可反映样本均数间的离散程度,也反映样本均数与总体均数间的差异我们把样本均数的标准差称为标准误 第二节第二节 数值变量资料的统计推断数值变量资料的统计推断标准差与标准误的区别标准差(标准差(S)标准误标准误意义个体变量值变异度大小,即原始变量值的离散程度。
样本均数抽样误差大小,即样本均数的离散程度应用医学参考值范围,对某一变量值是否在正常范围内作出初步判断;计算变异系数、标准误区间估计,对总体均数的大小作出初步判断;用于假设检验第二节第二节 数值变量资料的统计推断数值变量资料的统计推断二、t分布分布主要用于解决小样本的问题随机变量的 样本均数的 标准正态分布 标准正态分布1.t分布的特征以0为中心,左右对称其形态变化与自由度的大小有关第二节第二节 数值变量资料的统计推断数值变量资料的统计推断二、t分布1.t分布的特征 越小,t值分布越离散,曲线峰高越矮尾部越高 越大,z值分布越集中,曲线峰高上移尾部降低 趋近+,t分布趋近标准正态分布第二节第二节 数值变量资料的统计推断数值变量资料的统计推断三、总体均数的区间估计参数估计:用样本指标(统计量)来估计总体指标(参数)点(值)估计、区间估计两种方法1.点(值)估计用样本统计量直接作为总体参数的估计值2.区间估计均数的区间估计:指按预先给定的概率,确定的未知参数的可能范围第二节第二节 数值变量资料的统计推断数值变量资料的统计推断三、总体均数的区间估计2.区间估计估计错误的概率为,估计正确的概率为1-1-可信度或置信度(常取95%或99%)可信限(CL):下限(L),上限(U)可信区间(CI):根据一定的可信度估计得到的区间 两个要素:准确度和精密度3.根据已知条件,可信区间的估计有3种方法:(1)已知时,95%可信区间:(x-1.96x+x1.96x)99%可信区间:(x-2.58x,x-2.58x)第二节第二节 数值变量资料的统计推断数值变量资料的统计推断三、总体均数的区间估计3.根据已知条件,可信区间的估计有3种方法:(2)未知但n足够大(n 30)时95%可信区间:(x-1.96Sx,x+1.96Sx)99%可信区间:(x-2.58Sx,x+2.58Sx)(3)未知且n较小(n30)时:95%可信区间:(x-t0.05/2()Sx,x+t0.05/2()Sx)99%可信区间:(x-t0.01/2()Sx,x+t0.01/2()Sx)第二节第二节 数值变量资料的统计推断数值变量资料的统计推断四、假设检验的意义和步骤假设检验(显著性检验)主要用于判断两个或多个参数间的差别有无统计学意义。
1.基本步骤(1)建立检验假设,确立检验水准=0无效假设(H0)假定总体均数相同0或0或0备择假设(H1)假定总体参数不相同(差别不是由于抽样误差所致)检验水准(显著性水准),通常=0.05判别差异有无统计学水准第二节第二节 数值变量资料的统计推断数值变量资料的统计推断四、假设检验的意义和步骤1.基本步骤(2)计算检验统计量根据假设检验的目的和研究设计的类型选用不同的检验方法,如两组数值变量资料比较时可考虑用t检验(3)确定P值,做出推断结论P值是指在无效假设H成立的前提下,获得大于等于。
