
医学2定量资料的统计描述课件.ppt
22页医学统计学 Medical Statistics,三种平均数的特点,1、算术平均数 根据全体观察值计算得到,计算较为简单但对于极端值或偏态分布资料显得不稳定 2、几何均数 也根据全部观察值计算得到,只适宜于等比资料 3、中位数 将全部观察值由小到大顺序排列后,取中间位置所对应的量值不受极端值的影响,但不如均数精确二、离散趋势的描述,例、三组同性别、同年龄儿童的体重(kg)数据如下,试分析其集中趋势和离散程度甲组 乙组 丙组,甲组 26 28 30 32 34 =30kg n=5 乙组 24 27 30 33 36 =30kg n=5 丙组 26 29 30 31 34 =30kg n=5,仅用集中趋势不能全面描述数据分布的规律还需要用一些统计指标来反映其变异程度的大小 描述离散程度的常见指标有:全距、四分位数间距、方差、标准差及变异系数,其中以标准差和变异系数最为常用一)全距(range),全距也称作极差,用大写字母R表示; 为一组变量值中最大值与最小值之差; 反映资料分布的范围; 全距越大,说明数据的变异程度越大;全距越小,说明数据的变异程度越小。
例、三组同性别、同年龄儿童的体重(kg)数据如下,试分析其集中趋势和离散程度分别求出三组的极差 : 甲组:R=34-26= 8(Kg) 乙组:R=36-24= 12(Kg) 丙组:R=34-26= 8(Kg),甲组 26 28 30 32 34 =30kg n=5 乙组 24 27 30 33 36 =30kg n=5 丙组 26 29 30 31 34 =30kg n=5,甲组 乙组 丙组,优点:方法简单 缺点:① 不灵敏:反映最大值与最小值之间的差异,当组内其它数据变动时,全距不变② 不稳定:当样本例数增加时,获得过大或过小极端变量值的可能性增大,因而全距可能会变大 全距对变异度的描述很粗略,用来初步反映变异的大小二)四分位数间距,百分位数(percentile)指将观察值从小到大排列后,处于第x百分位置上的数,用符号Px表示 一个百分位数可将一组变量值分为两部分,理论上有x%的变量值比它小,有(100-x)%的变量值比它大四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。
四分位数间距(interquartile range)定义为:QL与QU间的差距,其间包括了全部观察值从小到大排列中间的一半,而不包括两端与全距相比,四分位数间距受极端值的影响小,比全距稳定 四分位数间距越大,说明变异度越大 适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度 常与中位数一起使用,(三)方差(variance)和 标准差(standard deviation),1、总体方差和标准差 应全面考虑每个观察值的变异情况X-)→ ∑(X-)=0 →∑(X-)2 → →,,,∑(X-)2,离均差平方和(sum of squares about the mean,简记为SS)总体标准差(standard deviation,简记为SD) 标准差和方差均反映个体变异,个体变异度越大,标准差和方差也越大,反之亦然2、样本方差和标准差,实际工作中得到的是样本资料,总体均数往往是未知的,只能用样本均数作为 的估计值,因此用 代替(X- )2、用样本例数n代替N 1908年英国统计学家Gosset提出,用n-1代替n作为校正。
自由度(df),其中,n-1称为自由度自由度为允许自由取值的个数 一般情况下,自由度=变量数-限制条件数例、三组同性别、同年龄儿童的体重(kg)数据如下,试分析其集中趋势和离散程度求甲、乙、丙三组数据的标准差 甲组:n =5, s =3.16(kg) 乙组:n =5, s =4.74(kg) 丙组:n =5, s =2.92(kg),甲组 26 28 30 32 34 =30kg n=5 乙组 24 27 30 33 36 =30kg n=5 丙组 26 29 30 31 34 =30kg n=5,标准差直接地、总结地、平均地描述了变量值的离散程度 在同质的前提下,标准差越大表示变量值的离散程度越大,即变量值的分布分散、不整齐、波动较大; 反之,标准差越小表示变量值的离散程度越小,即变量值的分布集中、整齐、波动较小四)变异系数(coefficient of variation),变异系数,简记为CV,是标准差s与均数之比 变异系数派生于标准差,它的应用价值在于排除了平均水平的影响,并且消除了单位 常用于:① 比较度量衡单位不同的两组或多组资料的变异度。
② 比较均数相差悬殊的两组或多组资料的变异度例 某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异何者为大由于度量单位不同,故不能直接比较两者的标准差,而应比较变异系数:身高体重 由此可见,该地20岁男子体重的变异度大于身高的变异度例 某地年龄儿童身高(cm)的变异,三、平均数与变异度的关系,平均数所表示的集中性与变异度所表示的离散性,是从两个不同的角度阐明计量资料的特征数据分布越集中,变异度越小,平均数的代表性就越好;反过来,数据分布越分散,变异度越大,则平均数的代表性就越差通常,平均数与变异指标一起描述资料的分布特征 用均数和标准差描述正态分布资料的特征 用中位数和四分位数间距描述偏态分布资料的特征谢谢!,。
