
卫生学第九章数值变量资料的统计分析.ppt
62页第九章 数值变量资料的统计分析,计量资料? 统计分析 统计描述 统计推断,,第一节 数值变量资料的统计描述,例1 某年某市抽样调查了120名5岁女孩身高(cm),资料如下,试通过频数表和频数分布图进行描述105.5 118.6 110.5 104.2 110.9 107.9 108.1 99.1 104.8 116.5 110.4 105.7 118.2 117.0 112.3 116.5 113.2 107.9 104.8 109.6 109.1 108.1 109.4 118.2 103.9 116.0 110.1 99.6 109.3 107.5 108.6 100.6 108.8 103.8 95.3 104.4 102.7 101.0 112.1 118.7 100.2 102.1 114.5 110.4 115.0 120.5 115.5 112.7 103.5 114.4 100.7 116.3 105.1 112.8 118.5 113.3 107.9 114.6 121.4 110.7 108.8 114.7 110.6 110.7 116.6 106.9 105.5 107.4 118.4 115.3 119.7 113.9 116.5 112.9 112.9 110.0 99.5 112.7 106.7 119.1 109.6 110.7 102.8 111.3 105.2 117.0 114.9 120.0 103.4 109.3 108.8 105.7 109.0 108.8 108.1 116.4 108.3 111.0 113.0 101.4 108.7 119.1 106.2 115.2 124.0 98.7 106.0 114.7 111.9 107.3 104.1 109.1 108.8 111.0 106.8 120.2 105.8 103.1 105.0 115.0,编制频数表 步骤: 1. 求全距 (range, R) (极差): 全部观察值中的最大值与最小值之差. R=124.0-95.3= 28.7cm 2. 划分组段 (区间) 确定组数: (10-15个为宜) 确定组距: 等距分组时, 组距 = 全距/ 组数 i = 28.7 / 10=2.873 确定各组段的上下限: 3. 统计各组段频数,频数 (frequency): 不同组别内的观察值个数,某市120名5岁女孩身高频数分布,,组段 划记 频数 频率 累积 累积 (cm) (f) (%) 频数 频率,,95 ~ 98 ~ 101 ~ 104 ~ 107 ~ 110 ~ 113 ~ 116 ~ 119 ~ 122 ~ 125,,1 7 10 18 25 21 15 15 7 1,合计 120 100.0 - -,,0.83 5.83 8.33 15.00 20.83 17.50 12.50 12.50 5.83 0.83,1 8 18 36 61 82 97 112 119 120,0.83 6.67 15.00 30.00 50.83 68.33 80.83 93.33 99.17 100.0,一 正 正正,某市120名5岁女孩身高频数分布图,频数分布图,计量资料的频数分布应该绘制直方图,直方的面积表示频数的多少, 直方面积占总面积的比例表示频率大小,横轴--- 观察变量 (组中值) 纵轴— 频数或频率,频数表的主要用途,1. 揭示频数分布的特征,2. 揭示频数分布的类型,对称分布: 偏态分布:,3. 便于发现特大或特小的可疑值,4. 便于进一步计算统计指标和进行统计分析,集中 或 离散,二、 平均水平指标,例2 现有12名5岁女孩的身高值分别为112.9,99.5,100.7,101.0,112.1,118.7,107.9,108.1,99.1,104.8,116.5,试问平均身高是多少?,算术均数 (arithmetic mean)简称均数(mean),直接法:,例1 某年某市抽样调查了120名5岁女孩身高(cm),资料如下. 试计算平均数,f : 频数, X:组中值= (本组段下限+下一个组段的下限)/ 2,加权法(weight method),某市120名5岁女孩身高频数分布,,组段 组中值 频数 (cm) (x) (f),,95- 98- 101- 104- 107- 110- 113- 116- 119- 122-125,,96.5 99.5 102.5 105.5 108.5 111.5 114.5 117.5 120.5 123.5,合计 120 ( f ),,1 7 10 18 25 21 15 15 7 1,几何均数 (geometric mean, G),,对于等比资料或经过对数转换可称为正态分布的资料,应计算几何均数。
例3 某医院预防保健科用流脑疫苗为75名儿童进行免疫接种后,抗体滴度测定结果如下表,求平均滴度平均抗体滴度为 1 : 27.35,=27.35,,几何均数 (geometric mean, G),例 4 某研究者测得7名中年知识分子SCL-90得分,分别为:87,90,91,92,95,96,108. 试求平均水平.,中位数 (median, M) 定义:一组数据,按照从大到小,或从小到大的 顺序排列,位置居中的数,叫中位数奇数时:,偶数时:,直接计算法:,例4 为研究中年知识分子的心理健康状况,某学院对1503名知识分子进行了SCL-90测定,结果如下表,试求平均水平频数表法:,80- 100- 120- 140- 160- 180- 200- 220- 240- 260- 280-300,表2.4 1503名中年知识分子SCL-90得分,频数,448 520 226 130 79 44 30 9 10 3 4,累积频数,448 968 1194 1324 1403 1447 1477 1486 1496 1499 1503,累积频率,29.81 64.40 79.44 88.09 93.35 96.27 98.27 98.87 99.53 99.73 100.00,,LM: 中位数所在组段下限 i : 中位数所在组段的组距 fM : 中位数所在组段的频数 ΣfL: 中位数所在组段前一组的累积频数,百分位数,描述集中趋势的指标:,1. 算术均数 (均数, mean),小样本—直接计算 大样本– 加权法,适用条件:,均数的特点:,各观察值与均数之差(离均差)的总和等于零,各观察值离均差平方和最小,适用于描述单峰对称分布,特别是正态分布 或近似正态分布的资料,2. 几何均数 (geometric mean, G),适用条件:,原始观察值呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的资料,如血清抗体滴度、细菌计数等。
应用时注意事项:,几何均数常用于等比资料或对数正态分布资料,观察值中若有0或负值, 则不能直接使用几何 均数,若观察值都是负值,将负号去掉后计算,再把结果加上负号,3. 中位数 (median,M),中位数是将一组观察值按大小顺序排列后,位次居中的观察值,适用条件:,1 可用于各种分布的资料 ,特别是偏态分布资料,正态分布资料: 均数=中位数 对数正态分布资料: G=M,2 也适用于两端无确切值的资料 3 分布不明确的资料,第三章 离散程度的统计描述,例 某医学院用自编生存质量量表测量3组同年龄、同性别中年知识分子 的躯体功能维度得分甲组: 8 8 9 10 11 12 12,乙组: 5 6 8 10 12 14 15,丙组: 1 2 5 10 15 18 19,,1. 极差(全距)= 最大值-最小值,甲R=12-8=4;乙:R=15-5=10 丙:R=19-1=18,,2. 四分位数间距,四分位数(quartile,Q): 将1或100等分为4个部分,在第25 位、50位、75位3个点上的数值就是四分位数记作: P25,P50,P75,下四分位数= P25,上四分位数= P75,四分位数间距= P75 - P25,方差 (variance) 标准差 (standard deviation, SD),离均差: X-µ 或,离均差平方和:,总体方差:,样本方差:,离均差之和:,自由度: degree of freedom, (df ) 或 (n-1) 允许自由取值的变量值个数,,,大样本时------加权法,例 某医学院用自编生存质量量表测量3组同年龄、同性别中年知识分子 的躯体功能维度得分。
甲组: 8 8 9 10 11 12 12,乙组: 5 6 8 10 12 14 15,丙组: 1 2 5 10 15 18 19,求标准差?,甲组 S =1.73 分 乙组 S =3.87 分 丙组 S =7.52 分,方差和标准差 是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标,方差和标准差越大--- 变异程度越大,例. 某市城区120名5岁女孩身高均数为110.15cm ,标准差为 5.86cm; 体重均数为17.71kg, 标准差为1.44kg , 请比较离散程度,身高: 体重:,=110.15cm,=17.71kg,S=5.86cm,S=1.44kg,4. 变异系数(coefficient of variation, CV),也称离散系数,CV=8.13%,CV=10.45%,用途:,1. 比较计量单位不同的几组资料的离散程度,2. 比较均数相差悬殊的几组资料的离散程度,小 结,描述计量资料离散程度的指标有:,1. 极差 (R),2. 四分位数间距 (Q) Q = P75-P25,3. 方差 (S2) 4. 标准差 (SD),5. 变异系数 (CV),第四节 正态分布及其应用,正态分布是自然界最常见的一种分布,例如,测量误差、人体的尺寸、许多生理、生化指标的值都近似服从正态分布。
正态分布是一种重要的连续型随机变量的概率分布一. 正态分布,,,,,,,,,,,,,,,,,,,,,,,,,,,,F(X),,正态分布曲线图形特点:,1. 曲线在横轴上方均数处最高,2. 正态分布以均数为中心,左右对称,3. 有两个参数,即位置参数 和 形态参数 ,,,,,,,,,1,2,3,,,,,,,,,,3,2,1,当 固定时, 越小,曲线越陡峭 越大,曲线越低平 当固定时,曲线的位置随不同而不同,以均值为 ,标准差为的正态曲线 记作 N( , 2),4. 正态曲线的面积分布有一定的规律,(1) 正态曲线与横轴间的面积恒等于1 或100% (总面积=1),(2) 正态分布是一种对称分布,其对称轴为直线 X= ; 对称轴两侧的面积各占50%.,(3) 曲线下不同区间的面积是固定的,,,对应于不同的参数 和 会产生不同位置、不同形状的正态分布为了应用方便,可以通过变量变换,将正态分布 N( , 2)转换成 N( 0, 1) 的标准正态分布,,,,0,,二. 标准正态分布,引入标准变换后,只须制定标准正态曲线下面积分布表,即标准正态分布曲线下的面积(P289),对于其他正态分布均可借助标准正态分布表估计任意(X1,X2)范围内的频数比例。
例 已知 u1= -1.76, u2= -0.25, 求标准正态曲 线下 (-1.76, -0.25) 范围内的面积,(-1.76, -0.25) = 0.4013-0.0392 = 0.3621,例 已知120名女孩身高均数为110.15cm ,标准差为5.86cm ,现欲估计该市城区某年身高界于104.0-108.0cm 范围内的5岁女孩所占比例及120名5岁女孩中身高界于104.0-108.0cm 范围内的人数.,= 110.15 S=5.。












