好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

医学统计学:2 统计资料的整理与描述.ppt

55页
  • 卖家[上传人]:窝***
  • 文档编号:201016240
  • 上传时间:2021-10-08
  • 文档格式:PPT
  • 文档大小:1.74MB
  • / 55 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 统计资料的整理与描述Data SummaryMedical statistics医学统计学2主要内容 个体变异规律性的体现:分布 用图表说话:频数图和频数表 频数图和频数表的信息 资料的统计描述描述集中位置的指标描述离散趋势的指标正确应用 总结3个体变异的规律性 个体变异(individual variation)是同质观察对象间表现出的差异 变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映 就个体而言:变异是随机的(random) 就总体而言:个体变异是有规律的4例:个体变异的表现 某地所有20岁健康男生的血红蛋白 某地所有20岁健康男生和女生的血红蛋白 江苏和西藏所有20岁健康男生的血红蛋白 某地所有20岁健康男生和女生的白细胞计数5个体变异的规律性 分布 就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random) 就总体而言,个体变异是有规律的 当观察值(样本含量)的个数达到足够多时,其分布将趋于稳定,并最终服从于总体分布变异规律的体现:分布(distribution)6例:乱七八糟的原始数据某地100名成年男子红细胞计数(1012个/升 )资料如下:4.095.335.624.635.184.275.073.603.315.324.884.314.125.334.404.793.925.464.815.094.204.133.944.415.264.665.295.235.583.534.544.684.484.404.764.814.574.973.945.484.275.105.785.123.604.014.755.806.015.505.364.184.334.844.744.604.764.584.344.724.813.844.174.853.294.914.454.434.994.494.355.265.045.384.935.414.523.864.994.244.504.924.135.055.145.055.174.555.425.704.676.184.375.404.154.084.714.124.794.897频数分布表和频数分布图 原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。

      现状:医学研究得到的原始数据(raw data)往往是庞大的、混乱的 解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图 频数表编制步骤 求极差 选定适当的组段数后估计组距 列出组段 划记归组获得频数 求频率,完成频数表 9频数分布表的编制 求极差或全距(Range): R=Xmax-Xmin 选定适当的组段数后估计组距( i )组段数的选取以能反映资料的分布特征为宜一般取8 15组10频数分布表的编制 列出组段组段的含义:包括组段的下限而不含组段的上限 如:3.2 等价于 3.2,3.5)第一个组段应包含最小值 最后一个组段应包含最大值11频数分布表的编制 划记归组获得频数常用的划记方法: “正” ;“|” 求频率,完成频数表相应的频数除以总数即为频率各组段的频率总和为1或者100%12100名成年男子红细胞计数频数表组组 段(1)频频 数(2)频频 率()(3)3.222.003.533.003.888.004.11616.004.41818.004.72121.005.01414.005.31212.005.644.005.96.222.00合 计计100100.0013100名成年男子红细胞计数频数图100名成年男性的血红细胞计数的频数分布 人数红细胞(1012个/升)3.2 3.5 3.8 4.1 4.4 4.7 5.0 5.3 5.6 5.9 6.2 0 5 10 15 20 14120名12岁男童身高的频数分布图124132140148156164010203040人数身高(cm)15239人发汞含量的频数分布70 3 5 7 9 11 13 15 17 19 21 10 20 30 40 50 60 0 1 发汞含量(mol/kg)人数16某市892名老年人生存质量自评分频数分布 0 10 20 30 40 50 60 70 80 90 100 100 200 300 0 400 自评分人数17 102名黑色素瘤患者的生存时间频数分布 0 5 10 15 20 25 30 35 40 45 0 1 02 03 040 生存时间(月)人数18某地某年10000例死亡者年龄分布 死亡年龄(岁)人数0 10 20 30 40 50 60 70 80 0 1000 2000 3000 4000 19分类资料的频数分布血型频数频率(%) O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计507100.0020EXCEL制作的频率图21频数分布所提供的信息 频数分布图用以表示数据的分布规律。

      观察有无可疑值 考察分布的类型 对称分布非对称分布(偏态分布)左偏态(负偏态)右偏态(正偏态) 考察分布的特征 集中位置 (Central Tendency)离散趋势 (Tendency of Dispersion)22289只近视眼Lasik术后1月裸眼视力0.000.100.200.300.400.500.600.700.800.901.001.10 1.200.0071.0023偏态,正偏态和负偏态 分布不对称者称为偏态分布 偏态分布又分为正偏分布和负偏分布 所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布; 所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布24偏态分布1:老年人生存质量自评分0 10 20 30 40 50 60 70 80 90 100 100 200 300 0 400 自评分人数25偏态分布2: 黑色素瘤患者的生存时间0 5 10 15 20 25 30 35 40 45 0 1 02 03 040 生存时间(月)人数26集中位置和离散趋势124132140148156164010203040人数身高(cm)27描述集中位置的指标平均数(Average)算术均数(Mean)几何均数(Geometric Mean)中位数(Median)百分位数(Percentile)28描述集中位置的指标:算术均数算术均数(arithmetic mean, mean) 总体均数 样本均数 29加权均数 加权均数(weighted mean) 均数是加权均数的一个特例30描述集中位置的指标:几何均数 几何均数(geometric mean,G)31几何均数例 1:10, 1:20, 1:40, 1:80, 1:16032描述集中位置的指标:中位数 中位数(median,M) 将一组数据按从小到大的顺序排列,位置居中的数即是中位数。

      33中位数例 9例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 34中位数例 对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活 本资料属于“开口”资料 本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天35描述集中位置的指标:百分位数 百分位数(percentile) X% PX (100-X)% 50%分位数就是中位数 25%,75%分位数称四分位数(quartile)36应用中位数和百分位数时注意 中位数和百分位数的计算对资料分布没有特殊要求,所有资料均可计算中位数和百分位数 中位数只受位置居中的变量值影响,与两端的极端值无关,因此在抗极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。

      37平均数应用的注意事项 同质的资料计算平均数才有意义 均数适用于:单峰对称分布的资料 几何均数适用于:对数变换后单峰对称的资料等比资料、滴度资料、对数正态分布资料 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数偏态分布、分布不明资料、有不确定值的资料38平均数应用的注意事项 计算几何均数时:变量值中不能有0同一组变量值不能同时存在正、负值若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用39只用平均数描述资料的弊病 It has been said that a fellow with one leg in frozen ice and the other leg in boiling water is comfortable ON AVERAGE !40例 只用平均数描述资料的弊病 甲组 26 29 30 31 34 均数30kg 乙组 24 27 30 33 36 均数30kg 丙组 26 28 30 32 34 均数30kg丙乙甲三组儿童体重的离散程度41描述离散趋势的指标变异度极差(Range)四分位数间距(interquartile range)方差(Variance)标准差(Standard Deviation)变异系数( coefficient of variation )42描述离散趋势的指标:极差 全距(range),极差 R = maxmin 优点: 简单明了 缺点: 不灵敏 不稳定 43描述离散趋势的指标:四分位数间距四分位数间距(inter-quartile range) QU QL P75 P25 即中间一半观察值的极差。

      四分位数(quartile)是两个特定的百分位数:第25分位数P25,和第75分位数P75,分别记为QL和QU 四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征 4425%25%25%25%排序数据:按从小到大顺序排列MQLQUinter-quartile rangeQ2Q1Q345描述离散趋势的指标:方差方差(variance) 46描述离散趋势的指标:标准差标准差(standard deviation, sd) “离均差平方之和 平均后的方根” “均方根”n-1 称为自由度 (degree of freedom) ,即“可以自由变异的程度”因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”47标准差 标准差大:分布分散、不整齐、波动大; 标准差小:分布集中、整齐、波动较小 48三组同性别、同年龄儿童的体重(kg)甲组 26 29 30 31 34 乙组 24 27 30 33 36 丙组 26 28 30 32 34 极差 方差 标准差甲组 8 8.50 2.92乙组 12 22.50 4.74丙组 8 10.00 3.1649描述离散趋势的指标:变异系数变异系数(coefficient of variation, CV) 排除了平均水平的影响,并取消了单位。

      因此变异系数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度 50不同指标间变异度的比较51正确应用(1) 算数均数:适用于单峰对称分布资料; 几何均数:适合于作对数变换后单峰对称分布资料; 中位数和百分位数:适用于任何分布的资料; 中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定; 中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确 因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平 不同质的资料应考虑分别计算平均数。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.