
【7A版】医学统计学(CLW).doc
63页7A版优质实用文档医学统计学绪论医学统计学(MedicalStatistics)l 基础:概率论和数理统计等数学的原理、方法l 研究对象:医学资料l 研究任务:搜集、整理、分析和推断l 性质:一门应用学科基本概念(1)同质与异质l 同质(homogeneity):性质相同l 异质(heterogeneity):性质不同例如,调查某地20GG年12岁男童身高,则它的观察单位是每一个儿童,它的同质基础是同一地区、同一年份、同一年龄、同为男性n 个体的同质性是构成研究总体的必备条件n 研究内容(指标/变量)不同,对同质性的要求不同同质和异质是相对的概念(2)变异同质事物之间的差别称为变异(variation)亦称个体变异变异的两个方面:• 个体与个体间的差别• 同一个体重复测量值间的差别个体变异(individualvariation)l 同质个体间的差异l 一种或多种不可控因素(已知的或未知的)作用下所产生的反映的综合表现l 结果是随机的(无法绝对正确地预测)l 个体变异是普遍存在的l 个体变异是有规律的l 没有个体变异,就没有统计学!(3)总体(population)按研究目的所确定的同质研究对象某项观察指标的全体,即全体观察单位。
– 有限总体(finite)– 无限总体(infinite)l 个体(individual)组成总体的基本单位l 样本(randomsample)从研究总体中随机抽取具有代表性的部分观察单位– 代表性,包含了总体的特性– 样本含量(samplesize)样本中包含个体的数量(4)参数和统计量l 总体参数(populationparameter)总体的特征值称为参数– 未知的,固有的,不变的,需要研究的!l 样本统计量(samplestatistic)由样本所算出的统计指标或特征值称为统计量– 已知的,变化的,有误差的!l 在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的l 参数一般用希腊字母表示,如:总体均数m总体标准差s总体率p总体相关系数rl 统计量一般用拉丁字母表示如:样本均数样本标准差s样本率p样本相关系数r(5)随机(random)机会均等,无主观影响– 抽样随机(randomsampling)有相同的机会被抽到– 分组随机(randomallocation)有相同的机会被分到不同的组中– 顺序随机(randomorder)有相同的机会先后接受处理(6)频率和概率1)频率(relativefrequency):在n次随机试验中,事件A发生了m次,则比值称为事件A在这n次试验中出现的频率。
2)概率:数理统计学中的大数定理表明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数p:随机事件A发生的概率(probability)概率描述了随机事件发生的可能性的大小是一种参数常用P来表示0≤P≤1(7)小概率事件(rareevent)当某事件发生的概率很小(可能性很小),统计学上称该事件为小概率事件医学上:小于或等于0.05小概率原理:小概率事件在一次试验中认为是不会发生的8)变量l 医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标称为随机变量,简称变量(variable)l 观察结果对应的取值称为变量值或观察值变量的分类l 数值变量numericalVariable(定量变量)可认为是连续的,往往有单位,取值间的差异是可度量的l 分类变量categoricalVariable取值是是分散、定性的,表现为互不相容的类别和属性ü 无序分类(定性变量):无顺序,无间隔,仅有分类p 二项分类p 多项分类ü 有序分类(等级变量):仅有顺序,无单位,取值间的差异是不可度量的不同分类的互相转化n 数值变量→无序分类变量n 数值变量→有序分类变量n 有序分类变量→无序分类变量信息量只有减少,不可增加(9)三个步骤l 研究设计运用医学统计学的起点,也是高质量地完成整个研究的重要基础。
l 资料分析在研究设计基础上,通过实验(试验)或调查,将所得数据进行统计学处理的过程l 结论在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论统计资料的整理与描述,数值变量资料(1) 个体变异(individualvariation)是同质观察对象间表现出的差异变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映就个体而言:变异是随机的(random)就总体而言:个体变异是有规律的2)频数分布表和频数分布图原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图频数表编制步骤l 求极差l 选定适当的组段数后估计组距l 列出组段l 划记归组获得频数l 求频率,完成频数表例2.1(P9)频数分布表的编制l 求极差或全距(Range):R=GmaG-Gmin– R=6.18-3.29=2.89l 选定适当的组段数后估计组距(i)– 组段数的选取以能反映资料的分布特征为宜– 一般取8~15组– i=2.89/10=0.289≈0.3l 列出组段– 组段的含义:包括组段的下限而不含组段的上限。
如:3.20~等价于[3.20,3.50)– 第一个组段应包含最小值– 最后一个组段应包含最大值l 划记归组获得频数– 常用的划记方法:“正”;“||||”l 求频率,完成频数表– 相应的频数除以总数即为频率– 各组段的频率总和为1或者100%频数分布类型l 对称分布:以正态分布较为常见l 非对称分布:偏态分布– 正偏态:右侧>左侧向右侧拖尾 – 负偏态:左侧>右侧向左侧拖尾频数分布特征Ø 数据分布的范围:3.29~6.18Ø 集中位置:中等大小人数居多,向中间集中ü 数据最集中的区间:4.70~5.00Ø 离散趋势:以中等大小的区间为中心,向两侧逐渐减少Ø 分布形态:基本对称(3) 数值变量资料的统计指标集中位置的描述离散趋势的描述集中位置的描述----平均数(average)均数1)均数(arithmeticmean,mean)l 总体均数l 样本均数2)加权均数(weightedmean)均数是加权均数的一个特例3)几何均数(geometricmean)几何均数例1:10,1:20,1:40,1:80,1:160(例2.3)l 中位数(median)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。
l 百分位数(percentile)l 排序数据:按从小到大顺序排列平均数应用的注意事项l 同质的资料计算平均数才有意义l 根据资料分布的特征选用适当的平均数– 均数:单峰对称分布的资料– 几何均数:各变量值之间成倍数关系,分布呈偏态,经对数变换后呈单峰对称分布资料– 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数偏态分布、不规则分布资料、有不确定值的资料)l 计算几何均数时:– 变量值中不能有0– 同一组变量值不能同时存在正、负值– 若变量值全为负值,可先将负号除去,算出结果后再冠以负号– 样本含量较少时不宜计算靠近两端的百分位数l 平均数要与变异指标结合使用离散趋势的描述1.全距(Range) 亦称极差,记为R,是一组变量值中最大值与最小值之差ü 优点:简单明了ü 缺点:不灵敏、不稳定2.四分位数间距(interquartilerange) 定义为:QL~QU,即中间一半观察值的极差 四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。
排序数据:按从小到大顺序排列3.方差(Variance)和标准差(StandardDeviation)• 总体均数m未知,用样本均数估计标准差“离均差平方之和平均后的方根”“均方根”n-1称为(标准差的)自由度,即“可以自由变异的程度”分子有n项离均差,但只有n-1项独立,根据任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”• 标准差大:分布分散、不整齐、波动大;• 标准差小:分布集中、整齐、波动较小4.变异系数(coefficientofvariation)亦称离散系数(coefficientofdispersion),是标准差s与均数之比,即:变异系数的两个特点及相应的用途• 没有单位– 反映标准差占均数的百分比或标准差是均数的几倍– 可用来比较度量衡单位不同的资料的变异度• 不受平均水平的影响– 反映的是以均数为基数的相对变异的大小– 比较均数相差悬殊的资料的变异度(例2.7)5.平均数与变异度的关系• 平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征– 变异度越小,平均数对各变量值的代表性越好– 变异度越大,平均数对各变量值的代表性越差• 通常,平均数与变异指标一起描述资料的分布特征。
– 用均数和标准差描述正态分布资料的特征;– 用中位数和四分位数间距描述偏态分布资料的特征资料的指标描述l 统计描述的一个重要的组成部分l 数值变量资料的统计指标l 平均水平指标:算术均数、几何均数、中位数等l 离散程度指标:全距、四分位数间距、方差、标准差、变异系数l 分类资料的统计指标l 相对数指标正态分布(1) 正态分布的概率密度函数如果随机变量G的概率密度函数(-¥<G<+¥)m为总体均数,s为总体标准差p为圆周率,e为自然对数的底G为变量,代表横轴的数值,f(G)为纵轴数值则称G服从正态分布,记作G~N(m,s2),其中,m为分布的均数,s为分布的标准差方差相等、均数不等的正态分布图示均数相等、方差不等的正态分布图示(2)正态分布的特征• 单峰分布;高峰在均数处;• 以均数为中心,均数两侧完全对称• 正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)• 有些指标本身不服从正态分布,但经过变换之后可以服从正态分布• 正态曲线下的面积分布有一定的规律3)正态曲线下的面积规律• G轴与正态曲线所夹面积恒等于1• 对称区域面积相等S(m-G1,m-G2)=S(m+G1,m+G2)S(-¥,m)=0.5S(-¥,¥)=1S(-¥,m-1s)=0.1587S(-¥,m+1s)=0.8413S(-¥,m-2s)=0.0228S(-¥,m+2s)=0.9772S(-¥,m-3s)=0.0013S(-¥,m+3s)=0.。
