
第一章-医学统计学的基本概念.ppt
48页Medical statistics 医学统计学,南京中医药大学基础医学院预防医学与卫生统计学系 地址:仙林大道138号B8楼B8410室(210046) TEL:86-25-85811553(O)13813925793(m) 电邮:wujuan1213@,吴 娟,2,2019/10/22,统计学(Statistics),研究数据的收集、整理、分析的一门学科 Statistics is the science dealing with the collections, analysis, interpretation and presentation of masses of numerical data.(Webster 国际大词典) Statistics is the science and art of dealing with variation in data through collection, classification and analysis in such a way as to obtain reliable result.,3,2019/10/22,统计学发展简史,起源于17世纪,称为古典统计学,最初是一种计数活动,在西方,统计学词语起源于此。
18世纪后叶,称为近代统计学,建立在大样本的大量观察,对数字资料和图表进行描述 1908年,现代统计学,由统计描述发展为统计推断 20世纪50年代,电子计算机技术的发展,促进了统计方法的应用和发展4,2019/10/22,数理统计学与生物医学的结合,生物统计学(Biostatistics) 应用于生物学研究,又称生物测量学Biometrics 医学统计学(Medical Statistics) 应用于医学研究,侧重于医学的生物性 卫生统计学(Health Statistics) 应用于医学研究,侧重于医学的社会性,5,2019/10/22,医学统计学 医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学6,2019/10/22,北京某医院某大夫使用“乌贝散” (乌贼骨3钱,白芨3钱,川贝3钱, 甘草3钱,共研细末过120目筛,冲服) 治疗胃溃疡病出血107例,有效101例,有效率为94.4%,别的医院,其他大夫使用“乌贝散”来治疗胃溃疡病出血,其有效率也一定是94.4%吗?,求 置信区间,医学统计和我们的日常工作(1),7,2019/10/22,北京某医院有位老大夫,用“冠心灵”治疗冠心病,其对照组用西药,观察结果如下表: 表1-1 冠心灵与单纯西药疗效对比 显 效 有 效 无 效 合计 单纯西药 9 25 6 40 冠 心 灵 19 18 5 42,冠心灵是否比单纯西药有效?,假设检验 (test of significance), 俗称要算P值。
医学统计和我们的日常工作(2),8,2019/10/22,北京15所医院,联合对心肌梗塞抢救治疗后的患者进行了随访调查,资料如下: 表1.2 心肌梗死抢救治疗后, 随访研究 随访数 死于本病 中断随访 第一年 1342 130 41 第二年 1171 48 53 第三年 1070 42 73 第四年 955 56 48 第五年 851 35 0,出院后第1年死亡率与以后几年的死亡率是否有明显差别?,中断随访的患者如何进行统计分析?,怎样的随访才算有效?,2年生存率?3年生存率?……,,,,医学统计和我们的日常工作(3),9,2019/10/22,某杂志中一篇文章报导,用某种中草药治疗 玫瑰糠疹,有效率为78%,平均疗程为3周左右 问此药治疗玫瑰糠疹的确有效吗?,由于玫瑰糠疹具有自然治愈的情况 ,一般不服药,多喝水,到3周左右有些患者也会自愈此药的 78%疗效有待探讨 !,医学统计和我们的日常工作(4),10,2019/10/22,统计工作的内容,1.设计(design) 要对所作工作的全过程有一个全面的设想,明确研究的目的,对研究的事物有一定的了解(可以通过查阅文献资料或作预试验来实现)。
11,2019/10/22,如:要研究什么? 收集什么资料? 如何收集? 人力财力条件可否? 观察对象和观察单位是什么?怎样汇总资料? 计算哪些统计指标? 样本例数是多少? 预期结果怎样?,12,2019/10/22,2.收集资料(collection of data),取得准确完整的原始数据 资料来源有: ①统计报表 ②工作记录(病历或化验报告单) ③调查或实验结果13,2019/10/22,如:要研究什么? 收集什么资料? 如何收集? 人力财力条件可否? 观察对象和观察单位是什么?怎样汇总资料? 计算哪些统计指标? 样本例数是多少? 预期结果怎样?,14,2019/10/22,3.整理资料(sorting data),将原始数据系统化条理化,即数据的预处理 资料的逻辑检查; 一致性检查; 原始数据的加工,15,2019/10/22,4.分析资料(analysis of data),计算有关统计指标,阐明事物的内在联系和规律,包括统计描述和统计推断16,2019/10/22,一些基本概念,同质和异质 变异 总体和个体 随机 参数和统计量 概率和频率 小概率事件和小概率原理 变量的分类 误差,17,2019/10/22,基本概念之一:同质和异质,具有相同性质的事物称为同质的(homogeneous)。
否则称为异质的或者间杂的(heterogeneous) 同质和异质是相对的概念 不同质的个体不能笼统地混在一起分析18,2019/10/22,个体的同质性是构成研究总体的必备条件 研究内容(指标/变量)不同,对同质性的要求不同,19,2019/10/22,在研究事物的形状时,同质和异质示例,,,,,,,,,,,,,,,在研究事物的颜色时,,,20,2019/10/22,基本概念之二:变异,同质事物之间的差别称为变异(Variation) 变异的两个方面: 不同观察单位(个体)间的差别 同一个体在不同阶段的差别(重复测量),21,2019/10/22,变异示例,,,,,,,,,,,,,,22,2019/10/22,同质个体间的差异 结果是随机的,不可预测的 一种或多种不可控因素(已知的或未知的)作用下的综合表现 个体变异是普遍存在的 个体变异是有规律的 没有个体变异,就没有统计学!,基本概念之二:变异,23,2019/10/22,基本概念之三:总体和个体,总体 Population:根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体 个体 Individual:是构成总体的最基本观察单位。
样本Sample:是从总体中按照一定的目的随机抽取的一部分个体为什么要抽样? 样本含量Sample Size:样本中包含的个体个数24,2019/10/22,如研究某地1995年的正常成人的血压值,现随机抽取150人,分别测定其血压值,则该地1995年全部正常成人的血压值就构成了一个总体,这150人的血压值就是样本抽样出的样本要满足怎样的条件?,25,2019/10/22,基本概念之四:随机,随机 Random :是指机会均等,目的是保证样本对总体的代表性、可靠性 随机抽样 有相同的机会被抽到 随机分组 有相同的机会被分到不同的组中 顺序随机,,,保证随机性,可采用:机械抽样法、分层抽样法及利用随机数字表(见书本),26,2019/10/22,基本概念之五:参数和统计量,总体参数 Parameter :反映变量值总体分布特征的统计指标常用希腊字母表示 统计量Statistic:根据样本观察值计算出的统计指标,常用拉丁字母表示 在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的,但统计量的分布是有规律的,这种规律是统计推断的理论基础。
27,2019/10/22,基本概念之六:频率和概率,频率 Relative frequency :在n次随机试验中,事件A发生了m次,则比值 称为事件A在这n次试验中出现的频率,28,2019/10/22,基本概念之六:频率和概率,抛硬币试验在频率的统计学定义上的诠释,29,2019/10/22,基本概念之六:频率和概率,概率的统计学定义: 数理统计学中的大数定理表明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数p:随机事件A发生的概率 (Probability) 概率描述了随机事件发生的可能性的大小是一种参数 0≤P ≤1,30,2019/10/22,抛硬币试验在概率的统计学定义上的诠释 每次投掷两枚硬币A和B,出现的四种可能 A正B正、A反B正、A正B反、A反B反 其概率都是1/4每次试验肯定会出现上述 四种结果中的一个,且仅会出现一个(互不相容性)基本概念之六:频率和概率,概率的古典定义,31,2019/10/22,基本概念之七:小概率事件,小概率事件 医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件 小概率原理 小概率事件并不表示不可能发生,但在某一次试验中,是不会发生的。
32,2019/10/22,基本概念之八:变量的分类,在医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标称为随机变量,简称变量(variable),而观察结果对应的取值称为变量值或观察值33,2019/10/22,三类资料,(1) 计量资料(quantitative data) (2) 计数资料(qualitative data) (3) 等级资料(ranked data, ordinal data),基本概念之八:变量的分类,34,2019/10/22,1.计量资料 (quantitative data),对每个观察单位用定量方法测定某项指标量的大小,所得资料称计量资料,一般有单位如体检时的身高、体重、胸围、肺活量、呼吸次数等,又如病人的红、白细胞数、血红蛋白、血小板数35,2019/10/22,2. 计数资料 (qualitative data),将观察单位按某种属性或类别分组,所得各组的观察单位数如调查某人群的血型分布,按O、A、B、AB分组,得各血型组的人数,又如作结核菌素试验,要计算阴、阳性人数。
36,2019/10/22,3.等级资料(半定量资料) (ranked data),将观察单位按某种属性或某个标志分组,得到各组的观察单位数,但各组之间具等级顺序如某病住院病人的治疗结果,按显效、有效、改善、无效分组,又如测定某项血清反应的 -、+、++、+++人数等级间只有顺序上的差别而无数值的大小,故等级之间是不能度量37,2019/10/22,资料类型的判断,38,2019/10/22,另一种分类,数值变量资料(numerical variable) 分类资料(categorical variable),,二分类(binary( dichotomous) variable) 多分类(polytomous variable ),无序多分类(multinomial) 有序多分类(ordinal) (等级资料,ranked data),39,2019/10/22,根据分析需要,三种资料可以转化,每个人的血红蛋白属计量资料 若按正常与异常分组得各组人数,则得到计数资料 若将血红蛋白按量(g/dl)的多少分成五等:16(血红蛋白增高)得各等级人数,就是等级资 料,40,2019/10/22,不同分类的互相转化 计量变量→无序分类变量 。
