
3.4 病例对照研究.ppt
39页病例对照研究,(case-control study),,病例对照研究(case-control study)是最基本的现场调查研究方法之一,是检验病因假说的重要手段,已广泛地被应用,成为临床医师开展临床研究课题的一种重要方法一、概 念,病例对照研究是从目标人群中选择符合研究纳入标准的患某病的(或具有某特定条件的)个体作为病例,以未患该病(或不具该特定条件的)个体作为对照,调查他们既往有关因素的暴露情况,通过比较两组暴露情况的百分比差异,若两组差别有统计学意义,则可认为研究因素与疾病之间存在着统计学上的关联再借助病因判断原则,推断出该研究因素是否是疾病的危险因素,从而达到检验病因假说的目的二、特 点,⒈ 设立非患病者为对照组⒉ 回顾性研究(从果到因)⒊ 暴露情况资料由回顾获得⒋ 可以同时研究许多暴露因素,三、分 类 ①,㈠ 按研究对象来源:根据目标人群的类型,可分为,⒈ 以人群为基础的病例对照研究(population-based case-control study):目标人群为一自然人群,研究对象是其中符合纳入标准的某病确诊的病例及可作为对照的正常人⒉ 以医院为基础的病例对照研究(hospital-based case-control study):目标人群可理解为一个特殊人群,即普通人群中有病而来研究活动所在的医院就诊的人们。
病例组为该医院确诊的所研究的疾病的病人,其对照是患非研究疾病的该医院其他病人三、分 类 ②,㈡ 按对照形式:根据对照是否采用匹配(matching)研究设计分为两种基本类型:⒈ 非匹配病例对照研究:病例和对照来自同一源人群,按随机化的方法来选取,并要求两组具有可比性,但病例与对照的数量不需呈严格的比例,一般对照的数量应等于或多于病例⒉ 匹配病例对照研究:按照匹配的条件来选择对照,使匹配因素在研究的两组间分布均衡,进而可排除该因素的干扰四、设 计 要 点,㈠ 病例和对照的选择和来源(研究对象)㈡ 暴露的测量(研究因素)㈢ 样本含量的估计,主要考虑三方面:,㈠ 病例和对照的选择和来源,⒈ 病例的选择和来源⑴ 新发病例:指在研究期间内发生并初次明确诊断的病例⑵ 现患病例:指源人群中业已存在的患某病的病人⑶ 死亡病例:指研究中收集暴露史之前已死亡的病例⒉ 对照的选择和来源⑴ 当病例组是某自然人群中的全部病例或其中一个代表性样本,那么该自然人群的一个随机样本将是很好的对照组这种研究方式,即是人群为基础的病例对照研究⑵ 当病例组是选取某医院的住院病人时,选择该医院的患其他病的病人就比较合适,更能代表产生病例的人群。
这种研究方式,即是医院为基础的病例对照研究㈡ 暴 露 的 测 量,⒈ 病例对照研究关注的是疾病的危险因素,即着重比较组间对各种危险因素的暴露及其水平的评价⒉ 暴露因素可以是外环境接触到的某些因素,也可以是机体本身具有的特征,凡是与疾病有关的因素都可以作为暴露因素进行研究⒊ 对每一种暴露因素必须有严格的定义,并尽量与其他研究者的定义一致,以便相互比较⒋ 获取暴露资料的方法有面访、询问、信函以及查阅各种记录等,有时需要测量某些指标调查表是获取这些信息的良好载体㈢ 样本含量的估计,样本含量的估算方法有查表法 和公式法对初学者可用累计法,即先调查病例和对照各100例,然后进行统计学处理,视结果情况在决定增加样本量⒈ 非匹配病例对照研究的样本含量估计,⑴ 公式计算: n= [zα√2p q + zβ√(p1q1+ p2q2)]2/(p1-p2) 2注:n为样本含量; zα和zβ为标准正态分布下双(单)侧尾部面积为α和β时对应的正态变量界值,可查表得到;p1和 p2为病例组与对照组有暴露史的估计比例(暴露率)q1=1-p1;q2=1-p2;p = ( p1+p2)/2; q = 1-p。
实际工作中一般取α=0.05,β=0.1;p1和 p2值可通过查阅文献或预调查获得⑵ 直接查表:非匹配病例对照研究的样本含量可直接查表⒉ 匹配病例对照研究的样本含量估计,可采用Schelesselman公式来估计: n= [zα√(1+1/R)p q + zβ√p1q1+ p2q2/R]2 /(p1-p2) 2注:n为样本含量;zα和zβ为相对于α和β时对应的正态离差,可查表得到;R为对照数(匹配度);p1和 p2为病例组与对照组有暴露史的比例(暴露率)q1=1-p1;q2=1-p2;p = ( p1+Rp2)/(1+R); q = 1-p 在匹配研究设计中,病例与对照之比是1︰1时比较的效率最高但是实际工作中,有时病例来源有限,为提高把握度,可以增加匹配度(R)五、资料分析的策略及方法,㈠ 比较病例组与对照组之间有关因素的暴 露率的显著性差异㈡ 计算并判断暴露与疾病的关联强度,病例对照研究资料分析的基本方法:,㈠ 非匹配未分层资料的分析,,病例对照研究资料分析的最基本形式在病例对照研究中,对单一暴露因素的资料均可归纳成典型的四格表(即2×2表),然后进行计算分析。
适用于教材P225的举例(新生儿短肢畸形与母亲在妊娠期服用反应停关系的病例对照研究),,,常用的病例对照研究资料整理表(详见如下课堂内举例2),1. 两组暴露率的统计学显著性检验,χ2=(ad﹣bc)2(a+b+c+d)/(a+b)(c+d)(a+c)(b+d)χ2=(︱ad﹣bc︱- (a+b+c+d)/2)2×(a+b+c+d)/(a+b)(c+d)(a+c)(b+d),一般可用四格表的χ2 检验或校正的χ2 检验公式,分别计算各个研究因素的χ2 值,以此来检验病例组与对照组之间的每一个研究因素的暴露率是否有差异及差异的显著性水平2. 计算暴露与疾病的关联强度,⑴ 比值比(odds ratio,OR)的意义:病例对照研究中,一般而言,因不能计算发病率,而不能求得相对危险度(RR),故用OR来代替 OR的数值范围是0到无限大的正值其数值的大小的意义与RR相同即其数值为1时,表示暴露与疾病无关联;OR﹥1,表明疾病的危险度增加;OR﹤1,说明疾病的危险度减少⑵ OR及其95%置信区间的估计: ① OR可依公式计算: OR=ad/bc ② OR的95%置信区间,一般用Woolf法计算: Var ( ㏑OR ) = 1/a+1/b+1/c+1/d ㏑OR的95% CI = ㏑OR±1.96√Var ( ㏑OR ),,举例1:教材P225的研究实例,为探讨新生儿短肢畸形与母亲在妊娠第4~8周间服用反应停的关系。
研究者通过调查获得50例新生儿短肢畸形病例,其中有12例母亲服用过反应停;以同期入院的90例无短肢畸形者作对照,其母亲服用过反应停的有2例资料整理结果见下表: 母亲服用反应停与新生儿短肢畸形感关系的病例对照研究 母亲孕期服反应停史 有畸形儿的母亲 无畸形儿的母亲 合 计 有 12(a) 2(b) 14 (n1) 无 38(c) 88(d) 126 (n0) 合 计 50 (m1) 90 (m0) 140 (N),,,,,解答:,1. 两组暴露率的显著性检验: a=12; c=38; b=2; d=88χ2 = (︱ad﹣bc︱﹣N/2)2×N/ n1n0 m1m0 = [(12×88-2×38)-70]2×140/14×126×50×90 = 14.61 由于χ20.01(1) = 6.63,故P<0.01,认为两组暴露率有非常显著的差异,表 明母亲孕期服反应停是导致新生儿短肢畸形可能的危险因素。
2. 计算暴露与疾病的关联强度: 因病例对照研究不能计算发病率,而不能求得相对危险度(RR),用比值比(OR)来代替 OR= ad/bc=12×88/2×38=13.89 OR>3,故可以认为母亲孕期服反应停是导致新生儿短肢畸形高度有害的危险因素举例2:,,为研究胃癌发病可能的危险因素,有人采用病例对照调查,对200例研究对象进行了回顾性调查,其中100例为确诊的胃癌病人,100例为非胃癌病人,以研究胃癌与饮酒的关系,结果见下表:,组 别 饮酒史阳性 饮酒史阴性 合 计 病例组 60 40 100 对照组 10 90 100 合 计 70 130 200,,,,,请问对该资料应如何分析处理?请列出相应步骤,计算相关指标,并对数据结果作出恰当解释可能需要的公式和界值:χ2= (ad-bc)2 (a+b+c+d) / (a+b)(c+d)(a+c)(b+d) χ20.05(1) =3.84;χ20.01(1) = 6.63,解答:,1. 两组暴露率的显著性检验: a=60; c=40; b=10; d=90; χ2= (ad-bc)2 (a+b+c+d) / (a+b)(c+d)(a+c)(b+d) = (60×90 -10×40)2×200/(60+10)(40+90)(60+40)(10+90) = 54.95 由于χ20.01(1) = 6.63,故P<0.01,认为两组暴露率有非常显著的差异,表明饮酒史是胃癌发病可能的危险因素。
2. 计算暴露与疾病的关联强度: 因病例对照研究不能计算发病率,而不能求得相对危险度(RR),用比值比(OR)来代替 OR= ad/bc=5400/400=13.5 OR>3,故可以认为饮酒史是胃癌发病高度有害的危险因素㈡ 匹配设计资料的分析,⒈ 有关匹配的一些概念 ⑴ 匹配(matching):是选择对照的一种方式,是指在选择对照时应用一种限制性方法,使对照与病例在某些混杂变量上保持同质性,以达到控制混杂因素的目的⑵ 匹配条件(matching condition)及选择:用来匹配的因素称为匹配变量或匹配条件匹配条件不应是研究者感兴趣的研究变量因为该变量一旦被作为匹配因素,就使得病例组和对照组在该因素分布上一致,也就不能分析比较该因素与疾病的关系了选择方法如下, ①已知或非常怀疑是混杂因素的因素,应作为匹配条件 ②以某些复合变量作为匹配条件,因组成复合变量的各种成分存在不可预知的混杂效应 ③匹配因素的数量一般不超过4~5个,否则匹配难以实现 ④年龄和性别是最常见的混杂因素,它们与许多疾病及许多危险因素都有联系,因而常 用这两个因素作为匹配条件。
⑶ 匹配过头(overmatching):就是把不起混杂作用的变量也作为匹配因素这些因素有可能是疾病的潜在危险因素这些因素一旦被作为匹配条件进行了匹配,因素与与疾病之间的真正联系就会被掩盖⑷ 匹配度(R):在匹配设计中,病例与对照之比是1:1时比较的效率最高但是,在实际工作中,有时病例来源有限,为提高把握度,可以增加匹配度。












