好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

如何通过建模控制混杂因素文档讲课文档.ppt

37页
  • 卖家[上传人]:那****丑
  • 文档编号:284384359
  • 上传时间:2022-04-28
  • 文档格式:PPT
  • 文档大小:9.23MB
  • / 37 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 如何通过建模控制混杂因素文档第一页,共三十七页 原来前述论文发表后,受到美国癌肿协会和英国统计协会的怀疑,他们派人对该批数据重新做统计分析,其结论是:“饮水氟化没有发现有致癌作用,相反,却略有保护作用两个结论差别如此之大,根源在于第一分析法未控制混杂,采用单因素分析法,而后一个结论则把两个城市中的种族、生活环境上的混杂因素进行控制(多元统计分析),再去比较两组城市的癌症患病率第二页,共三十七页 案例:携带火柴和发生肺癌间有关系? 某研究者进行问卷调查,结果发现:是否携带火柴和肺癌患病率有关,携带火柴的人更有可能发生肺癌 难道这表明携带火柴可能引起肺癌?! 客观事实:携带火柴不可能引起肺癌!第三页,共三十七页混杂因素的影响混杂因素的影响 携带火柴携带火柴 ? 肺癌肺癌 吸烟吸烟 这中间存在混杂因素-吸烟 第四页,共三十七页5一、混杂因素一、混杂因素 混杂(混杂(confounding):指在流行病学研究中,指在流行病学研究中, 由由于一个或多个潜在的混杂因素的影响,掩盖或夸大了于一个或多个潜在的混杂因素的影响,掩盖或夸大了研究因素与疾病(或事件)之间的联系,从而使两者研究因素与疾病(或事件)之间的联系,从而使两者之间的真正联系被错误地估计,造成混杂。

      之间的真正联系被错误地估计,造成混杂1. 概念概念 混杂因素(混杂因素(confounding factor):指与研究因素和研指与研究因素和研究疾病均有关,若在比较的人群中分布不均,可以歪曲究疾病均有关,若在比较的人群中分布不均,可以歪曲研究因素与疾病之间真正联系的因素研究因素与疾病之间真正联系的因素第五页,共三十七页6 2. 混杂因素的基本特点:混杂因素的基本特点:(1)必须与所研究疾病有关)必须与所研究疾病有关(2)必须与所研究因素有关)必须与所研究因素有关(3)一定)一定不是研究因素与研究疾病因果链上的中间变量不是研究因素与研究疾病因果链上的中间变量 具备基本条件,如果在比较的人群中分布不均,即具备基本条件,如果在比较的人群中分布不均,即可导致偏倚可导致偏倚第六页,共三十七页策略策略 设计阶段设计阶段限制进入限制进入 随机化分组随机化分组匹配匹配 7 分析阶段分析阶段分层分析分层分析 标准化标准化多因素分析多因素分析如何控制混杂因素?如何控制混杂因素?第七页,共三十七页二、如何通过建模控制混杂因素二、如何通过建模控制混杂因素第八页,共三十七页 表表1 1 数据形式数据形式(P(P2 2) ) 观察对象观察对象 X X1 1 X X2 2 X Xp p Y Y 1 a11 1 a11 a12 a12 a1p y1 a1p y1 2 a21 a22 2 a21 a22 a2p y2 a2p y2 n an1 an2 n an1 an2 anp yn anp yn 分因变量具体情况: y是计量资料,多元线性回归分析 y是定性资料,尤其是二值资料,采用 Logistic回归分析 y=t是生存时间,后面有是否为完全数据标志,采用 COX回归分析 设在实际研究问题中,含有p个自变量x1, x2,xp;1个因变量,n个观察对象。

      第九页,共三十七页 在在医医学学实实践践中中,常常会会遇遇到到一一个个应应变变量量与与多多个个自自变变量量数数量量关关系系的的问问题题如如医医院院住住院院人人数数不不仅仅与与门门诊诊人人数数有有关关, , 而而且且可可能能与与病病床床周周转转次次数数, , 床床位位数数等等有有关关;儿儿童童的的身身高高不不仅仅与与遗遗传传有有关关还还与与生生活活质质量量,性性别别,地地区区,国国别别等等有有关关;人人的的体体表表面面积积与与体体重重、身高等有关身高等有关第十页,共三十七页多元线性回归模型多元线性回归模型 通通过过实实验验测测得得含含有有p p个个自自变变量量x1,x2,x3,x1,x2,x3,xp,xp及及一一个个因因变变量量y y的的n n个个观观察察对对象象值值, , 利利用用最最小小二二乘乘法法原原理理, , 建立多元线性回归模型建立多元线性回归模型: : 其其中中b b0 0为为截截距距, , b1 b1 ,b2 ,b2 bpbp称称为为偏偏回回归归系系数数. . bibi表表示示当当将将其其它它p-1p-1个个变变量量的的作作用用加加以以固固定定后后, , XiXi改改变变1 1个个单位时单位时Y Y将改变将改变bibi个单位个单位. . 第十一页,共三十七页。

      例:例: 27名糖尿病人的性别、年龄、血清名糖尿病人的性别、年龄、血清总胆固醇、甘油三脂、空腹胰岛素、糖化总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表血红蛋白、空腹血糖的测量值列于表3中,中,试建立血糖与其它几项指标关系的多元线性试建立血糖与其它几项指标关系的多元线性回归方程回归方程多元线性回归分析12第十二页,共三十七页表表3 273 27名糖尿病人的血糖及有关变量的测量结果名糖尿病人的血糖及有关变量的测量结果 13第十三页,共三十七页14资料的研究目的是建立血糖与其它因素的线性回资料的研究目的是建立血糖与其它因素的线性回归方程归方程性别和年龄与应变量(血糖)含量有关,也可性别和年龄与应变量(血糖)含量有关,也可能与自变量(血清总胆固醇、甘油三脂、空腹能与自变量(血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白)有关,因此,怀疑性胰岛素、糖化血红蛋白)有关,因此,怀疑性别、年龄为混杂因素别、年龄为混杂因素将混杂因素(性别和年龄)放到多元线性回将混杂因素(性别和年龄)放到多元线性回归模型中进行控制,从而更加准确地考察其归模型中进行控制,从而更加准确地考察其它自变量与血糖的关系它自变量与血糖的关系第十四页,共三十七页。

      SPSS分析结果分析结果结果为扣除性别和年龄两个混杂因素的影响后,各指结果为扣除性别和年龄两个混杂因素的影响后,各指标与血糖的关系标与血糖的关系15第十五页,共三十七页 在医学上在医学上, ,人们更关心疾病是否发生或发展的影响因素人们更关心疾病是否发生或发展的影响因素, ,既因变量是二值的既因变量是二值的 令:令: y=1 y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等) y=0 y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等) Logistic Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类可用影响结果变量发生的因素为自变量与因变量,建立回归方程第十六页,共三十七页LogisticLogistic回归回归- Logistic- Logistic回归种类回归种类成组资料的非条成组资料的非条件件LogisticLogistic回归回归配对资料的条件配对资料的条件LogisticLogistic回归回归两分类反应变量的两分类反应变量的LogisticLogistic回归回归多分类有序反应变量多分类有序反应变量LogisticLogistic回归回归多分类无序反应变量多分类无序反应变量LogisticLogistic回归回归1:11:1配对资料的条件配对资料的条件LogisticLogistic回归回归1:m1:m配对资料的条件配对资料的条件LogisticLogistic回归回归n:mn:m配对资料的条件配对资料的条件LogisticLogistic回归回归L Lo og gi is st ti ic c回回归归分分析析第十七页,共三十七页。

      表5 肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟地区中,1代表农村,0代表城市第十八页,共三十七页 由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有影响 所得的回归方程为: Logit(P)=-9.781+2.520X1+3.999X2+0.189X3- 1.3067X4第十九页,共三十七页解 释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数 当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素 第二十页,共三十七页弗明汉心血管疾病研究弗明汉心血管疾病研究 742名名居居住住在在弗弗明明汉汉年年龄龄为为40-49岁岁的的男男性性,在在各各自自暴暴露露不不同同水水平平的的影影响响因因素素(详详见见下下表表中中的的6种种因因素素),经过经过12年的追踪观察冠心病(年的追踪观察冠心病(CHD)的发病情况。

      的发病情况 根根据据此此742名名受受试试者者每每人人暴暴露露各各项项因因素素的的水水平平和和CHD发发病病与与否否的的资资料料,采采用用多多因因素素Logistic回回归归模模型进行分析型进行分析21多因素Logistic回归分析第二十一页,共三十七页资料的研究目的是探讨资料的研究目的是探讨CHDCHD发病与否的危险因素发病与否的危险因素 血液中的胆固醇水平、血红蛋白浓度、血压水平、血液中的胆固醇水平、血红蛋白浓度、血压水平、 吸烟量因素可能是吸烟量因素可能是CHDCHD发病的危险因素发病的危险因素年龄既与胆固醇水平、血红蛋白水平、血压水平等因素年龄既与胆固醇水平、血红蛋白水平、血压水平等因素相关,又与相关,又与CHDCHD是否发病相关,怀疑年龄是混杂因素是否发病相关,怀疑年龄是混杂因素使用多因素使用多因素Logistic回归分析,将年龄放到模型中进行控回归分析,将年龄放到模型中进行控制,考察制,考察CHDCHD发病的危险因素发病的危险因素22第二十二页,共三十七页23SPSS分析结果分析结果变量参数估计值 标准误OROR的95%CILowerUpper截距-13.2573年龄0.12160.04371.13001.03661.2303胆固醇(mg/dl)0.00700.00251.01001.00211.0120BP(mmHg)0.00680.00601.01000.99511.0187血红蛋白(g%)-0.00100.00980.99900.98001.0184吸烟(0,1,2,3)0.42230.10311.53001.24641.8671ECG(0,1)0.72060.40092.06000.93694.5103第二十三页,共三十七页。

      影影响响生存时间的长短不仅与治疗措施有关, 还可能与病人的体质, 年龄, 病情的轻重等多种因素有关如何找出它们之间的关系呢?对生存资料不能用多元线性回归分析 1972年英国统计学家Cox DR. 提出了一种能处理多因素生存分析数据的比例危险模型 ( ( Coxs proportional harzard model)Coxs proportional harzard model)COX回归模型分析第二十四页,共三十七页2022/4/2825生存时间(survival time):疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短所经历的时间称为生存时间 完全与不完全数据: 一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据:censor datacensor data)第二十五页,共三十七页26例例:某某医医师师对对1。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.