
统计学logistic回归分析课堂PPT.ppt
59页1.问题提出:问题提出: 医医学学研研究究中中常常研研究究某某因因素素存存在在条条件件下下某某结结果果是是否否发发生?以及之间的关系如何?生?以及之间的关系如何? 因素(因素(X)) 疾病结果(疾病结果(Y)) x1,,x2,,x3…XK 发生发生 Y=1 不发生不发生 Y=0例:暴露因素例:暴露因素 冠心病结果冠心病结果高血压史高血压史(x1):有:有 或无或无 有有 或或 无无高血脂史高血脂史(x2):: 有有 或或 无无吸烟吸烟(x3):: 有或无有或无2.研究问题可否用多元线性回归方法?研究问题可否用多元线性回归方法?1.多元线性回归方法要求多元线性回归方法要求 Y 的取值为计量的取值为计量的连续性随机变量。
的连续性随机变量2.多元线性回归方程要求多元线性回归方程要求Y与与X间关系为线间关系为线性关系3.多元线性回归结果多元线性回归结果 不能回答不能回答“发生与发生与否否”logistic回归方法补充多元线性回归的不足回归方法补充多元线性回归的不足3.Logistic回归方法 该法研究是该法研究是 当当 y 取某值(如取某值(如y=1)发生的概率()发生的概率(p)与)与某暴露因素(某暴露因素(x)的关系 P(概率)的取值波动(概率)的取值波动0~~1范围 基本原理基本原理:用一组观察数据拟合:用一组观察数据拟合Logistic模型,模型,揭示若干个揭示若干个x与一个因变量取值的关系,反映与一个因变量取值的关系,反映y 对对x的依存关系的依存关系4. 一、基本概念一、基本概念 1.变量的取值变量的取值 logistic回归要求应变量(回归要求应变量(Y)取值为分类变量)取值为分类变量(两分类或多个分类)(两分类或多个分类) 自变量(自变量(Xi)称为危险因素或暴露因素,可为连续)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。
变量、等级变量、分类变量 可有可有m个自变量个自变量X1,, X2,,… Xm 5.2.两值因变量的两值因变量的logistic回归模型方程回归模型方程•一个自变量与一个自变量与Y关系的回归模型关系的回归模型如:如:y:发生:发生=1,未发生未发生=0 x 有有=1无无=0,,记为记为p((y=1/x)表示某暴露因素状态下,结)表示某暴露因素状态下,结果果y=1的概率(的概率(P)模型或或模型描述了应变量模型描述了应变量p与与x的关系的关系6.P概率概率10.5Z值值0123-1-2-3图图16-1 Logistic回归函数的几何图形回归函数的几何图形Β为正值,为正值,x越越大,结果大,结果y=1发发生的可能性生的可能性((p)越大7.几个几个logistic回归模型方程回归模型方程8.logistic回归模型方程的线性表达回归模型方程的线性表达对对logistic回归模型的概率(回归模型的概率(p)做)做logit变变换,换,截距(常数)截距(常数)回归系数回归系数Y~(~(-∞至至+∞))线性线性关系关系方程如下:方程如下:9.在有多个危险因素(在有多个危险因素(Xi)时)时•多个变量多个变量的logistic回归模型方程的线性表达:回归模型方程的线性表达:或或10.2.模型中参数的意义模型中参数的意义Β0(常数项)(常数项):暴露因素:暴露因素Xi=0时,个体发病时,个体发病概率与不发病概率之比的自然对数比值。
概率与不发病概率之比的自然对数比值 11. 的含义:的含义:某危险因素,暴露水平变化时,即某危险因素,暴露水平变化时,即Xi=1与与Xi=0相比,发生某结果(如发病)优势比相比,发生某结果(如发病)优势比的对数值的对数值 P1((y=1/x=1)的概率)的概率P0((y=1/x=0)的概率)的概率12. 危险因素危险因素 Y x= 1 x= 0发病发病=1 30((a)) 10(( b)) 不发病不发病=0 70((c)) 90((d)) a+c b+d 危险因素危险因素 Y x= 1 x= 0发病发病=1 p1 p0 不发病不发病=0 1-p1 1-p0 有暴露因素人群中发病的比例有暴露因素人群中发病的比例13. 反映了在其他变量固定后,反映了在其他变量固定后,X=1与与x=0相比相比发生发生Y事件的对数优势比。
事件的对数优势比 回归系数回归系数β与与OR X与与Y的关联的关联• β=0,,OR=1,, 无关无关 β>>0,,OR>>1 ,, 有关,危险因素有关,危险因素 β<<0,,OR<<1,, 有关,保护因子有关,保护因子事件发生率很小,事件发生率很小,OR≈RR多元回归模型的的 概念14.二、二、 Logistic回归模型回归模型•Logistic回归的分类回归的分类 二分类二分类 多分类多分类 条件条件Logistic回归回归 非条件非条件Logistic回归回归15.•Logit变换变换 也称对数单位转换也称对数单位转换 logit P=16.流行病学概念:流行病学概念: 设 设P表示暴露因素表示暴露因素X时个体发病的概率,时个体发病的概率,则发病的概率则发病的概率P与未发病的概率与未发病的概率1-P 之之比为优势比为优势((odds)),, logit P就是就是odds的对数值。
的对数值17.•Logistic回归模型回归模型 Logistic回归的回归的logit模型模型 Logistic回归模型回归模型18.三、参数估计三、参数估计•最大似然估计法最大似然估计法 ((Maximum likehood estimate)) 似然函数: 似然函数:L=∏Pi 对数似然函数:对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法非线性迭代方法—— Newton-Raphson法法19.四、参数检验四、参数检验•似然比检验似然比检验((likehood ratio test)) 通过比较包含与不包含某一个或通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为数似然函数变化来进行,其统计量为G (又称(又称Deviance) G=-2(ln Lp-ln Lk) 样本量较大时,样本量较大时, G近似服从自由近似服从自由度为待检验因素个数的度为待检验因素个数的 22分布20.•比分检验比分检验((score test)) 以未包含某个或几个变量的模型为基础,以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量便得比分检验的统计量S 。
样本量较大时,样本量较大时, S近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的 22分布21.•Wald检验检验(( wald test)) 即广义的即广义的t检验,统计量为检验,统计量为u u服从正态分布,即为标准正态离差服从正态分布,即为标准正态离差 Logistic回归系数的区间估计回归系数的区间估计 22. 上述三种方法中,似然比检验上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合检验未考虑各因素间的综合作用,在因素间有共线性时结果不作用,在因素间有共线性时结果不如其它两者可靠如其它两者可靠23.五、回归系数的意义五、回归系数的意义 单纯从数学上讲,与多元线性单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不回归分析中回归系数的解释并无不同,亦即同,亦即bi表示表示xi改变一个单位时,改变一个单位时, logit P的平均变化量的平均变化量24.流行病学中的一些基本概念:流行病学中的一些基本概念:相对危险度相对危险度((relative risk)): RR=P1/P2比数比数 Odds=P/(1-P)比数比 比数比 OR=[P11/(1-P11)]/[P22/(1-P22)]在患病率较小情况下,在患病率较小情况下,OR≈RR25.•Logistic回归中的常数项(回归中的常数项(b0)表示,)表示,在不接触任何潜在危险/保护因素条在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的件下,效应指标发生与不发生事件的概率之比的对数值。
概率之比的对数值•Logistic回归中的回归系数回归中的回归系数(( bi ))表示,表示,某一因素改变一个单位时,效应指标某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数发生与不发生事件的概率之比的对数变化值,即变化值,即OR的对数值的对数值26.Logistic回归系数的意义回归系数的意义•分析因素分析因素xi为二分类变量时,存在(暴为二分类变量时,存在(暴露)露)xi =1,不存在(未暴露)=1,不存在(未暴露)xi =0,=0,则则Logistic回归中回归中xi的系数的系数bi就是暴露与就是暴露与非暴露优势比的对数值.即非暴露优势比的对数值.即OR=exp(bi)=e (bi)27.•分析因素分析因素xi为多分类变量时,为方便起为多分类变量时,为方便起见,常用见,常用1,,2,,…,,k分别表示分别表示k个不个不同的类别进行同的类别进行Logistic回归分析前需回归分析前需将该变量转换成将该变量转换成k-1个指示变量或哑变个指示变量或哑变量量((design/dummy variable)),这样指,这样指示变量都是一个二分变量,每一个指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系示变量均有一个估计系数,即回归系数,其解释同前。
数,其解释同前28.•分析因素分析因素xi为等级变量时,如果每个等级的为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为最大等级作参考组,并按等级顺序依次取为0,,1,,2,,…此时, e(bi) 表示表示xi增加一个等增加一个等级时的优势比,级时的优势比, e(k* bi)表示表示xi增加增加k个等级时个等级时的优势比如果每个等级的作用不相同,则的优势比如果每个等级的作用不相同,则应按多分类资料处理应按多分类资料处理•分析因素分析因素xi为连续性变量时,为连续性变量时, e(bi)表示表示xi增加增加一个计量单位时的优势比一个计量单位时的优势比29. 多因素多因素Logistic回归分析时,回归分析时,对回归系数的解释都是指在其它对回归系数的解释都是指在其它所有自变量固定的情况下的优势所有自变量固定的情况下的优势比存在因素间交互作用时,比存在因素间交互作用时, Logistic回归系数的解释变得更回归系数的解释变得更为复杂,应特别小心为复杂,应特别小心30. 根据根据Wald检验,可知检验,可知Logistic回归回归系数系数bi服从服从u分布。
因此其可信区间为分布因此其可信区间为进而,优势比进而,优势比e(bi)的可信区间为的可信区间为31.六、六、 Logistic回归分析方法回归分析方法基本思想同线性回归分析基本思想同线性回归分析 从所用的方法看,有强迫法、前进法、从所用的方法看,有强迫法、前进法、后退法和逐步法在这些方法中,筛选变量后退法和逐步法在这些方法中,筛选变量的过程与线性回归过程的完全一样但其中的过程与线性回归过程的完全一样但其中所用的统计量不再是线性回归分析中的所用的统计量不再是线性回归分析中的F统计统计量,而是以上介绍的参数检验方法中的三种量,而是以上介绍的参数检验方法中的三种统计量之一统计量之一32. 为计算方便,通常向前选取为计算方便,通常向前选取变量用似然比或比分检验,而向变量用似然比或比分检验,而向后剔除变量常用后剔除变量常用Wald检验33.七、条件七、条件Logistic回归回归•对配对对配对/比调查资料,应该用条件比调查资料,应该用条件Logistic回归分析回归分析 对于配比资料,第对于配比资料,第i个配比组个配比组可以建立一个可以建立一个Logistic回归:回归:34.•假设自变量在各配比组中对结果变量假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系的作用是相同的,即自变量的回归系数与配比组无关。
数与配比组无关•配比设计的配比设计的Logistic回归模型回归模型其中不含常数项其中不含常数项35.•可以看出此回归模型与非条件可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为估计是根据条件概率得到的,因此称为条件条件Logistic回归模型回归模型•条件条件Logistic回归的回归系数检验与分回归的回归系数检验与分析,和非条件析,和非条件Logistic回归完全相同回归完全相同36. 1.1.疾病(某结果)的危险因素分析和筛选疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(用回归模型中的回归系数(ββi i)和)和OROR说明危说明危险因素与疾病的关系险因素与疾病的关系适用的资料:适用的资料: 前前 瞻瞻 性性 研研 究究 设设 计计 、、 病病 例例 对对 照照 研研 究究 设设 计计 、、 横断面研究设计的资料横断面研究设计的资料三类研究计算的三类研究计算的logistic logistic 回归模型的回归模型的β β意义是一致。
仅常意义是一致仅常数项不同证明略)数项不同证明略)37.2.校正混杂因素,对疗效做评价校正混杂因素,对疗效做评价在临床研究和疗效的评价,组间某些因素构成在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效理因素,正确评价疗效3.预测与判别预测与判别预测个体在某因素存在条件下,发生某事件预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据发病)的概率,为进一步治疗提供依据38.•输精管切除术与动脉粥样硬化疾病的研究输精管切除术与动脉粥样硬化疾病的研究•1.问题的描述.问题的描述(1)输精管切除术是否与动脉粥样硬化疾病有关?(2)如果存在联系,与其他已知的危险因素相比,输精管切除术的相对重要性有多大?(3)哪些男性亚群在输精管切除术以后发生动脉粥样硬化疾病的可能性特别大?39.2.研究目的2.研究目的((1)一般目的)一般目的 确定输精管切除术与其后因确定输精管切除术与其后因动脉粥样硬化疾病而住院之间是否有因果动脉粥样硬化疾病而住院之间是否有因果联系;如果有,则确定输精管切除术与患联系;如果有,则确定输精管切除术与患动脉粥样硬化性疾病的危险性是否因观察动脉粥样硬化性疾病的危险性是否因观察对象具有其他冠心病危险因素,如吸烟、对象具有其他冠心病危险因素,如吸烟、高血压和高胆固醇等而增强。
高血压和高胆固醇等而增强40.((2)特殊目的)特殊目的A.估计输精管切除术及其男性动脉粥样硬化.估计输精管切除术及其男性动脉粥样硬化性疾病危险因素的相对危险度(使用单变性疾病危险因素的相对危险度(使用单变量分析方法);量分析方法);B.估计输精管切除术对动脉粥样硬化性疾病.估计输精管切除术对动脉粥样硬化性疾病独立的作用(利用条件独立的作用(利用条件Logistic回归模型);回归模型);C.检测输精管切除术导致动脉粥样硬化性疾.检测输精管切除术导致动脉粥样硬化性疾病的可能期限;病的可能期限;D.检测在输精管切除术、吸烟和高血压之间.检测在输精管切除术、吸烟和高血压之间可能的协同作用可能的协同作用41.3.研究变量3.研究变量((1)按照世界卫生组织标准来诊断动脉粥样)按照世界卫生组织标准来诊断动脉粥样硬化性疾病;硬化性疾病;((2)病人特征:年龄,出生日期,宗教,教)病人特征:年龄,出生日期,宗教,教育,职业,家庭史,婚姻状况育,职业,家庭史,婚姻状况3)生育史:存活子女的数量与性别,妻子)生育史:存活子女的数量与性别,妻子的生育情况的生育情况4)生活方式:吸烟习惯,饮酒量,饮食习)生活方式:吸烟习惯,饮酒量,饮食习惯,食盐量,喝咖啡量,体力活动。
惯,食盐量,喝咖啡量,体力活动5)医学史:有无可能导致不育的疾病或手)医学史:有无可能导致不育的疾病或手术、高血压、糖尿病或高胆固醇血症术、高血压、糖尿病或高胆固醇血症42.4.研究设计4.研究设计 ①①抽样:抽样: 以完全随机抽样方式确定样本样以完全随机抽样方式确定样本样本量大小的计算是基于事先确定显著性水平、本量大小的计算是基于事先确定显著性水平、把握度和打算测知的相对危险度水平假定把握度和打算测知的相对危险度水平假定样本量确定为病例组样本量确定为病例组500例,对照组例,对照组1000例本设计力图避免或减少在病例一对照研究中本设计力图避免或减少在病例一对照研究中常见的偏倚与误差回忆偏倚、选择偏倚和常见的偏倚与误差回忆偏倚、选择偏倚和输精管切除术报告偏倚对研究结果的真实性输精管切除术报告偏倚对研究结果的真实性是极其重要的是极其重要的43.•②②资料收集:资料收集: 病例组的选取:调查员审阅病例组的选取:调查员审阅每日住院病人情况每日住院病人情况→如果诊断适合研究的范如果诊断适合研究的范围,将病例转给心脏病主任医师作评估围,将病例转给心脏病主任医师作评估→由由他做出病例诊断是否合格的决定他做出病例诊断是否合格的决定→调查人员调查人员核对病人背景资料是否合格核对病人背景资料是否合格→如果病人满足如果病人满足诊断标椎和背景资料合格诊断标椎和背景资料合格→调查人员开始询调查人员开始询问并填写调查表问并填写调查表→每完成每完成5个病例和个病例和10个配个配对对照以后,请研究中心的工作人员对调查对对照以后,请研究中心的工作人员对调查表进行评估表进行评估→重复以上步骤。
重复以上步骤44.•对照组的选取:调查人员评估入院对照组的选取:调查人员评估入院单并选择符合配对标椎和入院诊断单并选择符合配对标椎和入院诊断合适的对照病例合适的对照病例→核对病人背景资核对病人背景资料是否符合入院标准料是否符合入院标准→如对照组成如对照组成员合格,则进行调查员合格,则进行调查45.•③③统计分析:统计分析:•A.计算未校正的相对危险比(.计算未校正的相对危险比(OR)与)与95%可信限范围,以估计输精管切除术和其%可信限范围,以估计输精管切除术和其他危险因素的相对危险度他危险因素的相对危险度•B.利用配对的条件.利用配对的条件Logistic 回归模型计回归模型计算校正相对危险比,用此比来评价输精管算校正相对危险比,用此比来评价输精管切除术对动脉粥样硬化的独立影响切除术对动脉粥样硬化的独立影响•C.利用动脉粥样硬化作为因变量,输精管.利用动脉粥样硬化作为因变量,输精管切除术后间隔时间作为自变量,用条件切除术后间隔时间作为自变量,用条件Logistic回归模型来检验输精管切除术后时回归模型来检验输精管切除术后时间长短对发生动脉粥样硬化的时间效应间长短对发生动脉粥样硬化的时间效应。
46.二、Logistic回归应用的注意事项回归应用的注意事项1.模型中自变量的取值模型中自变量的取值 自变量(自变量(X)可为计量数据、分类数据和)可为计量数据、分类数据和等级数据等级数据 计量数据常重新划为有序组段,计量数据常重新划为有序组段,OR的实际的实际意义较大意义较大 例1:年龄(岁,例1:年龄(岁,x1)) 47.数据的几种赋值形式数据的几种赋值形式1)两分类变量,赋值为:有)两分类变量,赋值为:有=1,无,无=02)有序变量,赋值;无)有序变量,赋值;无=0,少,少=1,中,中=2,多,多=3 例;年龄例;年龄 <<45=1 45-54=2 55-64=3 ≥65=43.)多分类无序变量:)多分类无序变量:赋值为:哑变量(赋值为:哑变量(dummy variable)形式)形式见例:见例:注:变量取值不同,方程的系数和符号将发生变化注:变量取值不同,方程的系数和符号将发生变化48. 冠心病可能的危险因素与赋值冠心病可能的危险因素与赋值因素因素变量名变量名 赋值说明赋值说明年龄年龄(岁岁)X1<45=1, 45 54=2, 55 64=3, 65 =4高血压史高血压史X2无无=0, 有有=1高血压家族史高血压家族史X3无无=0, 有有=1吸烟吸烟X4不吸不吸=0, 吸吸=149.年龄(年龄(X)化为哑变量的赋值)化为哑变量的赋值年龄(岁年龄(岁)有序变量有序变量哑变量(方法一)哑变量(方法一)X水平水平D1D2D3<40100040~~ 210050~~301060~~ 4001方程方程1:有序变量方程:有序变量方程Β含义:含义:x每增加每增加1个单位(个单位(10岁),发病的岁),发病的lnOR平均增加平均增加β150.方程方程2:哑变量方程(哑变量个数:哑变量方程(哑变量个数=分类数-分类数-1))方程系数的解释:方程系数的解释: 表示表示40-岁岁/<<40岁相比的对数优势比岁相比的对数优势比 表示表示50-岁岁/<<40岁相比的对数优势比岁相比的对数优势比 表示表示60-岁岁/<<40岁相比的对数优势比岁相比的对数优势比51.哑变量的赋值方法•例2:研究某结果与血型的关系血型(X) 哑变量X1X2X3A000B100O010AB001变量规定某个变量规定某个分类为对照,分类为对照,对照组在哑变对照组在哑变量的赋值均为量的赋值均为0式中回归系数表示各对比组与对照组(式中回归系数表示各对比组与对照组(A型)相型)相比的变化值。
比的变化值52.变量变量X4的哑变量的赋值方法的哑变量的赋值方法规定治疗规定治疗11周周=X4-1,是,是=1,否,否=0规定治疗规定治疗21周周=X4-2,是,是=1,否,否=0规定治疗规定治疗1周为对照组周为对照组 哑变量的赋值哑变量的赋值 周周 X4-1 X4-2 1~~ 0 0 11~~ 1 0 21~~ 0 153.2.样本含量:1)病例和对照组的例数可相等或不等病例和对照组的例数可相等或不等2)样本例数的估计)样本例数的估计原则:自变量个数越多,例数越多各原则:自变量个数越多,例数越多各组样本例数(对照组和病例组)至少组样本例数(对照组和病例组)至少为自变量个数的为自变量个数的5-20倍54.3.模型的评价模型的评价 对所建立的回归方程做拟合优度对所建立的回归方程做拟合优度检验。
检查模型估计与实际数据的检验检查模型估计与实际数据的符合情况符合情况 统计量的概率值 统计量的概率值P>>0.05,认为模,认为模型拟合较好型拟合较好55.4.多分类的Logistic回归Logistic回归可处理:回归可处理: 1))应变量(应变量(Y)为有序的多分类资料)为有序的多分类资料如结果为:治愈、显效、好转、无效如结果为:治愈、显效、好转、无效 2))应变量(应变量(Y)为无序的多分类资料)为无序的多分类资料例:例: 研究阑尾炎类型与危险因素关系研究阑尾炎类型与危险因素关系阑尾炎类型有:卡他型、坏疽型、腹膜炎型阑尾炎类型有:卡他型、坏疽型、腹膜炎型56.5.结果的表达5.结果的表达一般一般logistic 回归分析报告内容:回归分析报告内容:1.危险因素的回归系数及标准误、危险因素的回归系数及标准误、p值值2.标准化的回归系数标准化的回归系数3.危险因素对应的危险因素对应的OR和可信区间和可信区间4.Logistic回归方程57.本节重点掌握内容本节重点掌握内容1.Logistic回归与线性回归有什么不同?回归与线性回归有什么不同?2. Logistic回归可解决哪些问题?回归可解决哪些问题?3.自变量可以有哪些类型,应用时应如何赋自变量可以有哪些类型,应用时应如何赋值?值?4. Logistic回归中回归中β的含义和方程的表达。
的含义和方程的表达58.谢谢!谢谢!59.。
