
课件:多因素分析.ppt
68页多因素分析,多元线性回归 Logistic回归 生存分析,.,第一部分 多元线性回归,简单线性回归只考虑一个X对Y的影响;多元线性回归(multiple linear regression)考虑多个自变量X对Y的影响 此时要考虑: 1. Y是否满足LINE 2.所建回归方程是否有意义:AVOVA 3.回归方程中的每个自变量是否都有意义:t检验 4.如何获得变量最少,解释Y变异又较多的方程? 筛选变量方法,,3,30名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数BMI(x1,kg/m2)、病程 (x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)关系分析,,4,根据样本得到的回归方程,偏回归系数 partial regression coefficient 表示在其他自变量固定条件下,某自变量每增减一个单位对y的平均效应影响 标准化偏回归系数(standardized ~) ,表示在其他自变量固定条件下,某自变量每增减一个标准单位,y改变的平均标准单位数其大小反映了该自变量的重要性 多因素的分析更加切合实际;提高回归方程的估计精度;从多个可能的因素中选择真正有意义的因素,偏回归系数的计算:最小二乘原理 假设检验:偏回归系数检验-t检验 模型整体检验-方差分析 前提条件:线性、独立性、正态性、方 差相等,LINE,SPSS操作步骤,分析→回归→线性→因变量:Y;自变量:x1-x4 →ok,,体重指数 病程 瘦素 空腹血糖 -1.030意思为在x2、x3、x4为给定值的情况下,体重指数每增加一个单位,脂联素平均减少1.030 (ng/ml) For a given x2,x3,x4, each 1kg/m2 increase in x1 is associated with an average decrease in Y of 1.030ng/ml.,,方程的假设检验,整个模型的假设检验: 方差分析法 (ANOVA),,F=17.000,P0.001,拒绝H0,以下模型是有意义的.,,是不是每个自变量的偏回归系数均有统计学意义呢?t检验,,,N为个体数,k为自变量个数 并不是每个自变量都有意 义!,在alpha=0.05,x1 x2 x4三个变量没有统计学意义,,自变量筛选常用方法,All possible subsets selection 最优子集回归,全局择优法 Stepwise selection include 逐步回归法 forward selection 前向选择 backward elimination 后向选择 stepwise regression 逐步选择,9,.,由于变量之间是有关联的,因此并不是简单地将三个变量从方程中去除!,10,一 最优子集法 最优子集法是对自变量各种不同的组合所建立的回归方程进行比较,从而选出一个“最优”的回归方程。
11,评价指标:,1 残差平方和与决定系数,残差平方和越小越好,R2越大越好,12,2 残差均方与调整确定系数,考虑了引入变量的个数p,13,3 Cp统计量( Cp statistic),由Mallows CL.提出当p个自变量拟合的方程理论上“最优”时,Cp的期望值为p+1,因此应选择Cp越接近于p+1的回归方程为“最优”方程14,,,,SAS运行结果,,二、逐步回归法,,,,向后法 (删),向前法 (进),逐步法,方程,方程,方程,规定进入,保留(删)的P值,且要求P进P删,P值大小如何选取?,自变量框中变量全部进入方程,强迫删除,,,,最终得到对脂联素有意义的影响因素为BMI与瘦素,(非标准化偏回归系数)生物学意义为BMI、瘦素增加,脂联素含量是下降的,(标准化偏回归系数)瘦素的影响作用大于BMI的影响思考,多元线性回归中应变量Y是什么类型的变量? 偏回归系数与标准偏回归系数的意义 控制混杂因素有哪些方法? 方差分析与t检验在多元线性回归分析中的作用有何不同? 变量筛选有哪些方法?在应用逐步法筛选变量时是不是一定取alpha=0.05?如何选取?,,第二部分 Logistic 回归,本方法教学要求 适用资料 回归方程表达 偏回归系数与比数比OR 模型检验与偏回归系数检验 哑变量设置 变量筛选 应用,,Logistic回归分析思路同多元线性回归 要考虑和解决如下几个问题: 1、Y中的1,0的比例,比例接近0或1都不好 2、模型的全局检验,似然比检验LR(多元线性回归是ANOVA) 3、方程中每个系数的检验:wald或LR,多元线性回归是t-test) 4、变量筛选:向前,向后(条件LR,LR,Wald) 5、个体概率预测,判断,,适用资料,应变量Y为二分类:二元Logistic 回归 Y为无序多分类:多项Logistic 回归 Y为有序多分类:有序Logistic 回归 自变量类型不限,变量个数单个多个均可 本次课只讲二分类Logistic 回归,且是完全随机设计资料,因此也称非条件Logistic 回归,,23,回归方程表达,P为发病的概率, 0≤P≤1,广义线性模型。
Log,就是自然对数 ln;ex ,可写成exp(x),,偏回归系数计算基本原理:极大似然法(Maximum likelihood, ML),要求lnL 达到最大25,复习:优势odds与优势比odds ratio,,优势(比势)为某病患者(或非患者)某暴露因素存在的比例P(E)和不存在的比例(1-P(E))的比例Odds=P(E)/[1-P(E)],,26,优势比odds ratio,OR患者与非患者某因素优势的比值被称作优势比(比数比)OR=odds1/odds0,例 病人有超重或肥胖史(BMI=25)的优势 odds1=(1656/2987)/(1331/2987)=1.2442 非病人有超重或肥胖史史的优势 Odds0=2492/5461=0.4563 OR=odds1/Odds0= 1.2442 / 0.4563 =2.727,,27,,,28,若y=1为disease,y=0为non-disease, 有,,29,,,30,回归系数的解释,logistic回归中的系数,与OR的关系: =ln(OR),设P1 为X=1的得病概率, P0 为X=0的得病概率,,31,模型检验与偏回归系数检验 似然比检验(likelihood test),似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为: G=GP-GK =-2ln(LP)+2ln(LK) G服从自由度为K-P的2分布。
所以似然比检验既可对模型进行整体检验,又可以对每个(引进/剔除)的变量进行检验,,32,似然比检验,检验变量X1是否有统计学意义: 模型1:不考虑, -2lnL1=12827.236 模型2:考虑X , -2lnL2= 12301.503 G=-2lnL1-(-2lnL2) L为对数似然函数值 G= 12301.503 -12827.236=174.267, =1,P0.001 说明回归系数β具有统计学意义33,,34,(偏)回归系数wald检验,,SPSS软件操作,分析→回归→二元logistic回归→因变量:C 协变量:r →选项→确定,36,多分类变量:哑变量(dummy variable) x=1时:x1=0, x2=0, x3=0 表示A型血 x=2时:x1=1, x2=0, x3=0 表示B型血 x=3时:x1=0, x2=1, x3=0 表示AB型血 x=4时:x1=0, x2=0, x3=1 表示O型血 exp(1) 表示B与A比之OR; exp( 2) 表示AB与A比之OR; exp( 3) 表示O与A比之OR例 为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查,调查内容包括性别x1(男:0女:1)年龄x2(5岁:1;5岁~:2;15岁~:3;45岁~:4;65岁~:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)医疗保障x4(有:0无:1)到就近医疗点时间x5(10分钟:1;10分钟~:2;30分钟~:3)自感疾病严重程度x6(不严重:1;一般:2;严重:3)发病时间x7(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊Y(就诊:0,未就诊:1)。
11790名居民中,调查前二周患者1649人,其中未就医者720人38,P 386 例20-2,,39,逐步法,,40,,,操作步骤,analyze→regression→binary logistic →depedent:y covariates: x1-x7 →categorical:x7 →continue →method:backward LR →options:entry0.02,removal0.05 → continue → ok,,样本含量估计,在多重线性回归分析中,若复相关系数大于0.5时,一般样本量n是研究变量数m的10~20倍 也可以根据公式估计 Logistic回归要求样本量是自变量数的20倍;或在阳性率小于50%时每个自变量至少需要10个阳性结果复习思考 1、Logistic回归应变量是什么? 2、 Logistic回归系数的流行病学解释 3、OR值的解释与暴露因素及Y的设置有关吗? 4、为什么要进行变量筛选? 5、最终进入方程的变量取决于哪些因素?,第三部分医学随访资料的统计分析方法-生存分析 survival analysis,44,,.,问题1,如果 甲药治愈率为80%,疗程1月 乙药治愈率为90%, 疗程3月. 哪个更好?,158例经手术治疗大肠癌患者临床病理因素及5年生存状态. 如果有人没观察满5年, 4年时死于其他原因, 这个人的信息可否利用?,45,,问题2 如何计算平均数,手术到死亡时间 3 7 15 20 25 26 30 平均生存时间 mean=18 3 9 15 20 25+ 27 30+ 中位生存时间 median=20,46,,完全数据的均数: Mean(A)=12.5 Mean(B)=11.0,问题3 这个数据如何分析?,A 3 6 8 10 22 26 30+ 30+ B 6 8 10 20 30+ 30+ 30+ 30+,?,47,,数据特点,结局不仅取决于有效/无效,还与起效时间长短有关 时间不仅有完全数据,还有不完全数据(截尾数据,删失数据) 生存数据常常是偏态的 生存分析,48,,6例膀胱肿患者术后生存时间记录表,某医师收集了1996-2000年间经手术治疗的膀胱肿癌患者,其中术后生存时间以月为单位,研究可能影响的3个因素:年龄(岁)、分级(1=I级,2=II级,3=III级),肿癌大小(1=3,2=≥3),是否复发(1=是,0=否),49,,生存资料基本概念,起点事件与终点事件(结局) 生存时间(过程) 截尾值,50,,基本概念,起点事件与终点事件 生存时间 暴露因素,疾病确诊—死亡 治疗开始—痊愈 手术—死亡或痊愈 症状缓解—疾病恶化 接触毒物-出现毒性反映 临床试验开始—不良反应 接触危险因素—发病 小白鼠染毒—中毒死亡 开始戒烟—再次吸烟 结婚登记—第一次离婚,51,,生存时间(survival time),失效时间(failure time) 广义:从起点事件到终点事件所经历的时间跨度。
其包括三个内容: 事件的起点、事件的终点及测量单位(小时、日、月、年等),52,,,,起点事件,终点事件,生存时间,,完全数据与删失数据,完全数据(Complete data) 删失数据,截尾数据( Censored data) 终点数据没有发生 失访/脱落(lost to follow-。












