
第十一章多元线性回归与logistic回归.doc
12页第十一章多元线性回归与回归##一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论4.logistic回归模型结构:模型结构、发病概率比数、比数比5.logistic回归参数估计方法6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法二)熟悉内容常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出三)了解内容标准化偏回归系数的解释意义二、教学内容精要(一)多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiplelinearregression),简称多元回归(multipleregression)基本形式:YbbXbX,X为自变量,k为b称为k01122kkkb,b12式中丫为各自变量取某定值条件下应变量均数的估计值,X,X,12自变量个数,b为回归方程常数项,也称为截距,其意义同直线回归,0偏回归系数(partialregressioncoefficient),b表示在除X以外的自变量固定条件下,X.每改变一个单位后Y的平均改变量。
‘‘(二)多元线性回归的分析步骤,X相对应的变量Y的平均估计值kb,…,b可用最小二乘法求得,也就是求出能使估计2ke2(Y・Y)2为最小值的一组回归系数b,b,12b的下列正规方程组kY是与一组自变量X,X,12多元回归方程中的回归系数〈,值Y和实际观察值Y的残差平方和ib值根据以上要求,用数学方法可以得出求回归系数b,bk12(normalequation):式中blbl€bll111b1l21121blbl1k12212k1kbl•…bl222k2k1yl2y€bl2k2kkklky(X)(X)(XX)(XX)XX巴j-ijjiiijjijn(X)(・y)(XX)(YY)XYiiyiiin常数项b可用下式求出:0____bYbXbX…bX01122kk(三) 多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X,X,可,X是否与Y真有线性依存关系,也就是检验无效假设H012k0(•••0),备选假设H为各值不全等于0或全不等于0123k1j检验时常用统计量FMSF回归MS误差式中n为个体数,k为自变量的个数l误差lk回归(nk・1)式中lblbl…bl回归11y22ykkylll误差回.ll总yy(四)logistic回归模型结构设X1'X2‘…'Xk为一组自变量,Y为应变量。
当Y是阳性反应时,记为Y=】;当丫是阴性反应时,记为Y=0用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1Logistic回归模型为:P01122kk1・e吒气TX2••kXk同时可以写成:Q1e・1X1・2X2••kXk式中・0是常数项;(j・1,2,…,k)是与研究因素X有关的参数,称为偏回归系数事件发生的概率P与・x之间呈曲线关系,当・x在之间变化时,P或Q在(0,1)之间变化若有n例观察对象,第i名观察对象在自变量X,X,…,X作用下的应变量为Y,阳性i1i2iki反应记为Y=1,否则Y=0相应地用P表示其发生阳性反应的概率;用Q表示其发生阴性反iiii应的概率,仍然有P+Q=1P和Q的计算如下:iiiiPi01i12i2kik1・e^0―Xii—Xi2••Kk1Qi1e)Xii—Xi2fik#这样,第i个观察对象的发病概率比数(odds)为PQ,第l个观察对象的发病概率比数i'iln为g,而这两个观察对象的发病概率比数之比值便称为比数比OR(oddsratio)对比数比取自然对数得到关系式:(X・X)(X・X)…(X・X)1i1l12i2l2kiklk等式左边是比数比的自然对数,等式右边的XXj・1,2,…,k是同一因素X的不同ijlji暴露水平X与X之差。
的流行病学意义是在其它自变量固定不变的情况下,自变量X的ijljjj暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量或者说,在其他自变量固定不变的情况下,当自变量X•的水平每增加一个测量单位时所引起的比数比为增加前的ej倍同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小标准化偏回归系数的计算,可利用有关统计软件在计算机上解决五)回归参数估计由于logistic回归是一种概率模型,通常用最大似然估计法(maximumlikelihoodestimate)求解模型中参数的估计值b(j・1,2,…,k)Y为在XX2,€,X作用下的阳性事件(或疾病)发生的指示变量其赋值为:12k,第i个观察对象出现阳性反应Yi第i个观察对象出现阴性反应第i个观察对象对似然函数的贡献量为:lPy.Q1Y.iii当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即Lpy.Q1-y.iiiii式中口为.从1到“的连乘积。
依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用NewtonRaphson迭代算法求#解参数估计值b(j1,2,,k)j(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihoodratiotest)、计分检验(scoretest)、Wald检验(Waldtest)三种其中似然比检验较为常用,用八表示似然比检验统计量,计公为2ln/L2(lnLlnL)式中ln为自然对数的符号,L为方程中包含m(mk)个自变量的似然函数值,L为在方程中包含原m个自变量的基础上再加入1个新自变量X后的似然函数值在无效假设H条件下,j0统计量八服从自由度为的・2分布当时,则在水平上拒绝无效假设,即认为X(1)j对回归方程的贡献具有统计学意义,应将X引入到回归方程中;否则,不应加入逆向进行即可剔除自变量三、典型试题分析(一) 单项选择题1. 多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是()A. 复相关系数B. 偏相关系数C. 偏回归系数D. 确定系数答案:D[评析]本题考点:多元线性回归中的几个概念的理解。
多元线性回归中的偏回归系数(multiplelinearregression)表示在其它自变量固定不变的情况下,自变量X每改变一个单位时,单独引起应变量Y的平均改变量确定系数(coefficientjofdetermination)表示回归平方和SS回归占总离均差平方和SS总的比例,简记为R2即R2SS|SS单确定系数的平方根艮呎称为复相关系数(multiplecorrelationcoefficient),它表示p个自变量共同对应变量线性相关的密切程度,它不取负值,即OWRW12Logistic回归分析适用于应变量为()A分类值的资料•连续型的计量资料c正态分布资料•一般资料答案:评析本题考点:logistic回归的概念logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形模型中的自变量可以是定性离散值,也可以是计量观测值二)计算题根据表数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分1O1析步骤及其简要结果表11-1某学校20名一年级女大学生肺活量及有关变量测量结果编号体重X1/kg胸围X/cm2肩宽X3/cm肺活量YL150.873.236.32.96249.084.134.53.13342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.875.032.51.94答案:r.r-t、//一p”*—一一—2.sav”。
数据格式:4列20行过程::X,X,X123SPSS:数据乂件:“EXAP11-StatisticRegressionLinear...Dependent:YIndependent(s)Method:Enter结果:VariablesEntered/RemovedModelVariablesEnteredVariablesRemovedMethod1X3(肩宽),X2(胸围),x1(体重)EnteraAllrequestedvariablesentered.bDependentVariable:Y(肺活量)ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.846.715.662.2893aPredictors:(Constant),X3,X2,X1ANOVAModelSumofSquaresdfMeanSquareFSig.1Regression3.36731.12213.413.000Residual1.339168.368E-02Total4.70619aPredictors:(Constant),X3,X2,X1bDependentVariable:YCoefficientsModelU。
