
对数线性模型课件.ppt
55页Loglinear Analysis Model对数线性模型对数线性模型(一)对数线性模型(一)对数线性模型的任务的任务应用于分类变量的多元统计方法,可以分析各因素之间应用于分类变量的多元统计方法,可以分析各因素之间的联系,主要用于两个以上分类变量的高维列联表分析的联系,主要用于两个以上分类变量的高维列联表分析(二)对数线性模型(二)对数线性模型的基本原理的基本原理(四格表)(四格表)四格表四格表1.变量特点变量特点因变量:因变量:四格表中各格的频数四格表中各格的频数对应的概率表对应的概率表2.对数线性模型(四格表)对数线性模型(四格表)此模型包括主效应、因素此模型包括主效应、因素A与与B的交互作用,称为的交互作用,称为饱和模饱和模型型(saturated model)此此 模型称为模型称为不饱和模型不饱和模型(unsaturated model)或简约模或简约模型型(reduced model)如果模型中的交互项为如果模型中的交互项为0,则模型为,则模型为在对数线性模型中,通过交互效应项反映各因素是否有关在对数线性模型中,通过交互效应项反映各因素是否有关及其效应大小及其效应大小。
•对数线性模型不区分各因素为因变量和自变量,综合考虑对数线性模型不区分各因素为因变量和自变量,综合考虑所有因素对频数的影响所有因素对频数的影响•饱和模型饱和模型(saturated model) 包括各级交互作用项,这种包括各级交互作用项,这种模型可以完全拟合数据,没有误差也没有自由度,所以无模型可以完全拟合数据,没有误差也没有自由度,所以无分析价值分析价值 3.模型估计方法:模型估计方法:最大似然法(最大似然法(Maximum Likelihood Method):):构造似然构造似然函数(函数( Likelihood function ))通过迭代法估计一组参数(通过迭代法估计一组参数( 0,, 1 ,, 2 ….. m),使),使L达达到最大4.模型及自变量的统计检验模型及自变量的统计检验((1))模型检验模型检验(拟合优度检验):(拟合优度检验):当当P>0.05,说明可以接,说明可以接受拟合的模型受拟合的模型•似然比检验(似然比检验(the likelihood ratio test))•Pearson卡方检验卡方检验评价模型拟和的好坏:评价模型拟和的好坏:大多数单元格的标准化残差或调整大多数单元格的标准化残差或调整残差的残差的 绝对值小于绝对值小于2。
((2))自变量自变量检验检验::主要关心哪些交互效应有统计学意义主要关心哪些交互效应有统计学意义•偏相关检验:比较两个嵌套模型的似然比偏相关检验:比较两个嵌套模型的似然比 2的的变化•参数检验:计算参数估计值、标准误及参数检验:计算参数估计值、标准误及Z检验OR=exp( ) lnOR= 5.模型选择模型选择•拟合检验好拟合检验好• 参数有统计学意义参数有统计学意义•层次模型或谱系模型层次模型或谱系模型(hierarchical model)谱系规则:当模型中包含了某几个变量的高级交互效应项时,谱系规则:当模型中包含了某几个变量的高级交互效应项时,这几个变量的低级交互效应项与主效应项也一定包含在模型这几个变量的低级交互效应项与主效应项也一定包含在模型之中随着列联表的维度增加,层次模型数量剧增,可以采用后退随着列联表的维度增加,层次模型数量剧增,可以采用后退法筛选模型法筛选模型例例1::在一项病例对照研究中,考察吸烟与肺癌是否有在一项病例对照研究中,考察吸烟与肺癌是否有关变量说明:变量说明:ca:是否为肺癌患者,:是否为肺癌患者,0=对照;对照;1=病例;病例;smoke:是否吸烟,:是否吸烟,0=不吸烟,不吸烟,1=吸烟;吸烟;freq:频数。
频数一般对数线性一般对数线性模型模型先按照变量先按照变量freq进行加权,再统计分析进行加权,再统计分析多项分布多项分布A.拟合饱和模型拟合饱和模型OR::6.876((1.789,,26.417))B.拟合不饱和模型拟合不饱和模型C. 2检验检验高维列联表(三维为例)高维列联表(三维为例)例例2::370名女职工生育史、子宫后倾、工作姿势调查结名女职工生育史、子宫后倾、工作姿势调查结果变量说明:变量说明:a:是否有生育史,:是否有生育史,1=有生育史;有生育史;2=无生育无生育史;史;b:工作姿势:工作姿势,,1=立姿,立姿,2=坐姿;坐姿; c::是否子宫后是否子宫后倾,倾,1=后倾,后倾,2=不后倾;不后倾; freq:频数模型选择模型选择先按照变量先按照变量freq进行加权,再统计分析进行加权,再统计分析A.模型选择模型选择K维及维及K维以上交互作用是否有统计学意义维以上交互作用是否有统计学意义饱和模型的偏相关检验分析表饱和模型的偏相关检验分析表饱和模型饱和模型的所有参的所有参数估计值数估计值及置信区及置信区间间第第1步步第第2步步第第3步步第第4步步最终模型最终模型最终模型的拟合优度检验最终模型的拟合优度检验B. 估计参数及统计检验估计参数及统计检验结论:结论:生育史与工作姿势无关,与是否子宫后倾也无关,但工生育史与工作姿势无关,与是否子宫后倾也无关,但工作姿势作姿势(是坐姿还是立姿是坐姿还是立姿)与子宫是否后倾有关,不过这种与子宫是否后倾有关,不过这种关系不受生育史状态影响关系不受生育史状态影响(即有、无生育史并不影响工作即有、无生育史并不影响工作姿势与子宫后倾的关系姿势与子宫后倾的关系)。
变量间的四种独立性变量间的四种独立性• 边际独立边际独立(marginally independent):不考虑:不考虑 A的影响下,的影响下, B与与C独立,则称独立,则称B与与C边际独立边际独立 •条件独立条件独立(conditionally independent):若:若B与与C在在A的各个的各个水平下均独立,则称水平下均独立,则称B与与C对给定对给定A条件独立条件独立•联合独立联合独立(jointly independent):若:若C与与D((A、、B的组合)的组合)独立,则称独立,则称C与与A、、B联合独立联合独立•相互独立相互独立(mutually independent):三个变量中的任何一个:三个变量中的任何一个与其它两个联合独立与其它两个联合独立四种独立性间的关系四种独立性间的关系•若若A、、B、、C相互独立,则一定有相互独立,则一定有A与与B、、C联合独立,联合独立,B与与A、、C联合独立,且联合独立,且C与与A、、B联合独立联合独立•若若C与与A、、B联合独立,则一定有联合独立,则一定有C与与A、、C与与B边际独立,并边际独立,并有给定有给定A,,C与与B条件独立;给定条件独立;给定B,,C与与A条件独立。
条件独立•注意:若注意:若A、、B条件独立,则不一定有条件独立,则不一定有A、、B边际独立;边际独立;A、、B边际独立;也不一定有边际独立;也不一定有A、、B条件独立条件独立A.假想的假想的2 2 2三维列联表(条件独立)三维列联表(条件独立)ORXY|Z1=(4/6)/(6/9)=1,,ORXY|Z2=(3/36)/(70/840)=1;;ORYZ|X1=(4/6)/(3/36)=8,,ORYZ|X2=(6/9)/(70/840)=8;;ORXZ|Y1=(4/6)/(3/70)=15.6,,ORXZ|Y2=(6/9)/(36/840)=15.6;;X与与Y对给定对给定Z条件独立,此资料属于条件独立模型(条件独立,此资料属于条件独立模型(XZ,,YZ)ORXY=(7/42)/(76/849)=1.86B.假想的假想的2 2 2三维列联表(联合独立)三维列联表(联合独立)ORXY|Z1=(9/6)/(6/54)=13.5,,ORXY|Z2=(3/2)/(2/18)=13.5;;ORYZ|X1=(9/3)/(6/2)=1,,ORYZ|X2=(6/2)/(54/18)=1;;ORXZ|Y1=(9/3)/(6/2)=1,,ORXZ|Y2=(6/2)/(54/18)=1;;ORYZ=(15/5)/(60/20)=1,, ORXZ=(15/5)/(60/20)=1。
此资料属于联合独立模型(此资料属于联合独立模型(Z,,XY)。












