
多水平统计模型.ppt
108页单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,,,,,,,,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,多水平统计模型简介,,A,Brief Introduction toMultilevel Statistical Models,概述,,层次结构数据的普遍性,,经典方法及其局限性,,基本多水平模型,,多水平模型的应用,,概 述,80,年代中后期,英、美等国教育统计学家开始探讨分析层次结构数据,(hierarchically structured data),的统计方法,并相继提出不同的模型理论和算法多水平模型,(multilevel models),最先应用于教育学领域,后用于心理学、社会学、经济学、组织行为与管理科学等领域,逐步应用到医学及公共卫生等领域Harvey Goldstein,, UK, University of London, Institute of Education,,《,Multilevel Models in Educational and Social Research,》1987,Anthony Bryk,, University of Chicago,,Stephen Raudenbush,, Michigan State University , Department of Educational Psychology,,,《,Hierarchical Linear Models,:,,Applications and Data Analysis Methods,》,1992,Nicholas Longford,, Princeton University, Education Testing Service,,《,Random Coefficient Models,》1993,,多水平主成分分析,,多水平因子分析,,多水平判别分析,,多水平,logistic,回归,,多水平,Cox,模型,,多水平,Poisson,回归,,多水平时间序列分析,,多元多水平模型,,多水平结构方程模型,,,ML3 (1994) / MLN (1996) / MLwiN (1999),,HLM,(Hierarchical Linear Model),,SAS (Mixed),,SPSS,,STATA,,,,,,,,,,,,,,,,两水平层次结构数据,,水平,2,,,水平,1,,层次结构数据的普遍性,“,水平”,(level),:指数据层次结构中的某一层次。
例如,子女为低水平即水平,1,,家庭为高水平即水平,2,单位”,(unit),:指数据层次结构中某水平上的一个实体例如,每个子女是一个水平,1,单位,每个家庭是一个水平,2,单位临床试验和动物实验的重复测量,,多中心临床试验研究,,纵向观测如儿童生长发育研究,,流行病学现场调查如整群抽样调查,,遗传学家系调查资料,,,meta,分析资料,,层次结构数据为一种非独立数据,即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立,其大小常用组内相关,(intra-class correlation,,,ICC),度量例如,来自同一家庭的子女,其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似,即子女特征在家庭中具有相似性或聚集性,(clustering),,数据是非独立的,(non independent),非独立数据不满足经典方法的独立性条件,采用经典方法可能失去参数估计的有效性并导致不合理的推断结论但非独立数据的组内相关结构各异,理论上,不同的结构应采用相应的统计方法如纵向观测数据常用广义估计方程,(GEE),,但有两个局限性:一是对误差方差的分解仅局限于,2,水平的情形,二是没有考虑解释变量对误差方差的影响。
当应变量的协差阵为分块对角阵时,一般采用多水平模型经典方法框架下的分析策略,,,,经典的线性模型只对某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析但有时某个现象既受到水平,1,变量的影响,又受到水平,2,变量的影响,还受到两个水平变量的交互影响,(cross-level interaction),个体的某事件既受到其自身特征的影响,也受到其生活环境的影响,即既有个体效应,也有环境或背景效应,(context effect),例如,个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层,(,如饮食文化和口腔卫生习惯,),、环境因素,(,如饮水中氟浓度,),等有关分解,(disaggregation),,,聚合,(aggregation),,,分解:不满足模型独立性假定,回归系数及其标准误的估计无效,且未能有效区分个体效应与背景效应另一种分析策略是用哑变量拟合高水平单位的固定效应聚合:损失大量水平,1,单位的信息,更严重的是可能导致“生态学谬误”,(ecological fallacy),多水平分析的概念为人们提供了这样一个框架,即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析,从而实现研究的事物与其所在背景的统一。
经典模型的基本假定是单一水平和单一的随机误差项,并假定随机误差项独立、服从方差为常量的正态分布,代表不能用模型解释的残留的随机成份基本的多水平模型,,当数据存在层次结构时,随机误差项则不满足独立常方差的假定模型的误差项不仅包含了模型不能解释的应变量的残差成份,也包含了高水平单位自身对应变量的效应成份多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上,具有多个随机误差项并估计相应的残差方差及协方差构建与数据层次结构相适应的复杂误差结构,这是多水平模型区别于经典模型的根本特征多水平模型由固定与随机两部分构成,与一般的混合效应模型的不同之处在于,其随机部分可以包含解释变量,故又称为随机系数模型,(random coefficient model),,其组内相关也可为解释变量的函数换言之,多水平模型可对不同水平上的误差方差进行深入和精细的分析1.,方差成份模型,,,(Variance Component Model),,,,假定一个两水平的层次结构数据,医院为水平,2,单位,患者为水平,1,单位,医院为相应总体的随机样本,模型中仅有一个解释变量,x,,和 分别为第,j,个医院中第,i,个患者应变量观测值和解释变量观测值, 和 为参数估计,,,为通常的随机误差项。
示水平,2,单位,示水平,1,单位,与经典模型的区别在于 经典模型中的估计为 ,仅一个估计值,表示固定的截距,而在方差成份模型中 表示,j,个截距值,即当,x,,取,0,时,第,j,个医院在基线水平时,y,的平均估计值为平均截距,反映 与 的平均关系,即当,x,取,0,时,所有,y,的总平均估计值为随机变量,表示第,j,个医院,y,之平均估计值与总均数的离差值,反映了第,j,个医院对,y,的随机效应表示协变量,x,的固定效应估计值即,y,与协变量,x,的关系在各医院间是相同的,换言之,医院间,y,的变异与协变量,x,的变化无关方差成份模型拟合,j,条平行的回归线,截距不同,( ),,斜率相同,( ),对医院水平残差的假定,对患者水平残差的假定与传统模型一致,,水平,1,上的残差与水平,2,上的残差相互独立,,,,,,,,,,,反应变量可表达为固定部分 与随机部分 之和模型具有两个残差项,这是多水平模型区别于经典模型的关键部分即水平,2,残差,随机效应、又称潜变量,(latent variable),,,此模型需估计,4,个参数,除两个固定系数 和 ,还需估计两个随机参数 和 。
其中 即为医院水平的方差成份, 为患者水平的方差成份组内相关的度量,方差成份模型中,应变量方差为,,,,,,,此即水平,2,和水平,1,方差之和同一医院中两个患者,(,用,i,1,,,i,2,,表示,),间的协方差为:,,,组内相关,(intra-class correlation, ICC),,,测量了医院间方差占总方差的比例,实际上它反映了医院内个体间相关,即水平,1,单位,(,患者,),在水平,2,单位,(,医院,),中的聚集性或相似性由于模型不止一个残差项,就产生了非零的组内相关若 为,0,,表明数据不具层次结构,可忽略医院的存在,即简化为传统的单水平模型;反之,若存在非零的 ,则不能忽略医院的存在水平,2,单位中的水平,1,单位间存在相关,通常的“普通最小二乘法”,(Ordinary Least Squares OLS),进行参数估计是不适宜的进一步,如数据具有三个水平的层次结构,如医院、医生和患者三个水平,则将有两个这样的相关系数,即医院内相关和医生内相关随机系数模型是指协变量的系数估计不是固定的而是随机的,即协变量对反应变量的效应在不同的水平,2,单位间是不同的。
仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设随机系数模型,(Random Coefficient Model),与方差成份模型的区别在于 方差成份模型中协变量 的系数估计为固定的 ,示协变量 对反应变量的效应是固定不变的在随机系数模型中协变量 的系数估计为 ,示每个医院都有其自身的斜率估计,表明协变量 对反应变量的效应在各个医院间是不同的的假定及其含义与方差成份模型一致现 为随机变量,假定:,,,,,表示第,j,个医院的,y,随,x,变化的斜率; 表示全部医院的,y,随,x,变化的斜率的平均值,(,平均斜率,),是指各医院的,y,随,x,变化的斜率 的方差示第,j,个医院的斜率与平均斜率的离差值, 指上述截距离差值与斜率离差值的协方差,反映了它们之间的相关关系即表达为固定部分与随机部分之和其中,,固定效应用均数描述,,它决定了全部医院的平均回归线,这条直线的截距即平均截距 ,直线的斜率即平均斜率 为随机系数将模型改记为:,,,,,,,,,,随机效应用方差描述,,它反映了各医院之间,,y,,的变异与协变量,x,的关系。
模型随机部分具多个残差项,需估计,4,个随机参数,即方差 、 和 以及协方差 模型的反应变量方差为:,,表明各医院间,y,的变异与协变量,x,有关,即每条回归线不仅截距不同,且斜率也不同当,x,取,0,时每个医院,y,的平均估计值 不同,且每个医院,y,随,x,变化的斜率 不同组内相关与解释变量有关,,值得指出,模型随机部分的解释变量常为其固定部分的一个子集,但亦可以不是换言之,可以在模型的固定部分或随机部分纳入任何水平上测量的解释变量反应变量向量的协方差结构,,从最基本的两水平数据结构来考察反应变量向量的协方差结构,即只包括随机参数 和 对应于方差成份模型,反应变量方差为水平,1,和水平,2,方差之和:,,,,,,同一个医院所诊疗的两个患者,(,用 , 表示,),间的协方差为:,因此,同一医院所诊疗的三名患者的协差阵为,,,对两个医院而言,若一个医院诊疗了三名患者,另一个医院诊疗了两个患者,则具有,2,个水平,2,单位的反应变量向量,Y,总的协差阵可表达为:,,,,矩阵的这种分块对角结构表达了不同医院所诊疗的患者间的协方差为,0,,它可进一步扩展到任意多的医院数。
将上述矩阵表达为另一种更简略的形式,:,,为 维的,1,矩阵, 为 维的单位阵, 的下标,2,表明为两水平模型, 的维数即水平,2,单位数,主对角线块的维数即水平,1,单位数,它们均为方阵在传统,OLS,估计中, 为,0,,则该协差阵退化为标准形式的 , 即残差方差考察包括随机系数的一般形式的两水平模型,,或简记为,,对于具有随机截距与斜率的两水平模型,其反应变量协差阵具有以下典型的分块结构:,,,,,,,,,矩阵 为水平,2,的随机截距与斜率的协差阵,即随机系数协差阵,矩阵 为水平,1,的随机系数协差阵这里,水平,1,只有一个单一的方差项,可进一步采用 表示这些协差阵集 将上述矩阵展开得到:,,,这是具有分块结构的一个具有,2,个水平,1,单位的水平,2,单位的反应变量协差阵此即构造反应变量协差阵的一般模式,它同时也概括了拟合水平,1,复杂变异的可能性固定与随机参数估计,,,固定和随机参数的估计方法一般采用“迭代广义最小二乘算法”,(Iterative Generalized Least Squares,,,IGLS) (Goldstein,,,1986),或“限制性迭代广义最小二乘法”,(Restricted Iterative Generalized Least Squares,,,RIGLS) (Goldstein,,,1989),。
现以最基本的两水平方差成份模型来阐明固定与随机参数估计的基本思想和步骤假定已知方差 的值,则可直接构造分块对角阵 ,简记为 直接采用通常的广义最小二乘法,(Generalized Least Squares GLS),可获得固定系数的估计:,,,,在初始阶段,假定 为,0,,即假定数据不具有系统结构,则给出固定系数通常的,OLS,估计 ,得到粗残差:,,将粗残差向量记为:,,将粗残差向量形成交叉乘积矩阵 ,然后再形成交叉乘积矩阵 的向量化算子,记为 相应的,也可以形成反应变量协方差阵 向量化算子,记为 对应于,2,个医院,一个诊疗,3,名患者,另一个诊疗,2,名患者,则 和 均具有,32+22=13,个元素因为 的期望为,,可将这些向量间关系表达为以下线性模型,,,,,,,,=,+R=,+,+R,,,,这里, 为一个残差向量将粗残差作为模型的反应变量向量,模型右边包含两个已知的解释变量,其系数即待估计的随机参数 和 。
通过,GLS,方法获得 和 的估计,回到初始模型则获得固定系数新的估计,在随机与固定参数估计间反复迭代直至收敛,此即,IGLS,算法的基础1.,重复测量数据的多水平模型,,,当同一研究对象被重复测量多次时,测量点即为水平,1,单位,测量点又嵌套,(nested),进作为水平,2,单位的个体,这种数据结构具有典型的层次结构特征多水平模型的应用,在临床试验和动物实验中,常需对患者或动物的某些指标进行重复测量,以了解不同时间观测指标的变化以及处理因素与观测指标的关系随时间的变化;在生长发育研究中,也需对个体生长或发育指标作多时点的重复测量常规使用的重复测量数据统计方法,一般要求资料是平衡的,即每一个体有相同次数的重复测量值,这对于实验研究是可行的,但在生长发育研究中,测量常常是不规则的,这就出现了个体测量时点多少不一、时间间隔不等以及观测值缺失等问题,它增加了传统统计方法拟合个体生长曲线的难度,并引起估计结果不同程度的偏差多水平模型技术可有效和方便地处理此类测量模式的数据,提供统计上有效的参数估计,并具有如下几个特点:,,(1),考虑了分布于不同层次的测量误差,并给出相应的误差估计值;,,,(2),拟合个体生长曲线时不要求相等的时间间隔,在拟合个体生长曲线的同时也估计全部样本的平均曲线;,(3),不要求每个个体都有同样多的测量点,即缺失测量点并不增加拟合生长曲线的难度;,,,(4),便于在生长曲线中引入其它解释变量,如性别、营养状况等,分析其对生长过程的影响。
2. Meta,分析是指对具有相同研究假设的多项独立研究结果所进行的合并分析,在合并不同来源的研究资料时可能引入异杂方差,(heterogeneous variance),,因此,其数据可看成具有两个水平的层次结构,即研究水平与个体水平Meta,分析的主要目的是为了得到比单一研究更精确的结果估计,进一步的目的则是分析影响研究结果间差异的因素目前,,Meta,分析主要根据“效应尺度”的同质性检验结果,而决定采用固定效应模型或随机效应模型来合并每项研究的“效应尺度”采用多水平模型可较为方便地分析影响研究结果间差异的因素如研究水平上的有关协变量包括样本含量、设计类型等3.,离散数据的多水平模型,,,,在流行病学现场调查研究中,常对发病率、患病率或死亡率以及它们在地区之间的变异感兴趣这里的两水平结构是,个体为水平,1,,地区为水平,2,此类研究常常拥有若干地区某时期的死亡记录和死者个人特征以及地区特征如人口构成或社会经济特征等研究者可以分析这些解释变量是否能够解释死亡率在地区之间的变异,也可以分析死亡率的差别,(,比如男性和女性之间,),是否在地区之间不同等4.,多变量多水平模型:,,在医学研究中,研究者常对个体作几种测量,(,即测量几个指标,),,如收缩压、舒张压和心率,如果将它们作为反应变量一起进行分析,就可以设置多变量模型,分析解释变量诸如年龄、性别、是否锻炼、是否吸烟等与这三个反应变量的关系。
此时,是将其作为一个两水平模型,每一个体作为一个水平,2,单位,,3,种测量组成水平,1,单位5.,混合反应变量多水平模型,,,例如,测定人们的吸烟行为,可以测量某人是否吸烟以及吸烟程度如何,我们可将其考虑为一个混合双变量模型,将有关吸烟的影响因素作为模型中的解释变量进行分析多水平分析的主要优点:,1.,获得回归系数及其标准误的有效估计2.,可在模型固定或随机部分引入任何水平上所测量的协变量,能够探讨各水平单位的特征对反应变量的影响,以及对反应变量在高水平单位甚至是低水平单位之间变异的影响,即这些特征是否可以解释这些变异3.,在调整了低水平单位甚至高水平单位的各种特征后,可对高水平单位的残差估计进行排序和比较,用于识别极端的高水平单位例如,比较若干医院某病治愈率的高低,在调整了患者、医护人员的各种特征之后,通过对医院水平残差估计的考察,可以发现某些极端的医院若将其选出作进一步深入的个案调查,则形成定量的多水平分析和定性调查相结合的研究,有助于探讨更详细的因果机制这是多水平分析的另一个重要特点应用前景,自然界与人类社会广泛存在着层次结构现象,生物系统具有自然的等级或组群结构,人类社会被组织成高度复杂的系统结构。
医学和公共卫生领域研究的一个重要方面是探索疾病发生、发展及其变化的规律性疾病总是在某种特定的环境中产生和发展的,即个体的结局是由个体和所在环境的特征联合决定的无论是观察性研究还是实验性研究,从时空两个维度均可形成数据的层次结构多水平模型复杂的误差结构适应并反映了数据相应的层次结构,这是多水平分析区别于经典统计模型的最重要特征1.,运行空模型:,,空模型的结果可以说明总结局测量变异中多大程度是由组内变异引起,多大程度是由组间变异引起微观和宏观来源的结局测量变异可以用来计算组内相关系数(,ICC,)建立多水平模型的步骤,,计算组内相关系数(Intra-class correlation coefficient,ICC):,,测量了医院间方差占总方差的比例,实际上它反映了医院内个体间相关,即水平,1,单位,(,患者,),在水平,2,单位,(,医院,),中的聚集性或相似性由于模型不止一个残差项,就产生了非零的组内相关若 为,0,,表明数据不具层次结构,可忽略医院的存在,即简化为传统的单水平模型;反之,若存在非零的 ,则不能忽略医院的存在2.,将水平,2,解释变量纳入空模型,,此时,模型称为带宏观解释变量主效应的随机截距模型。
与空模型比较,该模型具有相同的随机成分,但固定效应不同3.,将水平,1,解释变量纳入截距模型,,该模型称为随机截距模型与带宏观解释变量主效应的随机截距模型相比,有相同的随机效应,但是固定效应不同4.,检验水平,1,随机斜率,,多层模型中,不仅结局测量组均数会跨组变化,而且水平,1,解释变量与结局测量之间的关系也会随组群的变化而变化检验跨层交互作用,,Cross-level interaction,:如果某个场景变量对水平,1,随机系数有显著效应,表示水平,1,解释变量与应变量之间的关系依赖于组水平的解释变量,或受场景变量的影响和调节例:,,多水平模型及其对肝癌患者住院费用影响因素的分析,资料来源,,资料来源于广州市某三甲医院信息系统,(,广东省统计病案管理系统,),的病历资料,,,本研究采用,ICD- 10,编码,,,选取编码为,C22. 001(,原发性肝癌,),的病例,,,收集该医院,2003--2008,年的住院患者共,1659,例,(,男,1440,例,,,女,219,例,),主要摘录患者的一般情况,(,病案号,,,性别,,,年龄,,,婚姻状况,) ,,入院情况,,,疗效,,,付款方式,,,抢救情况,,,手术情况,,,住院天数,,,住院费用,(,总费用,),等。
根据医院科室功能和患者例数情况,,,归纳为,21,个科室住院费用、住院天数都是非正态分布的资料,,,经对数变换后进行分析肝癌患者的平均年龄为,52,岁,,,为了使模型截距有意义,,,对年龄进行总体均数中心化,,,即将年龄减去总体均数X,表示第一水平解释变量,, W,表示第二水平解释变量结果与分析,,(1)拟合空模型,,截距项方差,残差项方差,,(2)空模型纳入第二水平解释变量,截距项,科室分区,残差,,,,(3) 第一水平模型纳入第一水平解释变量,,,考虑随机效应解释变量的多水平模型,以上是把第一水平的解释变量全部假设为固定效应变量,,,即认为解释变量对结局变量的效应在组间是无差异的,,,但是在实际中有些解释变量对结局变量的影响是会随着组单位的不同而变化的,,,即还需要确定第一水平解释变量是否有随机效应结果显示手术情况,( X 8 ),、住院天数,( X 9 ),为随机效应,,,并且各随机效应之间无相关关系,,。












