
多层统计分析模型.ppt
70页多层统计分析模型陶庄中国CDC卫生统计研究室绪论青蛙与池塘(“Frog-pond theory”)l青蛙—学生个体;l池塘—学校环境;l学生的成绩好坏不仅受到个体本身的影响,也受到学校环境的影响!多层数据l低一层(低水平)单位(个体)低一层(低水平)单位(个体)的数据的数据嵌嵌套(套(nested))于于高一层(高水平)的单位高一层(高水平)的单位(组群)(组群)之中l结局变量,个体解释变量,结局变量,个体解释变量,场景变量场景变量((contextual variables))组内观察相关(within-group observation dependence)l同一组内的个体,较不同组的个体而言,在观念、行为等很多方面更为接近或相似;即便不是刻意分组,也是如此l组内同质(within-group homogeneity),组间异质(between-group heterogeneity)l很小的相关将导致很大的I类错误多层数据的常见来源l复杂抽样;l多中心临床试验;l纵向研究(longitudinal studies)与重复测量(repeated measures);l“高低搭配”;lMeta分析;l……多层统计模型的研究内容l哪些个体解释变量会影响结局变量;l哪些场景变量会影响结局变量;l个体解释变量对结局变量的影响是否会受到场景变量的影响。
多层统计模型出现前对多层数据进行分析的探索探索(1)—分别估计l在个体水平和组群水平分别进行分析;l试图用单一的个体水平模型的分析结果来推论另一水平的统计结果探索(2)—传统回归l用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层(cross-level)交互作用探索(3)—两步模型(two-stage model)l第一步模型,对各组分别进行同一回归模型估计,获得一系列的系数;l对这些系数的恒定性进行检验;l如果不恒定,则进行第二步模型,以组变量为因变量,系数为自变量进行回归探索(3)—两步模型的问题l无论哪一步均使用OLS,并不适用;l当组群过多,则十分麻烦;l某些组内样本量很少时,进行回归不稳定;l将每个组群认为是不相关的,忽略了其为从一大样本中抽取的事实多层统计模型的出现l研究的学者很多;l系统的主要为两;l研究的理论没有根本上的分歧;l双方研究成果的发布时间基本相同(上世纪80年代末90年代初);l分别有各自分析的成熟的软件;l目前,大家基本上接受两组人分别独立开发出同一模型的结果S. Raudenbush与A. Brykl模型称为:hierarchical linear model;l软件为:HLMH. Goldsteinl模型称为:multilevel models;l软件为:MLwiN(早期版本称ML3,MLn)多层统计模型的名称lmultilevel modelslhierarchical linear modellrandom-effect modellrandom coefficient modellvarious component modellmixed-effect modellempirical Bayes model多层统计模型的优点l同时分析组效应和个体效应;l不需有独立性假设;l对稀疏(sparse)数据,即每组样本很少的数据,特别有效;l特别适合对发展模型(GM)的分析。
多层统计模型的局限性(1)l模型复杂,不够简约;l需较大样本以保证稳定性;l组群数量较少,会出现偏倚;l高水平单位并非严格抽样获得;l某些场景变量通常是各组个体的聚集性测量,而不是总体内个体的聚集性测量;多层统计模型的局限性(2)l研究对象一般具有流动性,即受到群组影响的程度不同,虽可用出入时间进行控制,但此信息一般不可知;l依然存在自变量带有测量误差的问题,必需借助于结构方程模型(SEM);l完全嵌套假设,即每一个低水平单位嵌套、且仅嵌套于一个高水平单位用于多层统计模型的软件l专门软件:HLM;MLwiN;SuperMIX;aML;EGRET;LISREL;Mplus等l通用统计学软件:SAS;SPSS;stata;S-plus/R等线性多层统计模型基础知识组内相关系数(Intra-Class Correlation Coefficient, ICC)l组间方差占总方差的比例l可使用对“空模型”的拟合获得;l值域在0到1之间,越接近1,说明相关越明显;l对ICC的检验是是否选择多层模型的依据两水平模型的公式表达空模型(又称截距模型)两个水平1自变量、一个水平2自变量一般模型SAS中的公式表达模型假设模型假设—SAS的表达固定和随机回归系数模型估计方法最大似然法(ML)l包括普通最大似然法(ML)和限制性最大似然法(REML);l两者用于估计的残差基础不同,后者的残差包括所有的随机变异;lREML是SAS的MIXED过程和HLM的默认算法;lREML通常用于组数量较少的模型;lML可以用于模型比较,而REML不行;lREML估计较优,而ML较快。
最小二乘法(LS)l包括迭代广义最小二乘法(IGLS)和限制性迭代广义最小二乘法(RIGLS)l都以普通最小二乘估计(OLS)为初始值进行迭代;l地位及相对关系大致等同于ML和REML;l是MLwiN使用的算法经验Bayes方法(EB)l“收缩估计(shrinkage estimator)”l以可靠性权重确定最后的估计值;l对于某些样本量很小的组,则更多的使用总样本的信息,进行“借力(borrow strength)”空模型的可靠性权重对模型拟合的评价lSAS给出:-2LL,AIC,AICC,BIC等统计量,其值越小越好;l但只在比较模型时有用;l模型收敛的速度可以说明拟合的好坏假设检验l全局检验:F检验;l局部检验:对方差-协方差估计使用Wald Z检验;对系数使用t检验;l单测检验,P值需除2;l其它可使用LR等模型比较l对于嵌套模型,使用LR检验;l对于非嵌套模型,使用AIC,AICC和BIC检验;l无论何种,均需使用ML进行估计对变异的解释程度(RB)对变异的解释程度(SB)示例与SAS实现例1:对医生满意度调查lPatid:病人编号;lPhys:医生编号;lAge:病人年龄;lSat:满意度分数;lPractice:执业时间;空模型空模型l2步迭代完成;l所有随机系数的检验均高于检验水准;lICC=0.00292/(0.00292+1.291)=0.23%l不用进一步拟合多水平模型例2:SNA角度测量值lid:观察对象编号;locca:每次观察编号;lAge:病人年龄;lSNA:角度;lagg:场景变量;空模型l3步迭代完成;l所有随机系数的检验部分低于检验水准;lICC=0.4296/(0.4296+0.5629)=43.28%l应进一步拟合多水平模型空模型加入场景变量空模型加入场景变量l3步迭代完成,随机截距有意义;l所有随机系数的检验部分低于检验水准;l该模型-2LL=345.8,空模型-2LL=352.2,则LRχ2=6.4,p=0.0114;lRB=1-0.3330/0.4296=0.2248;加入水平1变量(固定效应)加入水平1变量(固定效应)l3步迭代完成,随机截距有意义;l所有随机系数的检验部分低于检验水准;l该模型-2LL=199.1,前模型-2LL=345.8,则LRχ2=146.7,p=0.000;检验水平1的随机性检验水平1的随机性l4步迭代完成,2个随机系数均有意义;l所有随机系数的检验部分低于检验水准;l该模型-2LL=185.6,前模型-2LL=199.1,则LRχ2=3.5,p=0.1738;跨层交互作用评估跨层交互作用评估l5步迭代完成,随机截距有意义,但交互项没意义;l-2LL等都对前模型有所增加;l跨层交互作用不显著。
建模一般步骤l运行空模型以获得ICC,判断是否进行多层模型拟合;l加入水平2解释变量;l加入水平1解释变量;l检验水平1随机斜率;l检验跨水平交互作用(全模型)发展模型传统纵向数据分析方法的局限性l重复测量的方差分析;l假设残差方差在各时间点上相等;l或,假设任何时点之间的残差方差的差异相等(即所谓“球面(sphericity)”假设或称“环形(circularity)”假设);l要求完整均衡数据,即等时距,无缺失发展模型的优点l可处理缺失和不完整数据;l可处理不等时距问题;l不要求对象内独立即其它的限制性假设;l可以容易的加入时间依赖自变量发展模型与一般多层模型的区别SAS程序lproc mixed covtest ic;lclass id timec;lmodel y=trt | time / s ddfm=KR notest;lrandom int time / subject=id G type=UN;lrepeated timec / subject=id R type=AR(1);lrun;离散型结局变量的多层统计模型广义线性模型l随机成分(random components):指的是分布,一般为指数族分布;l系统成分(systematic component):即传统回归模型形态;l链接函数(link function)广义线性混合效应模型l对广义线性模型和多层统计模型的结合和扩展。
广义线性混合效应模型的估计方法l线性化法(linearization methods)l数值法积分近似法(integral approximation with numerical methods)线性化法l使用泰勒展开式等技术来近似估计该积分似然函数;l不使用原始数据,而是按原始数据产生伪数据(pseudo-data)进行估计;lSAS中的GLMMIX过程线性化法的优点和局限性l模型的联合分布难于确定,也可以胜任;l可拟合较多随机效应;l允许不同结构的R矩阵;l可以使用REML等;l由于使用伪数据进行拟合,不能使用LR进行模型比较;lSAS提供的随机效应的标准误有偏,不能用于假设检验数值法积分近似法l使用原始数据估算边际积分似然函数的近似值;l默认的是适应性高斯求积法;l并可使用多种优化技术,默认的是二元准牛顿算法;lSAS中的NLMIXED过程数值法积分近似法的优点和局限性l使用原始数据进行拟合,可以使用LR进行模型比较;lSAS提供显著性检验;l非常耗时,且不易收敛;l不能随意设定R的结构;l只能使用ML各种离散型结局变量模型l多层logistic回归模型–多层累积logistic回归模型;–多层多项logistic回归模型;l多层poisson回归模型;l……谢谢大家!。












