有序多分类逻辑斯蒂回归模型专题培训课件.ppt
31页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Logistic回归,因变量,二项Logistic回归,多项Logistic回归,有序回归,Probit回归,第14章 有序回归,(有序多分类因变量Logistic回归),14.1 有序回归的基本思想,14.2 有序回归的案例分析,研究中常遇到反应变量为有序多分类(,k,2)的资料,如城市综合竞争力等级、满意度等可以划分为低、中、高与名义多分类因变量有所不同,定性有序多分类因变量采用,累积logit模型,,该模型可利用有序这一特点,得到比基线-类别有更简单解释的模型Y的累积概率是指Y落在一个特定点的概率,对结果为类别j时,其累积概率为:,累积概率满足:,累积概率的模型并不利用最后一个概率,因为它必然等于1,14.1 有序回归的基本思想,p,j,=p(,y,j,|,x,),它表示,y,取前,j,个值的累积概率,累积概率函数:,14.1 有序回归的基本思想,J,等级分为两类:1,j,与 ,j,+1,k,在这两类的基础上定义的 logit 表示:属于后,k,-,j,个等级的累积概率与前,j,个等级的累积概率的优势的对数,故该模型称为累积优势模型(cumulative odds model)。
第一个模型表示了,y,取第一个值的概率,p,1,与,x,的关系;第二个模型表示了,y,取前两个值的累积概率,p,2,与,x,的关系这两个模型的,常数项不同,,,回归系数完全相同的,y,取第一个值的概率,p,(1)=,p,1,,,y,取第二个值的概率,p,(2)=,p,2,-,p,1,,,y,取第三个值的概率,p,(3)=1,-p,2,它们的截距不同,斜率相同,所以是,J-1条平行直线族,多值因变量logistic回归模型要求进行数据的平行性检验,平行性检验(,只适用于位置模型,/位置参数/斜率系数),当因变量维多值变量时,模型包含多个回归方程Logistic回归分析要求这多个回归方程中自变量的系数是相等的因此需要做平行行检验,也称为比例比数假设检验(test fo the proportional odds assumption),使用的方法是计分检验法当Pa时,接受平行的原假设否则,应该,将因变量的某些值进行合并,减少因变量的取值个数,,使得多值变量logistic回归模型平行性成立还可以,尝试其他链接函数,如果各种连接函数都无法满足平行性假定,则需要考虑回归系数是否会随着分割点而发生改变。
此时最好,使用无序多分类的Logistic 回归,进行模型拟合,然后再根据系数估计值考虑如何进行处理以4 水平的反应变量为例,假设反应变量的取值为1、2、3、4,相应取值水平的概率为p,1,、p,2,、p,3,、p,4,,,则,此时进行Logit 变换的分别为p,1,、p,1,+p,2,、p,1,+p,2,+p,3,,对k 个自变量拟合三个模型如下:,常数项不同,,,回归系数完全相同的,张文彤版本的常数项前均为负号,根据上述公式,可以分别求出:,由上述建立的模型可以看出,这种模型实际上是依次将反应变量按不同的取值水平分割成两个等级,对这两个等级建立反应变量为二分类的Logistic 回归模型不管模型中反应变量的分割点在什么位置,模型中各自变量的系数都保持不变,所改变的只是常数项,此时求出的,OR,值表示自变量每改变一个单位,反应变量提高一个及一个以上等级的比数比,张文彤认为,这里拟合的模型中常数项之前的符号应当是“负号”,原因在于此处的常数项正好表示低级别和高级别相比的情况,且必然有 ,但由于研究者主要关心的是各参数(系数)的大小,因此这种差异影响不大并且由SPSS给出的系数无需再添加符号。
某大学医院外科采用两种不同的绷带和两种不同的包扎方式进行腿溃疡的治疗处理治疗的结果分三种:不愈、有效和痊愈试分析治疗方法对治疗效果的影响设因变量 y 表示治疗效果,0=不愈、1=有效、2=痊愈设自变量,x,1,表示绷带种类,自变量,x,2,表示包扎方式对于多值因变量模型,平行性假设决定了每个自变量的OR值对于前k-1个模型是相同的例如,变量,x,1,的OR=5.172,它,表示使用第一种绷带治愈腿溃疡的可能性是使用第二种绷带的5.172倍,;它,也表示使用第一种绷带至少有效的可能性是使用第二种绷带的5.172倍,14.1 有序回归的基本思想,有序回归模型的类型:,当定性因变量,y,取,k,个顺序类别时,记为1,2,,k,,这里的数字1,2,,k,仅表示顺序的大小因变量,y,取值于每个类别的概率仍与一组自变量,x,1,x,2,x,k,有关,对于样本数据(,x,i,1,x,i,2,x,ip,;,y,i,),,i,=1,2,n,,顺序类别回归模型有两种主要类型,,位置结构(,Location component,)模型,位置模型,定位模型,规模结构(,Scale component,)模型,尺度模型,定量模型,位置结构模型(位置模型,/,定位模型):,(1),规模结构模型,(,尺度模型,/,度量模型,Scale),:,其中z是,x,1,x,2,x,p,的一个子集,作为规模结构解释变量,,(2),14.2 有序回归的案例分析,例:对某地人群调查其对所从事的工作是否满意,可能的影响因素有:年龄、性别、年收入水平、文化程度。
变量的赋值情况见下表,数据见文件satisfy.sav试进行统计分析变量的赋值情况如下:,警告信息说明自变量的各种取值水平组合中有多少其观察频数为0由于数据库中变量age 为连续性变量,所以这个比例显得较大,此种情况下属于正常现象反应变量与离散自变量不同取值水平的边际频数分布,对模型中是否所有自变量偏回归系数全为0 进行似然比检验(判断规则:P,a,,拟合较好),结果P,a,,拟合较好当自变量很多或者自变量中存在连续性变量时,这两个统计量不太适用这两个统计量有个致命的缺点是对于自变量取值水平组合的实际观察频数为0 的比例十分敏感,如果上述比例过高,这两个统计量不一定仍旧服从卡方分布,因而基于卡方分布计算的P 值也不可信即:这两个统计量不一定能真实地反映模型拟合情况当自变量中存在连续性变量时,如本例中的年龄,常会导致上述比例过高与上述两个统计量相比,似然比卡方则要稳健得多本例两个统计量对应的P 值均小于0.050,14.2 有序回归的案例分析,例:分析债权人如何确定申请者信用风险的问题,SPSS自带数据文件“信誉评价数据.sav”,因变量Chist(账目情况)取值:没有贷款历史、现在没有贷款、正在偿还、逾期偿还、拖欠贷款,因子一般为分类变量,协变量一般为连续变量,也可以为二分类变量,链接:指定链接函数(联系函数、连接函数),即对模型估计中的,累积概率的转换函数,,根据因变量(反应变量)的情况选择,补充对数对数,负对数对数,输出伪R方,检验系数在各响应类别中是否相同,仅适用于位置模型,输出累积频数、概率的残差、观测概率、预测概率等内容,把观测记录按因变量进行分类的估计概率,有几个水平就保存几个变量,保存最大的估计响应概率,保存预测正确时的估计响应概率,保存模型的预测响应分类,位置模型设置:用于指定定位模型中的各种效应,尺度模型设置:设置与尺度模型有关的参数,案例处理摘要:可以看出,本例在链接函数的选择上,可以选择补充对数对数,也可以选择Cauchit链接函数,主要输出结果,主要输出结果,说明最终模型要优于只含截距的模型,即模型显著成立,由于本例模型包含连续变量,故空单元格较多,影响了统计量的计算和有效性。
因此,本例基于卡方检验的拟合优度统计量不太可信,系数大都不够显著,原因可能是因变量的分类顺序不对,也可能是因为链接函数选择不理想若协变量的参数估计之为正,那么对此变量取值越大的观测目标类别取值也越大,如age变量显著且为正,表明年龄越大拖欠贷款的概率也越大平行检验:原假设是斜率系数(位置参数)在各响应类别中都是相等的由于Pa,否定原假设,说明各回归方程,不平行,如果平行性检验的P 值非常小,是不能就这样蒙混过关的其主要原因是链接函数选择不准确,或者系数的确在随着分割点发生变化可以考虑其他链接函数以及使用无序多分类模型根据所得到的模型预测方程和相关个案信息,即可进行预测,预测该个案的信誉属于哪一种类别这对于银行贷款决策具有重要意义例如,某申请者的信息为:申请48个月的贷款,22岁,有银行贷款,没有其他贷款,有住房,此时可以评估其信誉水平把上述个案信息代入所得到的(k-1)个模型预测方程,即可得到(k-1)个估计值,再把这些估计值代入所选择的链接函数的逆函数中,得到累计概率值,然后再根据累积概率概率求出每个类别的预测概率,预测概率最大的类别即为该个案的类别,进而做出信誉类别的判断,练习1:儿童智力等级与母亲文化程度的关系,智商等级,y,母亲文化程度,小学,初中,高中或中专,大专及以上,合计,x,=0,x,=1,x,=2,x,=3,1=中下,22,57,11,1,91,2=中等,81,236,112,4,433,3=中上,30,135,105,10,280,4=上等,3,26,17,7,53,合计,136,454,245,22,857,14.2 有序回归的案例分析,练习2:某研究者欲比较两个不同的药物治疗病情不同的某病的效果,临床试验数据如下表,试分析两种药物的治疗效果。
两种药物对不同病程的某病治疗效果比较,药物,病情,疗效,痊愈(2),有效(1),无效(0),甲药(0),轻(1),18,35,54,重(0),5,16,65,乙药(1),轻(1),35,46,16,重(0),19,39,24,14.2 有序回归的案例分析,本章结束!,。

卡西欧5800p使用说明书资料.ppt
锂金属电池界面稳定化-全面剖析.docx
SG3525斩控式单相交流调压电路设计要点.doc
话剧《枕头人》剧本.docx
重视家风建设全面从严治党治家应成为领导干部必修课PPT模板.pptx
黄渤海区拖网渔具综合调查分析.docx
2024年一级造价工程师考试《建设工程技术与计量(交通运输工程)-公路篇》真题及答案.docx
【课件】Unit+3+Reading+and+Thinking公开课课件人教版(2019)必修第一册.pptx
嵌入式软件开发流程566841551.doc
生命密码PPT课件.ppt
爱与责任-师德之魂.ppt
制冷空调装置自动控制技术讲义.ppt


