好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

logistic回归模型.ppt

21页
  • 卖家[上传人]:壹****1
  • 文档编号:580221723
  • 上传时间:2024-08-28
  • 文档格式:PPT
  • 文档大小:501.50KB
  • / 21 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 逻辑斯蒂(Logistic)回归 Logistic回归模型•列联表中的数据是以概率的形式把属性变量联系起来的,而概率p的取值在0与1之间,因此,要把 概率 与 之间直接建立起函数关系是不合适的即 Logistic回归模型•因此,人们通常把p的某个函数f(p)假设为变量的函数形式,取•称之为logit函数,也叫逻辑斯蒂变换•因此,逻辑斯蒂变换是取列联表中优势的对数当概率在0-1取值时,Logit可以取任意实数,避免了线性概率模型的结构缺陷 Logistic回归模型假设响应变量Y是二分变量,令 ,影响Y的因素有k个 ,则称:•为二分数据的逻辑斯蒂回归模型,简称逻辑斯蒂回归模型其中的k个因素称为逻辑斯蒂回归模型的协变量•最重要的逻辑斯蒂回归模型是logistic线性回归模型,多元logit模型的形式为: Logistic回归模型•其中, 是待估参数根据上式可以得到优势的值:•可以看出,参数 是控制其它 时 每增加一个单位对优势产生的乘积效应。

      •概率p的值: 含有名义数据的logit•有些协变量为定量数据,logistic回归模型的协变量可以是定性名义数据这就需要对名义数据进行赋值•通常某个名义数据有k个状态,则定义变量 代表前面的k-1状态,最后令k-1变量均为0或-1来代表第k个状态•如婚姻状况有四种状态:未婚、有配偶、丧偶和离婚,则可以定义三个指示变量M1、M2、M3,用(1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,-1,-1)来对以上四种状态赋值 含有名义数据的logit 含有名义数据的logit•例:某地25岁及以上人中各类婚姻状况居民的死亡情况见表,试建立死亡率关于年龄和婚姻状况的logit模型•其中,A表示年龄(取中值),M1、M2、M3表示婚姻状况•于是,估计的logit方程为: 含有有序数据的logit•Logit模型的协变量也可以是有序数据•对有序数据的赋值可以按顺序用数0,1,2,3,4分别表示【例】某地某年各类文化程度的死亡人数见表,试建立logit模型•建立死亡率关于年龄和文化程度的logit模型•其中A为年龄,E为文化程度 含有有序数据的logit 含有有序数据的logit•于是,估计的logit方程为:•其中,年龄的系数0.124,说明年龄越大死亡率会越高;•文化程度的系数-0.164,说明文化程度与死亡率呈负相关,文化程度越高,死亡率越低。

      多项logit模型•前面讨论的logit模型为二分数据的情况,有时候响应变量有可能取三个或更多值,即多类别的属性变量•根据响应变量类型的不同,分两种情况:–响应变量为定性名义变量;–响应变量为定性有序变量;•当名义响应变量有多个类别时,多项logit模型应采取把每个类别与一个基线类别配成对,通常取最后一类为参照,称为基线-类别logit. 多项logit模型•预测变量为x的基线-类别logit模型为:•模型共有J-1个方程,每个方程有不同的参数,这些效应依据与基线配对的类别而变化;•软件可以同时拟合模型中的所有方程;•不管哪个类别作为基线,对于同一对类别都会有相同的参数估计;即基线类别的选择是任意的; 多项logit模型【例】研究三个学校、两个课程计划对学生偏好何种学习方式的影响调查数据见表:•其中,三个学校对应两个哑变量x1和x2,两个课程计划为常规(x3=1)和附加(x3=0),学习方式分为:自修(y=1)、小组(y=2)、上课(y=3)•从题目可以看出,响应变量是学习方式有三类,属于多项逻辑斯蒂回归问题于是,建模为: 多项logit模型 多项logit模型•应用统计软件可以得到模型的参数估计和回归方程:•然后,将x1和x3的取值代入上式,可以进一步对三个属性之间的关系加以分析。

      –学校2与学校3的学生在自修与上课两种学习方式上偏好相同;–学校1比学校2和3更偏好上课(1.727>0.593);–课程计划中,常规课程与附加课程相比,常规课程学生更偏好自修;–小组与上课相比,三个学校没有差别;常规课程学生更偏好小组学习 多项logit模型•当响应变量为定性有序变量时,多项logit模型的处理会与名义变量有所不同•有序响应变量的累积logit模型–当变量为有序变量时,logit可以利用这一点,得到比基线-类别有更简单解释的模型;–Y的累积概率是指Y落在一个特定点的概率,对结果为类别j时,其累积概率为:–累积概率满足:–累积概率的模型并不利用最后一个概率,因为它必然等于1 多项logit模型【例】研究性别和两种治疗方法(传统疗法与新疗法)对某种疾病疗效的影响,84个病人的数据见表•由题知,疗效是一个有序变量,包括显著、较有效和无效三个值,需要建立累积logit模型 多项logit模型•令p1,p2,p3分别表示疗效的三种情况出现的概率,在对性别和疗法赋值后,则累积logit模型为:•其中,与基线-类别logit不同的是,参数 描述了变量 对响应变量落在类j或小于j的对数优势的效应,且对所有(J-1)个累积logit都是相等的; 的情况类似。

      •以上性质决定了在其他变量不变的情况下, 每增加一个单位,响应变量在任意给定类别下的优势比将为 •这一相同的比例(β)适用于每个累积概率,称为比例优势假设. 多项logit模型•应用统计软件,可以得到以上模型的参数估计和回归方程:•统计分析结论如下:–女性比男性的疗效好,其优势比为:–新疗法比传统疗法好,其优势比为: 本次问卷中的案例(以食堂满意度为例)•一般为多项逻辑模型,且响应变量为有序变量。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.