好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

ch6 多分类因变量.pptx

22页
  • 卖家[上传人]:小**
  • 文档编号:87412015
  • 上传时间:2019-04-05
  • 文档格式:PPTX
  • 文档大小:990.92KB
  • / 22 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第六章 多分类因变量,苏嘉楠 中国人民大学统计学院,教材:孟生旺,《回归模型》,中国人民大学出版社,2015,主要内容,问题引入 多项logistics回归模型 多项logistics回归模型模拟数据分析 定序logistics回归模型 定序logistics回归模型模拟数据分析,多分类因变量,定义:分类数大于等于3的分类因变量 类型 模型,,定序变量:学生的健康状况,定类变量:学生的民族,,定序变量:定序logistics回归模型,定类变量:多项logistics回归模型,多分类因变量的logistics回归模型主要用于预测各个类别的发生概率,多项logistics回归模型,目的:预测不同结果的发生概率 情景:通过学生的性别、兴趣、成绩等预测学生的专业选择 假设:无关类别的独立性 若有K 个类别因变量,可以用K-1个相互独立的二分类因变量 代替即将其中一个类别当基准,其他K-1个类别可以分别与其进行比较多项logistics回归模型,假设:无次序因变量有K个类别,第K 个类别为基准类别 模型:多项logistics模型可表示为K-1个二项logistics回归模型 ln Pr⁡( 𝑦 𝑖 =1) Pr⁡( 𝑦 𝑖 =𝐾) = 𝑥 𝑖 𝑇 𝛽 1 ln Pr⁡( 𝑦 𝑖 =2) Pr⁡( 𝑦 𝑖 =𝐾) = 𝑥 𝑖 𝑇 𝛽 2 ⋮ ln Pr⁡( 𝑦 𝑖 =𝐾−1) Pr⁡( 𝑦 𝑖 =𝐾) = 𝑥 𝑖 𝑇 𝛽 𝐾−1 𝑥 𝑖 =[1, 𝑥 𝑖1 , 𝑥 𝑖2 ,…, 𝑥 𝑖𝐽 ] 𝑇 :第i个观察案例的解释变量,包含 J个解释变量 𝛽 k =[ 𝛽 k0 , 𝛽 k1 , 𝛽 k2 …, 𝛽 k𝐽 ] 𝑇 :第k个类别的logistics回归模型的参数,J+1个参数,第一个参数为截距项,模型设定,多项logistics回归模型---模型设定,𝛽 k𝑗 可解释为: 在控制其他解释变量的条件下,解释变量 𝑥 𝑖j 的单位变化对类别K与基准类别发生比的影响为exp( 𝛽 k𝑗 ) 对方程进行变型: Pr 𝑦 𝑖 =1 = Pr 𝑦 𝑖 =𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 1 Pr 𝑦 𝑖 =2 = Pr 𝑦 𝑖 =𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 2 ⋮ Pr 𝑦 𝑖 =𝐾−1 = Pr 𝑦 𝑖 =𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘−1,由所有类别的概率之和为1: Pr⁡(𝑦 𝑖 =1)+ Pr⁡(𝑦 𝑖 =2)+⋯ Pr⁡(𝑦 𝑖 =𝐾)=1 得 Pr⁡(𝑦 𝑖 =𝐾)(1+ 𝑘=1 𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘 )=1 Pr⁡(𝑦 𝑖 =𝐾)= 1 (1+ 𝑘=1 𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘 ),将 Pr⁡(𝑦 𝑖 =𝐾)= 1 (1+ 𝑘=1 𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘 ) 代入 Pr 𝑦 𝑖 =𝐾−1 = Pr 𝑦 𝑖 =𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘−1 Pr 𝑦 𝑖 =1 = 𝑒 𝑥 𝑖 𝑇 𝛽 1 (1+ 𝑘=1 𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘 ) Pr 𝑦 𝑖 =2 = 𝑒 𝑥 𝑖 𝑇 𝛽 2 (1+ 𝑘=1 𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘 ) ⋮ Pr 𝑦 𝑖 =𝐾−1 = 𝑒 𝑥 𝑖 𝑇 𝛽 k−1 (1+ 𝑘=1 𝐾 𝑒 𝑥 𝑖 𝑇 𝛽 𝑘 ) 每个模型有J+1个参数,所以多项logistics回归模型的参数个数,多项logistics回归模型的参数个数为(K-1)(J+1),模型求解 𝐿= 𝑖=1 n 𝑘=1 𝐾 Pr⁡( 𝑦 𝑖 =𝑘) 𝐼( 𝑦 𝑖 =𝑘) 𝛽= 𝑎𝑟𝑔 𝛽 max⁡(𝐿) 问题 模型检验比较困难 判别异常值与强影响点麻烦,需建立多个二项logistics回模型,利用二项logistics回归模型的有关统计检验方法识别异常值与强影响点。

      所需观测数量较多,由于参数较多因此建立模型所需的观测也多,当观测少,模型预测结果不稳定,甚至难以求解,多项logistics回归模型 模拟数据分析,定序logistics回归模型,简介:应用于多分类变量是定序变量的情况,也称累积logistics回归模型 局限:定序多分类变量可以建立多项logistics回归模型,但是会损失很多信息 模型形式: 假设因变量y的观测值有K个类别,相应的取值按顺序记为y=1,y=2,…y=K,则定序logistics回归模型的一般形式可以表示为: ln Pr⁡( 𝑦 𝑖 )≤k 1−Pr⁡( 𝑦 𝑖 )≤k = 𝑎 𝑘 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 k=1,2,…,K-1,若用 𝑃 𝑘 =𝑃r( 𝑦 𝑖 ≤𝑘)表示累积概率,则上式可以表示为: ln 𝑃 1 𝑃 1 + 𝑃 2 +…+𝑃 𝑘 = 𝑎 1 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 ln 𝑃 2 𝑃 2 + 𝑃 3 +…+𝑃 𝑘 = 𝑎 2 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 ⋮ ln 𝑃 1 + 𝑃 2 +…+𝑃 𝑘−1 𝑃 𝑘 = 𝑎 𝐾−1 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 定序logistics回归模型包括K-1个二项logistics回归模型,每个logistics回归模型的截距项各不相同,但是解释变量 𝑥 𝑖𝑗 的回归 𝛽 j 在所有的二项logistics回归模型中是完全相同的,含有J+K-1参数。

      定序logistics回归模型的参数 𝛽 j : 固定其他解释变量的条件下,解释变量 𝑥 𝑖𝑗 每增加一个单位,发生比 1−Pr⁡( 𝑦 𝑖 ≤k) Pr⁡( 𝑦 𝑖 ≤k) = Pr⁡( 𝑦 𝑖 k) Pr⁡( 𝑦 𝑖 ≤k) 将变为原来的exp( 𝛽 j )倍 具体推导: Pr⁡( 𝑦 𝑖 ≤k) 1−Pr ( 𝑦 𝑖 ≤k) = Pr⁡( 𝑦 𝑖 ≤k) Pr⁡( 𝑦 𝑖 k) = 𝑒 𝑎 𝑘 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 Pr⁡( 𝑦 𝑖 k) Pr⁡( 𝑦 𝑖 ≤k) = 𝑒 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 −𝑎 𝑘 若exp( 𝛽 j )小于1,表示解释变量 𝑥 𝑖𝑗 每增加一个单位,因变量属于k以上类别的概率会减少,而属于k及其以下的类别会增加;反之,若exp( 𝛽 j )大于1,表示解释变量 𝑥 𝑖𝑗 每增加一个单位,因变量属于k以上类别的概率会增加,而属于k及其以下的类别会减少利用 Pr⁡( 𝑦 𝑖 ≤k)+Pr ( 𝑦 𝑖 k) =1 Pr⁡( 𝑦 𝑖 ≤k) Pr⁡( 𝑦 𝑖 k) = 𝑒 𝑎 𝑘 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 推得累积概率为: Pr⁡( 𝑦 𝑖 ≤k)= 𝑒 𝑎 𝑘 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 1− 𝑒 𝑎 𝑘 − 𝑗=1 𝐽 𝛽 𝑗 𝑥 𝑖𝑗 ,k=1,2,…,K-1,因此特定类别概率为: Pr 𝑦 𝑖 =1 = Pr( 𝑦 𝑖 ≤1) Pr 𝑦 𝑖 =2 =Pr 𝑦 𝑖 ≤2 −Pr( 𝑦 𝑖 ≤1) ⋮ Pr 𝑦 𝑖 =𝐾 =Pr 𝑦 𝑖 ≤𝐾 −Pr( 𝑦 𝑖 ≤𝐾−1) Pr 𝑦 𝑖 =1 + Pr 𝑦 𝑖 =2 +…+ Pr 𝑦 𝑖 =𝐾 = 1 极大似然函数为: 𝐿= 𝑖=1 n 𝑘=1 𝐾 Pr⁡( 𝑦 𝑖 =𝑘) 𝐼( 𝑦 𝑖 =𝑘) 𝛽= 𝑎𝑟𝑔 𝛽 max⁡(𝐿),15,定序logistics回归模型 模拟数据分析,定序logistic回归示例,6.2.2模拟数据分析: 假设成绩等级为定序因变量,取值有三个水平,分别为best,good和pass。

      解释变量有两个:分别为学习时间(time)和智商(IQ)1.time是连续型解释变量 2.IQ分类型解释变量,包括两个水平,high和average 定序logistic回归要使用一下三个包(MASS(polr),reshape2,ggplot2),构建样本数据集,假设学习时间服从gamma分布,IQ服从二项分布 构造一个样本容量为100000的集合 利用定序logistic回归模型创造出相应的成绩水平 样本集合的前6个样本如下: grade time IQ 1 good 0.8920936 average 2 good 3.3118474 average 3 good 0.1443750 average 4 pass 1.6625233 average 5 pass 4.3358790 high 6 good 2.1176157 average,检验数据集并建立模型,1.观测样本各个水平上的样本量是否充足 2.建立定序logistic回归模型,并且反映出模型的参数,call: polr(formula = as.factor(grade) ~ time + IQ, Hess = T) Coefficients: Value Std. Error t value time -0.2003 0.004366 -45.885 IQhigh -0.1072 0.012432 -8.626 Intercepts: Value Std. Error t value best|good -1.9134 0.0136 -141.0069 good|pass 0.5960 0.0119 49.9909 Residual Deviance: 197636.15 AIC: 197644.15,对比模型系数: 斜率项:b1=-0.2,b2=-0.1 截距项:a1=-2, a3=0.5,模型解释,1.输出部分拟合值,观测定序因变量输出效果 2.利用发生比率(odds ratio)解释回归系数, exp(coef(mod)) time IQhigh 0.8184750 0.8983166 k=1,2,3分别表示best,good和pass三个水平,当学习时间增加1时, 成绩等级发生比 为0.8182,意味着 成绩等级为best的概率将增大。

      探索单一变量的影响,1.控制学习时间水平判断智力等级的影响: 新建一个样本把学习时间控制在平均水平,然后通过回归输出其结果的预测值,dt1=data.frame(IQ=c(“average“,“high“),time=mean(dt$time)) predict(mod,dt1,“prob“) best good pass 1 0.1806424 0.5498977 0.2694599 ---average 2 0.1970605 0.5540600 0.2488795 ---high,探索单一变量的影响,2.控制智力水平判断学习时间的影响: 分别生成两种智力水平的样本,并将学习时间按照从小到大排列,观测三种概率的变化趋势。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.