
stata上机实验第六讲.ppt
43页Stata上机实验,,离散选择模型,1二项选择模型 主要包括: Probit模型(标准正态分布) Logit模型(逻辑分布),Logit 模型,Logit模型假定模型的误差项服从Logistic分布 利用极大似然估计方法拟合, Yhat=0 负的产出 Yhat0(通常yhat=1) 正的产出,,,例如:sysuse auto,clearlogit foreign weight mpg 相当于计算如下概率: Pr(foreign = 1) = F(B0 + B1weight + B2mpg),,1获得个体取值为1的概率predict p1,prlist p1 foreign对比一下结果,判断有正有误2对预测准确率的判断estat class结果解读,,敏感性(Sensitivity)指即真实值取1而预测准确的概率;特异性(Specificity)是指即真实值取0而预测准确的概率 默认的门限值为0.5受试者操控曲线(Receiver operating characteristic,简称为ROC曲线)是指敏感性与(1-特异性)的散点图,即预测值等于1的准确率与错误率的散点图lroc 4。
goodness-of-fit 拟合优度检验estat gof5变量的边际影响 回归结果中,,估计量β并非“边际效应”(marginal effects),因此要用命令:mfx,Probit模型,Probit模型假定误差项的分布形式为标准正态分布:回归方法和检验方法与Logit模型类似probit foreign weight mpg,,,注意:由于Probit 与Logit 所使用的分布函数不同,其参数估计值并不直接可比雨宫(Amemiya)提出:同一个模型的logit和probit模型大概具有如下关系: Blogit 约等于 1.6*BProbit 但利用mfx计算的两者的边际效应应该大致相同一个综合例子,使用美国妇女就业数据集“womenwork.dta”,估计决定就业的Probit与Logit模型被解释变量为work=1,就业;work=0,不就业解释变量为age(年龄), married(婚否), children(子女数), education(教育年限)use womenwork,clearlogit work age married children education mfx estat classpredict p1,prlist work p1lrocestat gof注意:married是离散变量,因此执行mfx后的结果的含义不同。
probit work age married children education mfx estat classpredict p2,prlist work p2lrocestat goftab worktab work if p2>0.5,,2多项选择模型 多项Logit模型:由于可选项目有多项,因此输出结果时stata将自动指定一个为基础类别(Base Output),显示各个变量对另外几个类别的影响系数 use brand,cleartab brandmlogit brand age female 结果分析可以利用predict提取个体选择概率predict p1 p2 p3list可以根据研究需要,自由地指定用来比较的base outcome(参照点) mlogit brand age female,base(3),排序选择模型,根据GSS的调查数据,不同的家庭母亲与子女之间的关系也不同根据调查显示,有的家庭母子(女)关系比较紧张,有的比较融洽变量包括:warm=关系融洽度(0、1、2、3);educ=子女接受教育的程度;age=子女年龄;male=儿子;prst=职业威望;white=白人;y89=89年调查结果。
分析不同因素对母子(女)关系的融洽程度有何影响use ordwarm,cleartab warm建立如下方程:,,,ologit warm ed age male prst white yr89oprobit warm ed age male prst white yr89结果解读 predict p1 p2 p3 p4list p1 p2 p3 p4,,,计数模型,1泊松回归 2负二项回归,泊松回归模型,有些被解释变量只能取非负整数,即0,1, 2, .,对于这一类“计数数据” ,常使用“泊松回归”(Poisson regression)yi =1, 2,… 我们知道,泊松分布的最大特点是条件期望和方差相等即,,,,,利用数据集poissonreg.dta估计决定初中生旷课天数(daysabs)的计数模型解释变量为langarts(语言艺术课成绩)与male(是否男性)use poissonreg,clearpoisson daysabs langarts male predict p1,nlist mfxestat gof,,泊松MLE分析常常受到很多限制,如泊松分布的所有概率以及更高阶矩完全由其均值决定,特别是方差等于均值这一点有明显的局限性。
事实表明,大多数应用都难以满足这一条件如果被解释变量的方差明显大于期望,即存在“过度分散”(overdispersion) 因此,如果出现“过度分散”,可以考虑使用“负二项回归”负二项回归模型,所谓负二项分布是指,在独立的实验中,成功n次的时候,失败次数x的概率分布当成功n次时,实验停止,此时失败次数为x,那么总的实验次数为(n+x),而且最后一次(即第(n+x)次)是成功的那么,前(n+x-1)次试验中成功次数为(n-1)、失败次数为x负二项分布适用于当试验成功的次数(n)确定下来后,试验失败的次数(x)的分布nbreg daysabs langarts male命令结果中将提供一个LR 检验,原假设:不存在过度分散,应该使用泊松回归此时alpha=0 备则假设: alpha0,不能使用泊松回归受限因变量模型,1断尾回归 2截取回归,断尾回归,对于线性模型yi =x’B+εi,假设由于某种原因,只有满足yi ≥ c ( c为常数)的数据才能观测到因此,当yi < c 时,没有任何有关{xi,yi} 的数据被解释变量在C点就存在“左边断尾”(left truncation at C)。
左边断尾:truncreg y x1 x2 x3,ll(#) 右边断尾:truncreg y x1 x2 x3,ul(#) 双边断尾:truncreg y x1 x2 x3,ll(#) ul(#)、sysuse auto,clear truncreg price weight length gear_ratio, ll(10000)reg price weight length gear_ratio if price>=10000,截取回归,对于线性模型yi =x’B+εi,如果满足yi ≥ c或者( yi ≤ c)( c为常数),使得yi=c 截取回归与断尾回归不同的是,我们虽然有全部的观测数据,但对于某些观测数据,被解释变量yi被压缩在一个点上了此时, yi的概率分布就变成由一个离散点与一个连续分布所组成的“混合分布”tobit y x1 x2 x3,ll(#) (变量#的被右截断) tobit y x1 x2 x3,ll(#) ul(#)(l同时定义下限和上限),,利用womenwork.dta的数据进行普通OLS回归和截取回归被解释变量为lwf(log of wage if working and 0 if not working)。
解释变量为age(年龄), married(婚否), children(子女数), education(教育年限)use womenwork,clearreg lwf age married children education tobit lwf age married children education,ll(0),随机数的产生和常用分布,例1:产生10000个服从[0,1]均匀分布的随机数和10000个服从正态分布的随机数clearset obs 10000gen x = uniform()histogram xgen y = invnormal(uniform())histogram y, normal,伪随机数,例二:clearset obs 10000gen x1 = uniform()gen x2 = uniform()list x1 x2 in 1/50但是如果加上一句话:set seed 123,情况会发生变化set seed 12345gen x3 = uniform()set seed 12345gen x4 = uniform()list x3 x4 in 1/50,,原因:计算机产生的随机数是伪随机数,它是通过一个或者多个复杂的公式计算出来的,是有迹可寻的。
例如:公式可以为:X_j = (a*X_(j-1) + c) mod m (j = 1,2, .) 其中:m是一个很大的数;a*X_(j-1)为种子蒙特卡罗模拟和自抽样一般都要提供种子,已被检验和分析常用分布随机数的产生,findit rnd 1自由度为k的chi2 分布 Chi2(k)clear rndchi 10000 5histogram xc, normal 特点:向右拖尾自由度为k的t分布 t(k)clearrndt 10000 5histogram xt, normal 特点:尖峰厚尾,,3自由度为k1,k2的F分布clearrndf 1000 3 20histogram xf4参数为λ的指数分布:clearrndexp 10000 3 histogram xe 更多的统计分布量察看 help rnd,自抽样(Bootstrap),实质:可重复抽样 通过一个简单例子说明基本原理:1---9九个数求均值clearinput x 输入1---9九个数保存为sample.dtause sample,clearbsample 9list 反复执行:可以发现每次不同的重复抽样。
利用Bootstrap命令实现模拟:use sample,clearbootstrap x_m = r(mean), reps(500) saving(sample1,replace): sum x或者简写为:bs x_m = r(mean), reps(500) saving(sample1,replace): sum xuse sample1,clearsum x_m,使用BS得到标准误,sysuse auto,clear普通回归: reg price weight length foreign利用BS方法:reg price weight length foreign,vce(bs,reps(500))或者使用下列方法:bootstrap, reps(500):reg price weight length foreign,蒙特卡罗模拟,基本思想:向这个正方形随机地射箭,并假设其落点在该正方形上服从二维均匀分布重复实验n 次(n 很大),其中有m 次落在1/4圆内根据大数定律, m/n→π/4 ,故π ≈ 4m/n模拟中心极限定理,根据中心极限定理(CLT),当样本容量n → ∞时,样本均值收敛于正态分布。
假设x服从在(0,1) 上的均匀分布,样本容量为30,我们用蒙特卡罗法得到样本均值的分布,并将其与正态分布相比较为此,抽取10,000 个样本容量为30 的随机样本,得到30个样本均值的10,000 个观测值,然后画其直方图建立程序:lnsim.adocap program drop lnsimprogram define lnsim, rclassversion 10drop _allset obs 30tempvar zgen `z' = uniform()summarize `z'return scalar mean = r(mean)end,。
