您所在位置：网站首页 > 高等教育 > 研究生课件 > 第五章-离散选择模型

第五章-离散选择模型.doc

21页

卖家[上传人]：工****

文档编号：421086122

上传时间：2024-01-31

文档格式：DOC

文档大小：947KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 21 举报版权申诉马上下载

文本预览

下载提示

常见问题

第五章离散选择模型在初级计量经济学里，我们已经学习了解释变量是虚拟变量的情况，除此之外，在实际问题中，存在需要人们对决策与选择行为的分析与研究，这就是被解释变量为虚拟变量的情况我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型，本章主要介绍这一类模型的估计与应用本章主要介绍以下内容：1、为什么会有离散选择模型2、二元离散选择模型的表示3、线性概率模型估计的缺陷4、Logit模型和Probit模型的建立与应用第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时，常常遇见一些特殊的被解释变量，其表现是选择与决策问题，是定性的，没有观测数据所对应；或者其观测到的是受某种限制的数据1、被解释变量是定性的选择与决策问题，可以用离散数据表示，即取值是不连续的例如，某一事件发生与否，分别用1和0表示；对某一建议持反对、中立和赞成5种观点，分别用0、1、2表示由离散数据建立的模型称为离散选择模型2、被解释变量取值是连续的，但取值的范围受到限制，或者将连续数据转化为类型数据例如，消费者购买某种商品，当消费者愿意支付的货币数量超过该商品的最低价值时，则表示为购买价格；当消费者愿意支付的货币数量低于该商品的最低价值时，则购买价格为0。

这种类型的数据成为审查数据再例如，在研究居民储蓄时，调查数据只有存款一万元以上的帐户，这时就不能以此代表所有居民储蓄的情况，这种数据称为截断数据这两种数据所建立的模型称为受限被解释变量模型有的时候，人们甚至更愿意将连续数据转化为上述类型数据来度量，例如，高考分数线的设置，就把高出分数线和低于分数线划分为了两类下面是几个离散数据的例子例5.1 研究家庭是否购买住房由于，购买住房行为要受到许多因素的影响，不仅有家庭收入、房屋价格，还有房屋的所在环境、人们的购买心理等，所以人们购买住房的心理价位很难观测到，但我们可以观察到是否购买了住房，即我们希望研究买房的可能性，即概率的大小例5.2 分析公司员工的跳槽行为员工是否愿意跳槽到另一家公司，取决于薪资、发展潜力等诸多因素的权衡员工跳槽的成本与收益是多少，我们无法知道，但我们可以观察到员工是否跳槽，即例5.3 对某项建议进行投票建议对投票者的利益影响是无法知道的，但可以观察到投票者的行为只有三种，即研究投票者投什么票的可能性，即。

从上述被解释变量所取的离散数据看，如果变量只有两个选择，则建立的模型为二元离散选择模型，又称二元型响应模型；如果变量有多于二个的选择，则为多元选择模型本章主要介绍二元离散选择模型离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究1962年，Warner首次将它应用于经济研究领域，用于研究公共交通工具和私人交通工具的选择问题70-80年代，离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究模型的估计方法主要发展于20世纪80年代初期参见李子奈，高等计量经济学，清华大学出版社，2000年，第155页-第156页）二、线性概率模型对于二元选择问题，可以建立如下计量经济模型1、线性概率模型的概念设家庭购买住房的选择主要受到家庭的收入水平，则用如下模型表示其中，为家庭的收入水平，为家庭购买住房的选择，即Y01概率1-pp由于是取值为0和1的随机变量，并定义取值为1的概率是p，则的分布为即随机变量服从两点分布根据两点分布，可得的数学期望为显然从而（5-1）上述数学模型的经济学解释是，因为选择购买住房变量取值是1，其概率是p，并且这时对应p的表示是一线性关系，因此，在给定下的条件期望可解释为在给定下，事件（家庭购买住房）将发生的条件概率为，亦即家庭选择购买住房的概率是家庭收入的一个线性函数。

我们称这一关系式为线性概率函数由于，服从两点分布，所以，的方差为2、线性概率函数的估计及存在的问题对线性概率函数直接运用OLS估计，会存在以下困难1）随机误差项的非正态性表现表明服从两点分布而在经典计量经济学中，假定服从正态分布2）的异方差性事实上，根据服从两点分布概率则的方差为表明随着i的变动是一个变量，则的方差不是一个固定常数3）利用加权最小二乘法修正异方差取权数为可以证明具有同方差在具体估计线性概率模型时，用作为p的估计来计算权数的估计3、可决系数的非真实性由于，被解释变量只取值1或0，不可能有估计的线性概率模型能很好地拟合这些点，所以，这时计算的会比1小许多，在大多数例子中，介于0.2与0.6之间4、0≤≤1不成立克服这一问题可直接从对线性概率模型的估计，求出，用人工的方法定义当>1时，取=1；当<0时，取=0但要比较好地解决这类问题，只能考虑采用新的估计方法，这就是将要介绍的Logit模型和Probit模型第二节 Logit模型一、Logit模型的产生1、产生Logit模型的背景由上述介绍可知，对于线性概率模型来说，存在一些问题，有的问题尽管可以用适当的方法加以弥补，但并不完善和理想。

1）古典假定不再成立，如存在异方差性，可用加权OLS方法加以弥补2）性概率模型中，对于不满足0≤≤1的情况，用人工的方法处理，即当>1时，取=1当<0时，取=0虽然能够弥补不足，但仍然具有较强的主观因素（3）经济意义也不能很好地得到体现性概率模型中，概率会随着的变化而线性变化，但这与实际情况通常不符例如购买住房，通常收入很高或很低，对于购买住房的可能性都不会有太大的影响，而当收入增加很快时，对购买住房的影响将会很大所以，购买住房的可能性与收入之间并不是线性关系，有可能是一种非线性关系2、Logit模型的含义综合上述讨论，我们所需要的是具有如下二分性质的模型1）随着的减小，趋近0的速度会越来越慢；反过来随着的增大，接近1的速度也越来越慢，而当增加很快时，的变化会比较快故与之间应呈非线性关系2）并且由概率的属性，的变化应始终在0和1之间因此，一个很自然的想法是采用随机变量的分布函数来表示与的这种非线性关系从几何图形看，所需要的模型有点像图5.1那样，概率位于0与1之间，并随着非线性地变化图5.1 一个累积分布函数的图形形如图5.1所示的S型曲线，就是随机变量的一个累积分布函数（CDF）。

因此，当回归中的被解释变量是取0和1的二分变量时，并且概率值的变化与解释变量之间有上述变化特征，则可用CDF去建立回归模型在二分被解释变量的研究中可使用多种分布函数（Cox，1970）来表示但最常用的是Logistic分布函数和标准正态分布函数，前者导出Logit模型，后者导出Probit模型（3）Logistic分布函数设（5-2）式中，并且在该表达式中，有如下变动规律，当时，；当时，；当时，称（5-2）式为Logistic分布函数，它具有明显的S型分布特征（4）Logit模型以下是由Logistic分布函数导出Logit模型其中，为机会概率比（简称机会比，下同），即事件发生与不发生所对应的概率之比称（5-3）式为Logit模型3、Logit模型的特点（1）随着从0变到1，从变到（亦即从变到）可以看出，在LPM中概率必须在0与1之间，但对Logit模型并不受此约束2）对为线性函数3）当为正的时候，意味着随着的增加，选择1的可能性也增大了当为负的时候，随着的增加，选择1的可能性将减小。

换言之，当机会比由1变到0时，会变负并且在幅度上越来越大；当机会比由1变到无穷时，为正，并且也会越来越大4、Logit模型与线性回归模型的区别（1）Logit模型为非线性模型，尽管等式右端看上去是线性形式，而普通回归模型是线性模型2）线性回归模型研究被解释变量的均值与解释变量之间的依存关系，而Logistic分布函数研究的是事件发生的概率与解释变量的依存关系3）线性回归模型中包含随机误差项，对的要求是要满足基本假定，而Logistic分布函数没有出现随机误差项，对模型没有这样的要求4）在估计Logit模型时，要求数据必须来自于随机样本，即各观测值相互独立，或者说要求样本分布与总体分布具有同一性，而对线性回归模型一般情况下并无这样严格的要求此外，Logit模型与线性回归模型的一个相同的要求是，解释变量之间要无多重共线性，否则，会导致参数估计的方差变大和不稳定二、Logit模型的估计为了估计Logit模型，除了外，我们还应有的数值由于只取值为1和0（即事件发生或不发生，如买房或不买房），使得无意义，通常情况下，没有具体的数据，所以直接对Logit模型进行估计有困难这时，可有以下估计方法1、根据数据类型选用OLS方法可通过市场调查获得分组或重复数据资料，用相对频数作为的估计。

以购买住房为例，将购买住房的情况分组，假设第i组共有个家庭，收入为，其中有个家庭已购买住房，其余未购买则收入为的家庭，购买住房的频率为将其作为的估计，并代入对数机会比，有于是，样本回归函数为对上式可直接运用OLS法估计未知参数了具体应用可参见Damodar N. Gujarati 《计量经济学基础》（第四版）下册，中国人民大学出版社，2005年第559页-第560页2、最大似然估计方法性回归中估计总体未知参数时主要采用OLS方法，这一方法的原理是根据线性回归模型选择参数估计，使被解释变量的观测值与模型估计值之间的离差平方值为最小而最大似然估计方法则是统计分析中常用的经典方法之一，它是建立在由联合密度函数所导出的似然函数，并对其求极值而得到参数估计的一种方法性回归分析中最大似然估计法可以得到与最小二乘法一致的结果但是，与最小二乘法相比，最大似然估计法既可以用于线性模型，又可以用于非线性模型，由于Logit回归模型是非线性模型，因此，最大似然估计法是估计Logit回归模型最常用的方法下面，以单变量为例，说明该方法的运用假设有n个样本观测数据，由于样本是随机抽取，所以，在给定条件下得到的和的概率分别是和。

于是，一个观测值的概率为其中，或因为，各项观察相互独立，则n次观察所得的样本数据的联合分布可表示为各边际分布的连乘积称上式为n次观察的似然函数由最大似然估计法的原理知，最大似然估计就是求解出具有最大可能取所给定的样本观测数据的参数估计于是，最大似然估计的关键是估计出和，使得上述表达式取得最大值将上式两端取对数得称上式为对数似然函数为了估计能使有最大的总体参数估计和，先分别对求偏导数，然后令其为0，得性回归中，似然函数是通过把偏离差平方和分别对求偏导数得到，它对于未知参数都是线性的，因此，很容易求解但是对于Logit回归中的上述两个方程是关于的非。

点击阅读更多内容