
教育回报的异质性半参数方法.doc
14页Heterogeneity in Returns to Education: Semi-parametric methodAbstract: Partially linear model is introduced and used to study the problem of returns to education in China. We found the following conclusions. Women’s returns to education is higher than men’s. Returns to education is reversely related to age. Men get the highest returns to education at senior high school level while women at college level. Return to education doesn’t vary greatly among provinces and industrial sectors. We assert that partially linear estimates are more robust than ordinary least squares estimates. Key words: Partially Linear Model Returns to Education Heterogeneity UHS database JEL: C14 I20 I21作者简介作者简介姓名:葛玉好 Ge Yuhao 性别:男 出生年月:1978 年 6 月 10 日 研究方向:劳动经济学 单位:北京大学中国经济研究中心 邮编:100871 联系:010-5276379113521381793 Email: geyuhao1978@ 通讯地址:北京大学中国经济研究中心教育回报的异质性:半参数方法教育回报的异质性:半参数方法内容摘要:内容摘要:本文使用部分线性模型的方法研究了教育回报的异质性问题,得到以下结论:女性的教育回报率高于男性;年龄越大,教育回报率越低;对于年轻男性而言,高中学历的人群教育回报率最高,对于年轻女性而言,本科学历的人群教育回报率最高;教育回报率在省份和部门之间的差别不大。
通过比较参数得到的结果和部分线性模型的结果,我们发现部分线性模型的结果更加准确关键词:关键词:部分线性模型 教育回报 异质性 UHSJEL:JEL: C14 I20 I2190 年代中期以来,我国高等教育的收费水平越来越高,1994 年平均学费为1000 元左右,而 2003 年则达到了 5000 元左右与此同时,高等教育的招生规模也越来越大,1991 年招生数量约为 60 万,而 2003 年招生数量达到了 340 万岳昌君(2004) 学费的增加并未减少对高等教育的需求,背后的原因是什么呢?一个非常直观的解释是,教育回报率越来越高,青年人的教育回报率高于中年人的教育回报率文献中关于教育回报率的研究,大部分使用标准的 Mincer 工资方程,假定教育回报率是一个常数,即教育增加一年,对所有人来说,工资平均增加多少在这些研究中,人们感兴趣的主要是从教育和工资之间的“相关关系”识别出它们的“因果关系” 如何解决内生性问题是识别出“因果关系”的关键,通常使用的方法主要是代理变量法,工具变量法,和固定效应法要解释上述的现象,仅仅考虑教育回报率因素是不够的,还要考虑教育回报率的异质性问题,即随着教育供给和需求状况的变化,教育质量的变化,增加一年教育,工资增加的幅度是不同的。
在研究教育回报异质性问题的时候,传统的一些计量方法便显得捉襟见肘,我们必须寻找新的计量方法本文使用半参数(局部线性模型)的方法研究了教育回报的异质性问题,得到了很多原来参数方法所不能得到的结论这些结论对理解教育需求,工资的决定机制,收入不平等的原因等都有重要的启发意义本文主要的结构安排如下:第一部分是文献回顾;第二部分是对数据库和教育回报异质性的描述;第三部分介绍本文使用的非参数方法——部分线性模型(Partially Linear Model) ;第四部分是实证结果;第五部分是结论文献回顾文献回顾文献中关于教育回报异质性的研究 ,采用的大都是间接的办法,把教育回报率同某些可观察的(不可观察的变量以其可观察的代理变量来表示)变量联系起来,如教育质量,家庭背景,IQ 得分等等在这方面,经常引用的一个例子是黑人和白人之间教育回报率的差异就一般情况而言,黑人的教育质量较差,而白人的教育质量较好,因此,如果能观察白人教育回报率较高的话,我们就可以间接地说教育质量越高,其回报率也越高,进而得出结论教育回报率具有异质性Welch (1973)的研究是这方面一个典型的例子,他认为,60 年代以前,黑人与白人之间的教育回报率差异很大,因此他们之间的工资差距也很大。
Smith and Welch (1989)进一步的研究表明,60 年代和 70 年代黑人与白人之间的工资差距减小,主要是因为黑人的教育回报率提高了(另外一个因素是黑人受教育年限的增加) 但是,美国社会的一个现实现象是,从 20 年代起,黑人与白人之间的教育质量差距一直在缩小,但他们工资之间的差距只是到了 60 年代后期才开始缩小的,这就会使我们怀疑他们的结论,教育质量是不是真的能提高教育回报率Card and Krueger (1992)也研究了教育回报率的异质性问题,他们的做法是把研究对象按年龄,出生地所在州,以及种族三个维度进行分组,他们发现有些州的教育回报率高,有些州的教育回报率低,然后进一步地考查不同的州之间具体的差别是什么他们的研究认为,教育回报率与所在州的教育体系有关系,例如,如果一个州其学生与老师的比率降低 10%的话,教育回报率将增加 0.9%Altonji and Dunn (1995)研究了教育回报率同教育质量和家庭背景的关系他们得出的结论是,提高教育质量(以每个学生的支出数,老师的平均工资来度量) ,就能提高教育回报率但是教育回报率跟其它变量的关系则与是否考虑家庭的固定效应有关。
如果考虑家庭的固定效应,母亲的教育程度越高,孩子的教育回报率越高;如果不考虑家庭的固定效应,这种关系则变得很弱,甚至是反向的同样,如果考虑家庭的固定效应,IQ 分数对教育回报率有正的影响;如果不考虑家庭的固定效应,IQ 对教育回报率的影响是负的Ashenfelter and Rouse(1998)得出一个非常有趣的结论是,教育回报率对受教育年限来说是边际递减的,受教育年限越长,教育回报率越低他们使用的数据库是双胞胎数据库,具体做法是,考虑家庭的固定效应(同一家庭内对应的双胞胎数据相减)后,再加一个交叉项,即双胞胎平均的受教育年限乘以双胞胎的教育年限之差他们得出的结论是,双胞胎的平均受教育年限越高,其教育回报率越低,受教育年限为 9 年时其教育回报率为 12%,16 年时教育回报率为 8%陈晓宇和闵维方(1998) 、李实和丁赛(2003) 、岳昌君(2004)等研究了中国教育回报率异质性的问题,他们的结论都是,教育回报率随着学历水平的提高而提高他们的研究方法是,首先使用学历水平构造虚拟变量,然后利用虚拟变量前面的系数和各学历水平之间受教育年限的差异得到教育回报率上面提到的文献都是假设教育回报率与某些可以观察的变量有关,然后按照这些变量通过分组或者是加入这些变量与教育年限交叉项的方法研究教育回报率。
无论是分组的方法,还是加交叉项的方法,都有一个缺陷,即假设教育影响工资的函数形式是已知的,在实际生活中,这样的假设是不准确的,我们不能预知教育进入工资方程的具体形式,是不是应该加入教育的高阶项,是不是应该加入教育同经验的交叉项等等这也可以说明为什么 Smith and Welch( 1989)得到的结论跟现实的社会现象不相符Heckman and Valytical (2001)设计了一套新的办法去研究教育回报率的异质性问题,虽然能克服上面所说的缺点,但他们的方法只能用于二无离散选择的教育变量(如是否上大学,是否上高中等)1,当教育变量是连续性变量(受教育年限)时,他们的方法便不适用了本文对教育回报率的研究使用部分线性模型的方法,它是一种半参数方法,既能克服通常文献所采用方法的缺陷,还能用于连续性教育变量的分析在文1对这种方法的一个具体应用,请参见 Heckman and Li (2004)章的第三部分中,我们会详细地介绍这种方法数据描述数据描述本文使用的数据库是 UHS (Urban House Survey)2000 年数据库该数据库是由国家统计局城调总队和中国社会科学院经济研究所共同负责调查的,其主要目的是研究城市居民收入和就业问题。
该调查涵盖的个人基本信息有:年龄,性别,受教育程度,政治面貌,收入以及培训和就业情况;涵盖的家庭基本信息有:家庭成员的个数,消费,储蓄,资产,以及住房环境等等该调查对就业的状况描述特别清楚,如工作单位的所有制性质,工作单位的规模,刚参加工作的年份(这使得我们可以准确地界定工作经验)等等为了同以前的研究进行比较1,我们把采掘业、制造业重新定义为工业,把电力、煤气及水的生产和供应、房地产和社会服务业定义为房地产管理、公共事业、居民服务和咨询服务业为了使得到的结果更加准确,我们对使用的样本做了如下的处理:(1)由于我国对男性和女性的退休年龄有不同的规定,我们选择年龄大于16 周岁小于 60 周岁的男性样本和年龄大于 16 周岁小于 55 周岁的女性样本2)我们仅选择工作时年龄小于 50 周岁的样本,因为年龄大于 50 周岁的人其选择工作的目的及影响会跟我们预料的不一样,这部分样本的数量很少,做此处理不会对结果有大的影响3)我们去掉了职业代码为 13 的样本这样做的原因一是因为它们的样本太小,二是因为它们在年际之间的定义可能不一致24)为了克服某些部门就业人数太少的问题,我们把所有的部门合并成六大类:农业、勘探、水利,建筑业,其它工业部门,流通部门,第一类服务业,第二类服务业3。
5)我们选择了具有代表性的六个省份的样本,它们是北京、辽宁、广东、浙江、陕西和四川1 主要是同其它利用 UHS 数据库的研究进行比较,UHS 数据库的问卷设计曾经改变2 代码为 13 的部门是其他行业3具体来说,把原来代码为 1、3 的部门合并为农业、勘探、水利部门,新代码为 1;把原来代码为 7、11的部门合并为第一类服务业,新代码为 3;把原来代码为 8 、9、10 、12 的部门合并为第二类服务业, 新代码为 5;把原来代码为 5、6 的部门合并为流通部门,新代码为 6; 建筑业的代码不变,仍为 4, 其 它工业部门的代码也不变,仍为 2在上文中,我们提到过,对某一可观察变量进行分组,然后在组内用参数的 Mincer 方程分别研究教育回报率的方法是有缺陷的但不可否认的是,这种研究方法可以使我们对教育回报的异质性有一个比较直观的认识,因此在这里我们给出这种方法的一些结果,这样做的另外一个目的是为了同下文非参数的结果进行比较我们按照两个维度进行分组,第一个维度是性别,第二个维度分别是年龄、省份和部门省份的分类依数据库自然进行,部门的分类则按照上面(4)的说明,年龄被分为下面四组:30 岁以下、30 岁至 40 岁、40 岁至50 岁和 50 岁以上。
表一中的第一个小表给出的是按性别和年龄进行分组的结果;第二个小表给出的是按性别和省份进行分组的结果;第三个小表给出的是按性别和部门进行分组的结果表一中,教育系数列表示受教育年限这个变量前面的系数,在标准的Mincer 方程中,这个系数就是教育回报率从表中我们可以看出以下几点:①无论按照那种分类方法,女性的教育回报率要高于男性的教育回报率(农业、勘探、水。