1、中央财经大学统计学院 边雅静,1,第三章 多元线性回归,中央财经大学统计学院 边雅静,2,模型的建立与假设 模型的参数估计 模型的统计检验 非线性关系的处理 模型的预测 虚拟变量 实例,主要内容,中央财经大学统计学院 边雅静,3,3.1 模型的建立与假设,在实际经济问题中,一个经济变量往往受到多个因素的影响,仅用双变量模型是无法解决的,需要引入多元线性回归模型。 多元线性回归模型表现为线性回归模型中的解释变量有多个,其一般形式为:,中央财经大学统计学院 边雅静,4,总体回归函数与样本回归函数,总体回归函数的形式为: 样本回归函数的形式为:,随机表达式:,非随机表达式:,随机表达式:,中央财经大学统计学院 边雅静,5,设有n组观测值 则每组样本都满足:,这样n组样本数据就组成一个线性方程组:,中央财经大学统计学院 边雅静,6,或者写成矩阵的形式:,中央财经大学统计学院 边雅静,7,回归参数的含义,也被称为偏回归系数(partial regression coefficients),表示在其他解释变量保持不变的情况下, 每变化 1 个单位时,Y的均值E(Y)的变化。 或者说 给出了 的单位
2、变化对 Y 均值的“直接”或“净”(不含其他变量)的影响。,中央财经大学统计学院 边雅静,8,E(ui)=0, i=1,2, ,n 相应的矩阵表达式为:,模型的假定,假定1:随机误差项ui的数学期望(均值)为0,即,中央财经大学统计学院 边雅静,9,假定2:同方差性。,Var(ui)= E(uiE(ui)2 = E(ui2) = 2 , i=1,2, ,n,假定3:无自相关性。,Cov(ui, uj)= E(uiuj)=0 , ij,i,j=1,2, ,n,中央财经大学统计学院 边雅静,10,假设2 和假设3 的矩阵表达形式为: Cov (u) = 2I (其中: I为n阶单位矩阵),中央财经大学统计学院 边雅静,11,假设4:解释变量 是确定变量,不是随机变量,与随机误差项不相关,即 Cov(Xj i, ui)=0,i=1,2, ,n,j=1,2, ,k 表现为矩阵形式为:E(X u) = O,中央财经大学统计学院 边雅静,12,假设5:解释变量 之间不存在严格的线性关系,即解释变量的样本观测值矩阵是满秩的,应满足关系式:rank(X)=k+1n。 也就是样本容量n相对于解释变量的个
3、数应足够大!因为自由度(n-k)与误差项的方差估计值有关。若(n-k)太小,误差项方差就比较大, 参数估计量就不容易通过显著性检验。继而也会影响到被解释变量的估计与预测。,中央财经大学统计学院 边雅静,13,假设6:随机误差项服从正态分布,即 uiN(0, 2 ) i=1,2,n 于是,被解释变量也服从正态分布,即:,中央财经大学统计学院 边雅静,14,3.2 模型的参数估计,普通最小二乘估计 参数估计量的性质 随机误差项方差的估计,中央财经大学统计学院 边雅静,15,对于随机抽取的n组样本观测值 估计模型: 找到合适的参数估计值 ,使得残差平方和最小。残差的平方和为:,一、普通最小二乘估计,中央财经大学统计学院 边雅静,16,要使“残差平方和”达到最小,则有,即ei,即得到k+1个方程,即正规方程:,中央财经大学统计学院 边雅静,17,将正规方程变形,得到:,中央财经大学统计学院 边雅静,18,正规方程组的矩阵形式,即,由于XX 满秩,故有,中央财经大学统计学院 边雅静,19,使用矩阵代数的运算方法,过程如下:,残差矩阵的平方和为:,由于上式中每一项均为标量,即11矩阵,则,中央财经
4、大学统计学院 边雅静,20,使用矩阵的微分法,得到:,由于XX 满秩,则(XX)1存在,因此,参数的最小二乘估计值为:,中央财经大学统计学院 边雅静,21,二、参数估计量的性质,在满足基本假设的情况下,其结构参数 的普通最小二乘估计具有:线性性、无偏性和有效性。 同时,随着样本容量增加,参数估计量具有:渐近无偏性、渐近有效性、一致性。,中央财经大学统计学院 边雅静,22,(一)线性性,其中,C = (XX)-1 X 为一仅与固定的X有关的行向量。,说明参数估计 具有线性特性。它不仅是Y的线性组合,也是u的线性组合。,中央财经大学统计学院 边雅静,23,(二)无偏性,中央财经大学统计学院 边雅静,24,(三)有效性(最小方差性),主对角线元素为各参数估计 的方差,非主对角线元素为不同参数估计之间的协方差。,中央财经大学统计学院 边雅静,25,中央财经大学统计学院 边雅静,26,接着证明最小方差性,假设 是总体参数 的任一线性无偏估计量,有:,中央财经大学统计学院 边雅静,27,中央财经大学统计学院 边雅静,28,中央财经大学统计学院 边雅静,29,在给定经典线性回归的假定下,最小二乘估计
5、量 是 的最优线性无偏估计量(BLUE)。 高斯马尔可夫定理 (Gauss-Markov theorem),中央财经大学统计学院 边雅静,30,三、随机误差项方差的估计,与双变量模型类似,多元模型中的随机误差项 方差的无偏估计量为:,中央财经大学统计学院 边雅静,31,中央财经大学统计学院 边雅静,32,这样,我们便找到了随机误差项方差的无偏估计量:,中央财经大学统计学院 边雅静,33,3.3 模型的统计检验,拟合优度检验 方程的显著性检验 变量的显著性检验,中央财经大学统计学院 边雅静,34,一、拟合优度检验,总离差平方和的分解 拟合优度(可决系数),中央财经大学统计学院 边雅静,35,在建立多元线性回归模型的过程中,我们发现:随着模型中解释变量的增加, R2 往往会随之增大。(为什么?) 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关R2 需要调整。,中央财经大学统计学院 边雅静,36,调整后的可决系数(adjusted coefficient of determination),在样本容量一定的
6、情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:,其中:n-k-1 为残差平方和的自由度,n-1为总体平方和的自由度。,又被称为修正的拟合优度。,中央财经大学统计学院 边雅静,37,当增加一个对被解释变量Y 有较大影响的解释变量时,残差平方和RSS的减小比(n-k-1)减小更显著,修正的拟合优度 就增加。,可见修正的拟合优度 比一般的拟合优度 更准确地反映了解释变量对被解释变量的影响程度。,如果增加一个对被解释变量Y没有多大影响的解释变量时,RSS的减小没有(n-k-1)减小明显, 会减小。表明不应该引入这个不重要的解释变量。,中央财经大学统计学院 边雅静,38,由于,因为 n-1n-k-1 0,所以,修正后的拟合优度不大于R ,从而有:,又 1-R0,,即:,中央财经大学统计学院 边雅静,39,修正后的拟合优度 可能为负值,中央财经大学统计学院 边雅静,40,赤池信息准则(Akaike information criterion, AIC) 施瓦茨准则(Schwarz criterion,SC)
7、,赤池信息准则和施瓦茨准则,为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有:,这两准则均要求仅当所增加的解释变量能够减少AIC值或SC值时才在原模型中增加该解释变量。,中央财经大学统计学院 边雅静,41,二、方程的显著性检验(F检验),方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。,即检验模型 Yi = 0 + 1X1i + 2X2i + + kXki + ui , i =1,2, ,n 中的参数 j 是否显著不为0。,可提出如下原假设与备择假设:,H0: 1 = 2 = = k = 0 H1: j 不全为0,中央财经大学统计学院 边雅静,42,F 检验的思想来自于总离差平方和的分解式: TSS = ESS + RSS,如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。,中央财经大学统计学院 边雅静,43,根据数理统计学中的知识,在原假设 H0 成立的条件下,统计量,服从自由度为( k , n-k-1)的F分布。,给定
8、显著性水平 ,可得到临界值F( k ,n-k-1),由样本求出统计量F的数值,通过F F( k , n-k-1)或F F ( k, n-k-1 )来拒绝或接受原假设H0 ,以判定原方程总体上的线性关系是否显著成立。,中央财经大学统计学院 边雅静,44,拟合优度检验与方程显著性检验的关系,拟合优度检验与方程显著性检验是从不同原理出发的两类检验。 区别: 前者是从已经得到估计的模型出发,检验它对样本观测值的拟合程度,不考虑统计量的概率分布; 后者是从样本观测值出发,检验模型总体线性关系的显著性。 联系:模型对样本观测值的拟合程度高,模型总体线性关系的显著性就强。,中央财经大学统计学院 边雅静,45,拟合优度与F值的重要关系式(1),由,可推出:,与,当 时, F 为无穷大。,当 时,F = 1;,越大,F 值也越大;,F 与 同向变化:,中央财经大学统计学院 边雅静,46,拟合优度与F值的重要关系式(2),由,可推出:,中央财经大学统计学院 边雅静,47,三、变量的显著性检验(t检验),方程的总体线性关系显著 每个解释变量对被解释变量的影响都是显著的。 因此,必须对每个解释变量进行显著性检
9、验,以决定其是否可以作为解释变量被保留在模型中。 这一检验是由对变量的t检验完成的。,中央财经大学统计学院 边雅静,48,t 统计量,由于 ,以 Aii 表示矩阵 主对角线上的第 i 个元素,于是参数估计量的方差为:,其中 2为随机误差项的方差,在实际计算时,用它的估计量代替:,中央财经大学统计学院 边雅静,49,t 检验,设计原假设与备择假设:,H1:j 0,给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量 t 的数值,通过 |t|t/2(n-k-1) 或 |t|t/2(n-k-1) 来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。,H0:j =0 (j =1,2,k),中央财经大学统计学院 边雅静,50,注意:一元线性回归中,t检验与F 检验一致,一方面,t 检验与F检验都是对相同的原假设 H0:1 = 0进行检验; 另一方面,两个统计量之间有如下关系:,中央财经大学统计学院 边雅静,51,参数的置信区间,这意味着,如果给定置信度(1-),从t分布表中查得自由度为(n - k-1)的临界值,那么 t 值处在 (-t/2, t/2)的概率是(1- )。,i 的 水平的置信区间就可以表示为:,中央财经大学统计学院 边雅静,52,在实际经济活动中,经济变量的关系是复杂的,直接表现为线性关系的情况并不多见。 如著名的恩格尔曲线(Engle curves)表现为幂函数曲线形式、宏观经济学中的菲利普斯曲线( Phillips curves ) 表现为双曲线形式等。 但是,大部分非线性关系又可以通过一些简单的数学处理,使之化为数学上的线性关系,从而可以运用线性回归模型的理论方法。,3.4 非线性关系的处理,中央财经大学统计学院 边雅静,53,多项式函数模型,形如 的模型为多项式函数模型。,令,原模型可以转化为线性形式:,中央财经大学统计学院 边雅静,54,例如:描述税收与税率关系的拉弗曲线
《中央财经大学计量经济学3-多元线性回归》由会员F****n分享,可在线阅读,更多相关《中央财经大学计量经济学3-多元线性回归》请在金锄头文库上搜索。