
双变量线性回归管理学与财务知识分析模型(79页PPT).pptx
79页第三章第三章 双变量线性回归模型双变量线性回归模型 (简单线性回归模型)(Simple Linear Regression Model)第一节 双变量线性回归模型的估计第二节 最小二乘估计量的性质第三节 拟合优度的测度第四节 双变量回归中的区间估计和假 设检验第五节 预测第六节 有关最小二乘法的进一步讨论第一节 双变量线性回归模型的估计 一. 双变量线性回归模型的概念 设 Y = 消费, X = 收入, 我们根据数据画出散点图 Y * 这意味着 * Y = + X (1) * 写出计量经济模型 * Y = + X + u (2) * 其中 u = 扰动项或 误差项 Y为因变量或被解释变量 图1 X X为自变量或解释变量 和 为未知参数 设我们有Y和X的n对观测值数据,则根据(2)式,变量Y的每个观测值应由下式决定: Yi = + Xi + ui , i = 1, 2, .,n (3) (3)式称为双变量线性回归模型双变量线性回归模型或简单线性回归模型简单线性回归模型其中 和 为未知的总体参数,也称为回归模型的系数(系数( coefficients)下标 i是观测值的序号 当数据为时间序列时,往往用下标 t来表示观测值的序号,从而(3)式变成 Yt = + Xt + ut , t = 1, 2, .,n (3)为何要在模型中包括扰动项为何要在模型中包括扰动项u 我们在上一章中已初步介绍了为什么要在模型中包括扰动项u,下面进一步说明之: (1)真正的关系是Y = f (X1, X2, ),但X2, X3, 相对不重要,用u代表之。
(2)两变量之间的关系可能不是严格线性的,u反映了与直线的偏差 (3)经济行为是随机的,我们能够用 Y=+X 解释“典型”的行为,而用u来表示个体偏差 (4)总会出现测量误差, 使得任何精确的关系不可能存在 二. 普通最小二乘法(OLS法, Ordinary Least squares)1.双变量线性回归模型的统计假设双变量线性回归模型的统计假设 我们的模型是: Yt = + Xt + ut , t = 1, 2, .,n 这里 和 为未知总体参数,下一步的任务是应用统计学的方法,由Y和X的观测值(即样本数据)来估计和 的总体值,常用的估计方法就是最小二乘法为了应用最小二乘法,得到好的估计量,双变量线性回归模型需要满足一些统计假设条件,这些统计假设是:双变量线性回归模型的统计假设 (1). E(ut) = 0, t= 1, 2, .,n 即各期扰动项的均值(期望值)为0. (2). E(uiuj) = 0 i j 即各期扰动项互不相关. (3). E(ut2 ) = 2 , t= 1, 2, .,n 即各期扰动项方差是一常数. (4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的. (5). ut N( 0, 2 ) , t= 1, 2, .,n 即各期扰动项服从正态分布。
下面简单讨论一下上述假设条件1)E(ut) = 0, t=1,2,n 即各期扰动项的均值(期望值)均为0 均值为0的假设反映了这样一个事实:扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小因此扰动项均值为0的假设是合理的2)E(uiuj) = 0, ij 即各期扰动项互不相关也就是假定它们之间无自相关或无序列相关 实际上该假设等同于: cov( ui, uj) = 0, ij这是因为:cov(ui, uj) = Eui - E(ui)uj - E(uj) = E(uiuj) 根据假设(1)(3)E(ut2)= 2, t=1,2,n 即各期扰动项的方差是一常数,也就是假定各扰动项具有同方差性实际上该假设等同于: Var( ut) = 2, t=1,2,n这是因为: Var(ut)=Eut-E(ut)2= E(ut2) 根据假设(1)(4) Xt为非随机量 即Xt的取值是确定的, 而不是随机的 事实上,我们后面证明无偏性时仅需要解释变量X与扰动项u不相关,但不容易验证之,因而通常采用非随机量的假设 (5)ut N( 0, 2 ) , t= 1, 2, .,n 即扰动项服从正态分布。
满足条件(1)(4)的线性回归模型称为古典线性回归模型(CLR模型) 2.最小二乘原理 我们的任务是, 在给定X和Y的一组观测值 (X1 , Y1), (X2 , Y2) , ., (Xn , Yn) 的情况下, 求出 Yt = + Xt + ut 中 和 的估计值 和 , 使得拟合的直线为最佳 直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示 * * * * * et * * * * * * * * * * * * YXXt 图 2 Yt残差残差 拟合的直线 称为拟合的回归线. 对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分成两部分 第一部分是Yt的拟合值或预测值 : , t=1,2,n第二部分,et ,代表观测点对于回归线的误差,称为拟合或预测的残差残差 (residuals):): t=1,2,n 即 t=1,2,n15残差平方和 我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使残差总体上尽可能地小要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。
理想的测度是残差平方和,即最小二乘法 最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法即选择 和 ,使得达到最小值 运用微积分知识,使上式达到最小值的必要条件为:即整理,得:此二式称为正规方程解此二方程,得:其中: 样本均值 离差(5)式和(6)式给出了OLS法计算 和 的公式, 和 称为线性回归模型 Yt = + Xt + ut 的参数 和 的普通最小二乘估计量 (OLS estimators) 这两个公式可用于任意一组观测值数据,以求出截距和斜率的OLS估计值(estimates),估计值是从一组具体观测值用公式计算出的数值 一般说来,好的估计量所产生的估计值将相当接近参数的真值,即好的估计值可以证明,对于CLR模型,普通最小二乘估计量正是这样一个好估计量3 例子 例1 对于第一段中的消费函数,若根据数据得到: n = 10 , =23, =20 则有因而例2 设Y和X的5期观测值如下表所示,试估计方程 Yt = + Xt + ut 序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解:我们采用列表法计算计算过程如下:5432150304025302320181014831-4-81603004016011015020100-10-200039010004001000100400估计方程为第二节 最小二乘估计量的性质一. 和 的均值由于从而即两边取期望值,有: 假设(4) = 假设(1)这表明, 是的无偏估计量。
在证明 无偏性的过程中, 我们仅用到(1)和(4)两条假设条件由 ,我们有: 即 是 的无偏估计量二二. 和和 的方差的方差 根据定义 由无偏性我们有:两边取期望值,得:由于 根据假设(3) 根据假设(2)所以即与此类似,可得出三. 高斯-马尔柯夫定理(Gauss-Markov Theorem) 对于满足统计假设条件(1)-(4)的线性回归模型 Yt = + Xt + ut , ,普通最小二乘估计量 ( OLS估计量) 是最佳线性无偏估计量(BLUE, The Best Linear Unbiased Estimator)或 对于古典线性回归模型(CLR模型) Yt= + Xt + ut ,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE)我们已在前面证明了无偏性,此外,由于: 由上段结果, =其中 这表明, 是诸样本观测值Yt(t=1,2,n)的线性函数,故 是线性估计量剩下的就是最佳性了,即 的方差小于等于的其他任何线性无偏估计量的方差,我们可以证明这一点,但由于时间关系,从略有兴趣的同学请参见教科书 P46-47四、 和 的分布我们在前面列出的假设条件(5)表明, ut N( 0, 2 ) , t= 1, 2, .,n 即各期扰动项服从均值为0、方差为2的正态分布。
考虑到假设条件(4),即Xt为非随机量,则由前面结果: =其中,这表明, 是N个正态分布变量u1,u2,,un的线性函数,因而亦为正态分布变量,即 类似的有: 第三节 拟合优度的测度 一、拟合优度(Goodness of fit)的概念 用最小二乘法得到的回归直线 至少从残差平方和为最小这一意义上来说是所有可能直线中最佳的拟合线它是对Y和X之间关系的一种描述,但该直线是不是Y和X之间关系的一种恰当的描述呢?如果各观测点紧密地聚集在这条直线的周围,则表明该直线对Y和X之间关系的描述是好的;否则,用直线来描述这两个变量之间的关系就未必恰当,如下图所示: (a)恰当描述 (b)不恰当描述 图2-3 应该指出,对于任意两个变量的一组观测值,我们总是可以运用最小二乘法得到一条直线,问题是该直线能否较好地拟合所给定的观测值,这就是拟合优度问题拟合优度是两变量之间关系强度的测度在这里,指的是两变量间线性关系强度的测度 如果所有观测值都落在回归直线上,则称为“完全拟合”,这种情况是罕见的在一般情况下,总会出现正负残差(et),通过对这些残差的分析,有助于衡量回归直线拟合样本数据点的程度二、Y的变差的组成 让我们来考察一下Y的变差的组成情况。
我们有Y的N个观测值,Y的总变差的一个测度是 ,Y的变差( )中有一部分是可以由X的取值变动所解释的还有一部分是不能由X所解释的变差,如下图所示:对于第t个观测值,有: 对于全部N项观测值平方求和,有: (7)由于(7)式中最后一项变为:由(1)式、(2)式(书P41 3.8 和3.9式)和残差的定义,显然有: 和 因此,(7)式中最后一项为0,我们得到如下结果: (8) 即 总变差 = 由X解释的变差 + 未解释变差三. 拟合优度的测度 1. 决定系数 不难看出,总变差中由X解释的变差比例越大,则 就越小,各观测值聚集在回归直线周围的紧密程度就越大,说明直线与观测值的拟合越好我们将(8)式两端都除以总变差 ,得:并定义决定系数(coefficient of determination) 为: = = =用符号表示为:其中,ESSExplained Sum of Squares RSSResidual Sum of Squares TSSTotal Sum of Squares 决定系数 R2 计量了Y的总变差中可以归因于X和Y之间关系的比例,或者说Y的变动中可以由X的变动来解释的比例。
它是回归线对各观测点拟合紧密程度的测度我们有: R2 =1:完全拟合, R2 =0:X与Y完全不存性关系, R2的值越高,拟合得越好但什么是高?并没有绝对的标准,要根据具体问题而定此外,回归中使用时间序列数据还是横截面数据也有不同的标准对时间序列数据来说,R2 的值在0.8、0.9 以上是很常见的事, 而在横截面数据的情况下,0.4、0.5的 R2 值也不能算低2. 相关系数 r 由 R2 很容易联想到我们在统计中学过的相关系数相关系数r与决定系数的关系为: R2 =(r)2,相关系数的计算公式为: 相关系数r也是拟合优度的测度,其符号取决于的符号(即 的符号) 我们有:-1 r 1 r = 1:完全正相关 r = -1:完全负相关 r = 0:无线性关系 相关系数和决定系数的计算很简单,事实上,我们只要在原列表计算 的表格中加上一个计算 的栏目就行了对于我们前面的例子,列表计算得:因此: r = R2 =(0.9938)2 = 0.9876 它表明,在我们的例子中,X与Y存在着很强的线性关系,拟合甚。












