
第2章:一元线性回归方法.doc
15页1第 2 章:一元线性回归方法2.0 问题导入在前述游乐场猜体重的事例中,经营者获得了一个身高与体重的样本观察数据(见表2-0) ,你如何利用这个观测数据集合来改善你的经营业绩呢?表 2-0 身高与体重的样本观察数据身高超过 5 英尺以上的 (单位:英寸)ix 体重(单位:磅)59131210118910121191012891015131114015720519816217415016517018017016216518016015516519018515522.1 回归模型概述对于我们所关心的因变量 而言,如果我们猜测解释变量 是对其惟一存在系统性影YX响的因素,或二者之间存在均衡关系,而且这种影响或均衡关系是线性的,则一元线性总体回归模型可设定为如下的形式:(2-1-1)uX10其中, 和 分别为一常系数, 为一随机变量,并至少应满足 在上述01 0)(XuE设定下,显然有:(2-1-2)YE10)((2-1-2)被称为总体回归方程作为一个简单的推广,多元线性总体回归模型可设定为:(2-1-3 ) uXXk2103其中 至少应满足 ,总体回归方程自然为:u0),,(21kXuE(2-1-4)kXY 21接下来,我们希望通过获得因变量和解释变量的一个容量为 的样本观测数据集n,来对模型(2-1-1)中的参数 和 做出正确的估计。
在多元情形niXi ,21:),(01中,样本数据集表示为: ,待估计参数为:iXYkii ,2:),,(21 我们如何找到这样一种估计方法呢?k,10假定我们找到了一种估计方法(正确与否暂时还无法判断) ,利用样本数据,我们对模型(2-1-1)参数 和 给出的估计量(值)为 和 显然, 和 不能通过简单01 0ˆ101地将 代入(2-1-1)而解出但与(2-1-1)相对应,我们可以建立相应的niXYi ,2:),(样本回归模型:(2-1-5)niuXiii ,21ˆˆ10 其中, 和 是(假定)根据样本数据求出的对 和 的估计值,而 则称为样本回0ˆ1 01iuˆ归模型的残差或剩余,它可以被理解为利用样本数据对 的可能取值的一种估计需要特iu别指出的是,相对于给定的样本数据(数据是确定的) ,(2-1-5)是一个确定性方程,而相对于给定容量的样本(数据是未确定的) ,(2-1-5)则是一个随机性方程与(2-1-5)所对应的样本回归方程被定义为:(2-1-6)niXYii ,21ˆˆ10显然应该有:(2-1-7)iiiYuˆˆ在多元情形中,样本回归模型为:(2-1-8)iikiii uXXYˆ210 样本回归方程为:(2-1-9 )ikiii ˆˆˆ210不难看出,样本回归模型(方程)与总体回归模型(方程)的设定既存在一定的差异又有一定的联系。
那是因为,总体回归模型(方程)是根据应变量与解释变量所有可能的取值而确定的,而样本回归模型(方程)则是根据其中的一组特定的取值而确定的一个依据总体情况,而一个则依据部分情况依据部分对总体的一个推断,自然不敢肯定一定符合总体因此,回归分析的真正含义是,根据有限的部分情况(样本数据) ,通过“取伪存真、由此及彼、由表及里”性的分析,发现(回归到)事物的真理(真值) 所以, ,ˆ04就是对真值 的一种估计值(量) kˆ,1 k,,20现在,我们需要在 (2-1-5) 设定的基础上,寻找到一种估计方法,得出关于 和0的一种合理、有效的估计(计算)公式:1(2-1-10)),,,(ˆ21210 nnXYf(2-1-11)g这就是下一小节的任务2.2 模型参数的普通最小二乘估计方法(OLS)普通最小二乘估计方法(OLS—Ordinary L east Squares)是最基础的参,ˆ0kˆ,1数估计方法它不是参数估计的唯一方法,比如,还存在最大或然法(ML) 、矩估计方法等普通最小二乘估计方法的基本思路是:对于一个给定的样本, 的选定值,ˆ0kˆ,1应使得由(2-1-9)确定的样本回归方程(直线)对样本数据拟合得最好。
如何确立具体的拟合标准呢?对容量为 的样本,普通最小二乘估计法给出的拟合最好的标准是:n(2-2-1)niuQ12miˆ在一元情形中, (2-2-1)意味着:(2-2-2) ni iiniii XY121012 in)ˆ()ˆ(显然,对于给定的样本数据而言, ,即 和 的选定值不同, 的取值,10fQ01ˆQ也不同,它是 和 的一个二元二次函数 和 选什么值可以使(2-2-1)中的残差平方0ˆ1 ˆ和最小呢?微积分学中的极值原理告诉我们,(2-2-1)存在最小值,其充分必要条件是:(2-2-3) 0ˆ2)ˆ(2ˆ101 iii iii uXYQ由(2-2-3)得正规方程组:(2-2-4)iii iYXn21ˆ)(ˆ)(解(2-2-4)得:5(2-2-5)2210 )(ˆˆ ii iiXnYYXY(2-2-6)22221)(ˆiiiiixyXYn其中, ,称为样本的均值; ,称nYnXii /,/YyXxiiii ,为样本(对均值)的离差因此,今后一定要注意大、小写字母含义的区别2-2-5)和(2-2-6)就是根据普通最小二乘原理得出的一元线性回归模型的(普通最小二乘)参数估计公式(方法) 。
普通最小二乘估计方法的结果的三个重要特征值得一提从(2-2-3)中的第一个方程可知 ,说明该方法所选定的 和 的值,使各样本点偏离样本回归直线的正负距0ˆiu0ˆ1离之和等于零,或“均衡地”分布在样本回归直线两侧,这满足我们对 的要求;0)(uE从第二个方程我们又知道 ,这意味着从样本来看,解释变量 与 不相关ˆiuXX(线性无关) 而从(2-2-5)可知, ,与样本回归方程(2-1-6)比较,说明我们Y10ˆ求出的样本回归方程肯定穿过样本均值点( ) 上述两点,为我们根据样本点确定回,归直线,提供了一个参考标准现在,我们可以对(2-2-5)和(2-2-6)给出两种不同说法:对于给定的一个样本数据而言,(2-2-5)和(2-2-6) 给出了两个(确定的)估计值,此时我们niXYi ,21:),(所强调的是将 作为具体的数据代入(2-2-5)和(2-2-6)后所计算出的具ii ,:)(体数值;而对于任一个容量为 的样本而言,由于在此种条件下 和 对于我们来讲都iYiX是随机变量,故(2-2-5)和(2-2-6)给出了两个(随机的)估计量,此时我们所强调的是由随机性的样本作为自变量、由(2-2-5)和(2-2-6) 作为计算公式而确定的两个随机变量(函数) 。
做一简短的总结就是,一个估计量实际上是一个(样本)统计量,它给出了一个规则、公式或方法,告诉人们怎样利用手中任意给定(容量)的样本数据去估计总体的参数而一个估计值则是指将一个给定的样本数据代入一个特定的估计量之后计算出的具体数值值得强调的是,OLS 估计方法不仅能对(狭义的)变量之间的线性模型进行估计,也能对(广义的)针对参数而言的线性模型进行估计对于下述(广义的)一元线性模型:(2-2-17)uXfYg)()(106OLS 方法的估计结果为:(2-2-18) 22_1_0 )()( )()(ˆˆ ii iii XffnYgYgXfg(2-2-19)21 )()(ˆ ii ii ff上述方法的实质是,先将(2-2-17)变换为:(2-2-20)uXY10其中 ,然后对(2-2-20)进行 OLS 估计)(),(fXgY2.3 样本回归方程的拟合优度(优劣测度)对于样本回归模型(2-1-5)而言,给定一个容量为 的样本 ,普nniXYi ,21:),(通最小二乘法给出了一个对数据最佳拟合的(样本)回归方程(2-1-5);若再给定另一容量为 的样本,普通最小二乘法同样也能给出一个对数据最佳拟合的(样本)回归方程。
这n两个样本回归方程不会一定相同现在我们要问:哪个样本回归方程对各自所依据的样本数据的拟合更好呢?为回答这一问题,需要对用普通最小二乘法给出的样本回归方程对样本数据的拟合优劣程度进行测度,具体测度指标用判定系数 表示该拟合优度还可以回2R答这样的问题:给定一个容量为 的样本 ,用最小二乘法给出两个不同形式的样n),(iXY本回归方程,例如 和 ,谁对样本数据的拟合更好呢?iiY21ˆˆ212ˆii对于一个用普通最小二乘法给出的样本回归方程(2-1-5),判定系数 的测度定义通过2分析恒等式(2-3-1)而获得:(2-3-1))ˆ()ˆ(iiii Y由(2-3-1),对所有样本数据平方求和后得:(2-3-2) )ˆ(ˆ2)ˆ()ˆ()(22 iiiiiii YYY由于XXii 1010ˆ,ˆˆ 所以(2-3-3))(ˆˆ1Yii 以及7(2-3-4)0)ˆˆ(ˆ)(ˆ)(ˆ11iiiiiiiii uXY因此,如果定义:总离差平方和(Total Sum of Squares)为 ,回归平方和(Explained 2)(YTSiSum of Squares )为 ,残差平方和(Residual Sum of Squares))为2)ˆ(YESi,则由(2-3-2)和(2-3-4) 可得:2ˆ(iiYRS(2-3-5)RST所以有:(2-3-6)1SE(2-3-5) 和(2-3-6)是一个对用普通最小二乘法求出的样本回归方程所成立的恒等式。
给定样本数据, 是个固定值,不随样本回归模型设定的不同而变化而相对于不同的样本回TS归方程,相应的 和 的取值不同由于 ,所以, 和R0RSETS和 ES之间存在此长彼消的关系,且 ,是一个无量纲的系数由于 是样R10本回归方程对样本数据拟合效果的直接衡量,其数值越小,拟合效果越好,相应的,的数值也越大;而且考虑到要在不同回归方程之间的可比性问题;所以,判定系数ES定义为:2(2-3-7) TSRER12其中, ,其值越大,样本回归方程对其样本数据的拟合优度越高其实,也可102R以将判定系数 定义为: ,只是这样一来,判定系数 值越大,拟合优S/2 2R度越低,这不符合通常测度指标定义或使用的习惯根据(2-3-7),判定系数 的计算公式为:2(2-3-8)22 22221212 )()(ˆ)(ˆYXyxyxyYXRii iiiiii82.4 古典假定下 OLS 估计量的优良特性这一节,我们仅限于讨论一元回归模型的情况对于多元回归模型而言,结论是相同的我们已经知道了,对于不同的样本而言,用普通最小二乘法求出的同一回归模型的参数估计值不一定是相同的(一般不会相同) 。
最重要的是,参数估计值不一定等于其真值(实际上也无从判断) 所以,从估计值的角度我们无法判断 OLS 估计方法的好坏与优劣从估计值的角度既然做不到,那么,作为用普通最小二乘法得出的 OLS 估计量,能否给出判断呢?比如说,如果我们能证明 ,即 OLS 估计量是无偏估),,ˆ(21nolsXE计量,则说明普通最小二乘法具有某种优良的特性其实,对于任意一个形如(2-1-1)的模型设定,无论该设定是否正确,用普通最小二乘法进行估计,仅从已有的样本数据来看,是不能拒绝 和 这不能不算是其已具备的优良特性0)(uE0)()(uX现在我们来讨论在什么条件下 OLS 估计量会具有哪些优良的特性(一些假定我们在此之前事实上已提出过了) 按逻辑顺序,我们叙述如下古典假定 1——参数的线性性:即估计量是对形如(2-4-1)uXY10。
