双变量模型——假设检验.ppt
98页第一部分第一部分线性回归线性回归模型模型Chp3双变量模型:假设检验双变量模型:假设检验3-2主要内容主要内容n古典线性回归模型的假定古典线性回归模型的假定nOLS估计量及其性质估计量及其性质nOLS估计量的方差与标准误估计量的方差与标准误nOLS估计量的抽样分布(概率分布)估计量的抽样分布(概率分布)n假设检验假设检验n拟合优度拟合优度n正态性检验正态性检验n预测预测3-3线性回归模型的基本假设线性回归模型的基本假设 假假设设1. 回回归归模模型型是是参参数数线线性性的的,但但不不一一定定是是变变量线性;量线性; Yi=B0+B1Xi+ui 假设假设2. 解释变量解释变量X与扰动误差项与扰动误差项u不相关 Cov(X, u)=03-4线性回归模型的基本假设线性回归模型的基本假设 假设假设3. 给定给定Xi,扰动项的期望或均值为零,即:,扰动项的期望或均值为零,即:E(u|Xi)=0; PRF:E(Y|Xi)=B1+B2Xi扰动项扰动项ui的条件分布的条件分布3-5线性回归模型的基本假设线性回归模型的基本假设 假设假设4. ui的方差为常数,即同方差假定:的方差为常数,即同方差假定: Var(ui)= 2 PRF:Yi=B1+B2Xi同方差同方差PRF:Yi=B1+B2Xi异方差异方差3-6线性回归模型的基本假设线性回归模型的基本假设 假设假设5. 无自相关假定,即:无自相关假定,即: Cov(ui, uj)=0, i j由由该该假假定定可可得得,Cov(Yi, Yj)=0, i j ,即即Y也也不不相关。
相关 3-7线性回归模型的基本假设线性回归模型的基本假设 3-8线性回归模型的基本假设线性回归模型的基本假设假假设设6.回回归归模模型型是是正正确确设设定定的的,即即实实证证分分析析的的模模型不存在设定偏差或设定误差型不存在设定偏差或设定误差假假设设7. 随随机机误误差差项项ui具具有有零零均均值值、同同方方差差( u2)的的正态分布:正态分布: ui N(0, u2)3-9最小二乘估计量的性质(最小二乘估计量的性质(P46)当模型参数估计出后,需考虑参数估计值的当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质考察参数估计量的统计性质 一个用于考察总体的估计量,可从如下几个一个用于考察总体的估计量,可从如下几个方面考察其优劣性:方面考察其优劣性: (1)线性性)线性性,即它是否是另一随机变量的线性,即它是否是另一随机变量的线性函数;函数;1. 系数系数B0, B1的的OLS估计估计3-10(2)无偏性)无偏性,即它的均值或期望值是否等于总,即它的均值或期望值是否等于总体的真实值;体的真实值;(3)有效性)有效性,即它是否在所有线性无偏估计量,即它是否在所有线性无偏估计量中具有最小方差。
中具有最小方差n这三个准则也称作估计量的这三个准则也称作估计量的小样本性质小样本性质拥有这类性质的估计量称为拥有这类性质的估计量称为最优线性无偏估计最优线性无偏估计量量(best liner unbiased estimator, BLUE)3-11(4)渐渐近近无无偏偏性性,即即样样本本容容量量趋趋于于无无穷穷大大时时,是否它的均值序列趋于总体真值;是否它的均值序列趋于总体真值;(5)一一致致性性,即即样样本本容容量量趋趋于于无无穷穷大大时时,它它是是否依概率收敛于总体的真值;否依概率收敛于总体的真值;(6)渐渐近近有有效效性性,即即样样本本容容量量趋趋于于无无穷穷大大时时,是是否否它它在在所所有有的的一一致致估估计计量量中中具具有有最最小小的的渐渐近近方方差 当不满足小样本性质时,需进一步考察估计当不满足小样本性质时,需进一步考察估计量的量的大样本大样本或或渐近性质渐近性质:3-12高高斯斯马马尔尔可可夫夫定定理理(Gauss-Markov theorem) 在在给给定定经经典典线线性性回回归归的的假假定定下下,最最小小二二乘乘估估计计量量是是具具有有最最小小方方差差的的线线性性无无偏偏估估计计量。
量3-13证:证:其中,其中,1.线性性线性性,即估计量,即估计量b0,b1是关于是关于Yi的线性函数的线性函数上式用到:上式用到:其中,其中,3-14注:注:故故同样地,容易得出同样地,容易得出 2.无偏性无偏性,即估计是量,即估计是量b0,b1的均值(期望)等于的均值(期望)等于总体回归参数真值总体回归参数真值B0,B13-15说明:说明:3-163.有效性(最小方差性)有效性(最小方差性),即在所有线性无偏估计,即在所有线性无偏估计量中,最小二乘法估计量量中,最小二乘法估计量b0,b1具有最小方差具有最小方差1)先求)先求b0与与b1的方差的方差3-17注:注:3-18(2)证明最小方差性)证明最小方差性说明:说明:3-193-203-21 普通最小二乘估计量普通最小二乘估计量(ordinary least ordinary least Squares EstimatorsSquares Estimators)称为称为最佳线性无偏估计最佳线性无偏估计量量(best linear unbiased estimator, best linear unbiased estimator, BLUEBLUE) 。
3-22 由于最小二乘估计量拥有一个由于最小二乘估计量拥有一个“好好”的估计量的估计量所应具备的小样本特性,它自然也拥有大样本特性所应具备的小样本特性,它自然也拥有大样本特性现考察现考察b b1 1的的一致性一致性 3-23OLSOLS估计量的抽样分布估计量的抽样分布( (概率分布概率分布) )及随机干及随机干扰项方差的估计扰项方差的估计 普通最小二乘估计量普通最小二乘估计量b0、b1分别是分别是Yi的线性组合的线性组合,因此,因此,b0和和b1的概率分布取决于的概率分布取决于Y的分布特征的分布特征在在u是正态分布的假设下,是正态分布的假设下,Y是正态分布,则是正态分布,则b0、b1也服从正态分布,因此,也服从正态分布,因此,1.参数估计量参数估计量b0和和b1的概率分布的概率分布3-24b0和和b1的标准差的标准差B1 b13-252. 随机误差项随机误差项u的方差的方差 2的估计的估计 在估计的参数在估计的参数b0和和b1的方差表达式中,都含有随的方差表达式中,都含有随机扰动项机扰动项u的方差的方差 2由于由于 2实际上是未知的,因此,实际上是未知的,因此,b0和和b1的方差实的方差实际上无法计算,这就需要对其进行估计。
际上无法计算,这就需要对其进行估计 2又称为总体方差又称为总体方差3-26由于随机项由于随机项ui不可观测,只能从不可观测,只能从ui的估计的估计残差残差ei出发,对总体方差进行估计出发,对总体方差进行估计可以证明可以证明, 2的的最小二乘估计量最小二乘估计量为为它是关于它是关于 2的无偏估计量的无偏估计量 为为 的估计量,也称为回归标准误,的估计量,也称为回归标准误,即即Y值偏离估计回归线的标准差值偏离估计回归线的标准差其作用:其作用:P45P453-27 在在随随机机误误差差项项u u 的的方方差差 2估估计计出出后后,参参数数b b0 0和和b b1 1的的方差方差和和标准差标准差的估计量分别是:的估计量分别是:b1的样本方差:的样本方差:b1的样本标准差:的样本标准差:b0的样本方差:的样本方差:b0的样本标准差:的样本标准差:3-28n对于博彩的例子,其方差和标准误分别是:对于博彩的例子,其方差和标准误分别是:见教材表见教材表7-17-1(P126P126)第三版)第三版n对于数学对于数学SATSAT一例的方差和标准误,计算结一例的方差和标准误,计算结果见表果见表3-13-1(P45P45)()(P28P28)第四版)第四版3-29n蒙特卡洛试验蒙特卡洛试验如何操作?如何操作?P46X= 12rnd()-63-30假设检验(重点)假设检验(重点)n回归分析回归分析是要通过样本所估计的参数来代是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归替总体的真实参数,或者说是用样本回归线代替总体回归线。
线代替总体回归线n尽管从尽管从统计性质统计性质上已知,如果有足够多的上已知,如果有足够多的重复重复抽样,参数的估计值的期望(均值)抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值中,估计值不一定就等于该真值3-31n那么,在一次抽样中,参数的估计值与那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需真值的差异有多大,是否显著,这就需要进一步进行要进一步进行统计检验统计检验主要内容有:主要内容有:参数的参数的区间估计区间估计;变量的变量的显著性检验显著性检验拟合优度检验拟合优度检验3-32假设检验假设检验可以通过一次抽样的结果检验总体参可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总并没有指出在一次抽样中样本参数值到底离总体参数的真值有多体参数的真值有多“近近”一、参数的置信区间一、参数的置信区间 回归分析希望通过样本所估计出的参数回归分析希望通过样本所估计出的参数b1来代来代替总体的参数替总体的参数B13-33要判断样本参数的估计值在多大程度上可以要判断样本参数的估计值在多大程度上可以“近似近似”地替代总体参数的真值,往往需要通过地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的构造一个以样本参数的估计值为中心的“区间区间”,来考察它以多大的可能性(概率)包含着,来考察它以多大的可能性(概率)包含着真实的参数值。
这种方法就是参数检验的真实的参数值这种方法就是参数检验的置信置信区间估计区间估计3-34如如果果存存在在这这样样一一个个区区间间,称称之之为为置置信信区区间间(confidence interval); 1- 称称为为置置信信系系数数(置置信信度度)(confidence coefficient), 称称为为显显著著性性水水平平(level of significance);置置信信区区间间的的端端点点称称为为置置信信限限(confidence limit)或或临临界界值值(critical values)要要判判断断估估计计的的参参数数值值b离离真真实实的的参参数数值值B有有多多“近近”,可可预预先先选选择择一一个个概概率率 (0 1) ,并并求求一一个个正正数数 ,使使得得随随机机区区间间(b- , b+ )包包含含参参数数的的直直值值的概率为的概率为1- ,即:,即:3-35一元线性模型中一元线性模型中,Bi (i=0,1)的置信区间的置信区间在变量的显著性检验中已经知道:在变量的显著性检验中已经知道: 意味着,如果给定置信度(意味着,如果给定置信度(1- ),从分布表中),从分布表中查得自由度为查得自由度为(n-2)的临界值,那么的临界值,那么t值处在值处在(-t /2, t /2)的概率是的概率是(1- )。
表示为:表示为: 即即3-36于是得到于是得到:(1-:(1- ) )的置信度下的置信度下, , Bi的置信区间是的置信区间是 在上述在上述收入收入- -消费支出消费支出例中,如果给定例中,如果给定 =0.01=0.01,查表得(查表得(P387P387):): 由于由于于是,于是,B1、B0的置信区间分别为:的置信区间分别为: (0.6345, 0.9195) , (-433.32, 226.98) 3-37n由于置信区间一定程度地给出了样本参数估由于置信区间一定程度地给出了样本参数估计值与总体参数真值的计值与总体参数真值的“接近接近”程度,因此程度,因此。





