
应用回归分析(ppt530).ppt
530页应用回归分析,Applied Regression Analysis,教材 何晓群,刘文卿: 《应用回归分析》第二版, 中国人民大学出版社,2007年,统计软件,SPSS 13.0 Statistical Package for the Social Science,章 节 目 录,第1章 回归分析概述 第2章 一元线性回归 第3章 多元线性回归 第4章 违背基本假定的情况 第5章 自变量选择与逐步回归 第6章 多重共线性的情形及其处理 第7章 岭回归 第8章 非线性回归 第9章 含定性变量的回归模型,第1章 回归分析概述,1 .1 变量间的统计关系 1 .2 回归方程与回归名称的由来 1 .3 回归分析的主要内容及其一般模型 1 .4 建立实际问题回归模型的过程 1 .5 回归分析应用与发展述评 思考与练习,1 .1 变量间的统计关系,函数关系 商品的销售额与销售量之间的关系 y = px 圆的面积与半径之间的关系 S=R2 原材料消耗额与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系 y = x1 x2 x3,1 .1 变量间的统计关系,1 .1 变量间的统计关系,相关关系的例子 子女身高 (y)与父亲身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系,1 .1 变量间的统计关系,对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的,注意 ①不线性相关并不意味着不相关。
②有相关关系并不意味着一定有因果关系 ③回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系 ④相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是回归分析构成计量经济学的方法论基础,其主要内容包括: (1)根据样本观察值对经济计量模型参数进行估计,求得回归方程; (2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测1 .2 回归方程与回归名称的由来,成年儿子身高,父母平均身高,英国统计学家F.Galton(1822-1911年) F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(1856—1936年)在研究父母身高与其子女身高的遗传问题时,观察了1 078对夫妇,,1 .3 回归分析的主要内容及其一般模型,,回归分析的一般形式:,,随机误差项主要包括下列因素: 在解释变量中被忽略的因素的影响; 变量观测值的观测误差的影响; 模型关系的设定误差的影响; 其他随机因素的影响回归模型研究的问题?,1 .4 建立实际问题回归模型的过程,1 .5 回归分析应用与发展述评,从高斯提出最小二乘法算起,回归分析已经有200年的历史。
从1969年设立诺贝尔经济学奖以来,已有近50位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家他们对统计学及回归分析方法的应用都有娴熟的技巧第2章 一元线性回归,2 .1 一元线性回归模型 2 .2 参数β0、β1的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验 2 .5 残差分析 2 .6 回归系数的区间估计 2 .7 预测和控制 2 .8 本章小结与评注,2 .1 一元线性回归模型,例2 .1 表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离表2.1 火灾损失表,2 .1 一元线性回归模型,例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元),表2.2 人均国民收入表,2 .1 一元线性回归模型,一元线性回归模型 y=β0+β1x+ε,,回归方程 E(y|x)=β0+β1x,2 .1 一元线性回归模型,样本模型 yi=β0+β1xi+εi, i=1,2,…,n,,回归方程 E(yi)=β0+β1xi ,var(yi)=σ2,,样本观测值(x1,y1),(x2,y2),…,(xn,yn),,经验回归方程,,2 .2 参数β0、β1的估计,一、普通最小二乘估计 (Ordinary Least Square Estimation,简记为OLSE),,最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小,,,称为yi的回归拟合值,简称回归值或拟合值,称为yi的残差,2 .2 参数β0、β1的估计,,2 .2 参数β0、β1的估计,,经整理后,得正规方程组,,,,2 .2 参数β0、β1的估计,,,,得OLSE 为,,,,记,2 .2 参数β0、β1的估计,,,,,,续例2.1,回归方程,2 .2 参数β0、β1的估计,,二、最大似然估计,连续型:是样本的联合密度函数: 离散型:是样本的联合概率函数。
似然函数并不局限于独立同分布的样本似然函数,在假设εi~N(0,σ2)时,由(2.10)式知yi服从如下正态分布:,,2 .2 参数β0、β1的估计,,二、最大似然估计,y1,y2,…,yn 的似然函数为:,,对数似然 函数为:,,与最小二乘原理完全相同,2 .3 最小二乘估计的性质,,一、线性,是y1,y2,…,yn 的线性函数 :,,,其中用到,2 .3 最小二乘估计的性质,,二、无偏性,,,,2 .3 最小二乘估计的性质,,三、 的方差,,,,,,2 .3 最小二乘估计的性质,,三、 的方差,,,,,,,,在正态假设下,,GaussMarkov条件,2.4 回归方程的显著性检验,,一、t 检验,,,,,,,,,,,,原假设: H0 :β1=0 对立假设: H1 :β1≠0,由,当原假设H0 :β1=0成立时有:,,2.4 回归方程的显著性检验,,一、t 检验,,,,,,,,,,,,构造t 统计量,,,,其中,2.4 回归方程的显著性检验,,二、用统计软件计算,,,,,,,,,,,,1.例2.1 用Excel软件计算,,,,什么是P 值? (P-value),P 值即显著性概率值 Significence Probability Value 是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离 它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平,双侧检验的P 值,/ 2,/ 2,,,,,,,,,,,,,,,t,,,,,拒绝,拒绝,,,,H0值,临界值,,计算出的样本统计量,计算出的样本统计量,,,临界值,,1/2 P 值,1/2 P 值,左侧检验的P 值,H0值,临界值,a,样本统计量,拒绝域,,抽样分布,1 - ,置信水平,,,,计算出的样本统计量,,P 值,,,,,,,右侧检验的P 值,H0值,临界值,a,拒绝域,,抽样分布,1 - ,,置信水平,,计算出的样本统计量,,,P 值,,,,,利用 P 值进行检验的决策准则,若p-值 ≥ ,不能拒绝 H0 若p-值 < , 拒绝 H0 双侧检验p-值 =2×单侧检验p-值,2.4 回归方程的显著性检验,二、用统计软件计算,,,,,,,,,,2. 例2.1用SPSS软件计算,,,2.4 回归方程的显著性检验,,二、用统计软件计算,,,,,,,,,,,,,,,2.用SPSS软件计算,2.4 回归方程的显著性检验,,三、F检验,,,,,,,,,,,,,,,平方和分解式,,SST = SSR + SSE,构造F检验统计量,,2.4 回归方程的显著性检验,,三、F检验,,,,,,,,,,,,,,,一元线性回归方差分析表,,,,,2.4 回归方程的显著性检验,,四、相关系数的显著性检验,,,,,,,,,,,,,,2.4 回归方程的显著性检验,,四、相关系数的显著性检验,,,,,,,,,,,,,,,,2.4 回归方程的显著性检验,,四、相关系数的显著性检验,,,,,,,,,,,,,,,,附表1 相关系数ρ=0的临界值表,2.4 回归方程的显著性检验,,四、相关系数的显著性检验,,,,,,,,,,,,,,,,用SPSS软件做相关系数的显著性检验,2.4 回归方程的显著性检验,,四、相关系数的显著性检验,,,,,,,,,,,,,,,,两变量间相关程度的强弱分为以下几个等级: 当|r|≥0.8时,视为高度相关; 当0.5≤|r|< 0.8时,视为中度相关; 当0.3≤|r|< 0.5时,视为低度相关; 当|r|< 0.3时,表明两个变量之间的相关程度极弱, 在实际应用中可视为不相关。
2.4 回归方程的显著性检验,,五、三种检验的关系,,,,,,,,,,,,,,,,H0: b=0,H0: r=0,H0: 回归无效,2.4 回归方程的显著性检验,,六、样本决定系数,,,,,,,,,,,,,,,,,可以证明,2.5 残差分析,一、残差概念与残差图,,,,,,,,,,,,残差,,误差项,,残差ei是误差项ei的估计值2.5 残差分析,一、残差概念与残差图,,,,,,,,,,,,,,2.5 残差分析,一、残差概念与残差图,,,,,,,,,,,,,,图 2.6 火灾损失数据残差图,2.5 残差分析,二、残差的性质,,,,,,,,,,,,,,性质1 E (ei)=0,证明:,2.5 残差分析,二、残差的性质,,,,,,,,,,,,,,性质2,,其中,称为杠杆值,2.5 残差分析,二、残差的性质,,,,,,,,,,,,,,,2.5 残差分析,二、残差的性质,,,,,,,,,,,,,,性质3. 残差满足约束条件:,,,2.5 残差分析,三、改进的残差,,,,,,,,,,,,,,标准化残差,,,学生化残差,,2.6 回归系数的区间估计,,,,,,,,,,,,等价于,,,,β1的1-α 置信区间,2.7 预测和控制,一、单值预测,,,,,,,,,,,,,,,2.7 预测和控制,,,,,,,,,,,,,二、区间预测,,,,找一个区间(T1,T2),使得,需要首先求出其估计值,的分布,1.因变量新值的区间预测,二、区间预测 1 因变量新值的区间预测,,,,,,,,以下计算,的方差,,,,从而得,二、区间预测 1 因变量新值的区间预测,,,,,,,,记,,,,于是有,,,则,,,二、区间预测 1 因变量新值的区间预测,,,,,,,,,,,,,y0的置信概率为1-α的置信区间为,,y0的置信度为95%的置信区间近似为,,二、区间预测 2 因变量平均值的区间估计,,,,,,,,,,,,,得E(y0)的1-α的置信区间为,,E(y0)=β0+β1x0是常数,,二、区间预测 计算,,,,,,,,,,,,,对例2.1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失,点估计值,95%区间估计 单个新值: (22.32,32.67) 平均值E(y0):(26.19,28.80),的95%的近似置信区间为,,=(27.50-2×2.316,27.50+2×2.316) =(22.87,32.13),三、控制问题,,,,,,给定y的预期范围(T1, T2),如何控制自变量x的值 才能以1-α的概率保证,用近似的预测区间来确定x。
如果α=0.05,则要求,,,把,带入,,,,2.8 本章小结与评注,一、一元线性回归模型从建模到应用的全过程 例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元),表2.2 人均国民收入表,2.8 本章小结与评注,二、有关回归假设检验问题 1973年Anscombe构造了四组数据, 这四组数据所建的回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验2.8 本章小结与评注,第。
