好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

回归分析部分.ppt

72页
  • 卖家[上传人]:ji****72
  • 文档编号:50649804
  • 上传时间:2018-08-09
  • 文档格式:PPT
  • 文档大小:344.50KB
  • / 72 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 多元统计课程设计 之 回归分析长春工业大学线性回归模型一元线性回归模型多元线性回归模型p=1时,先做散点图; p=2时,回归平面; p=3时,回归超平面,几何图形无法表示回归模型的基本假设1. 解释变量y为随机变量,而解释变量为非随机变量,观测值 是常数 2. Gauss-Markov条件(等方差及不相关假定条件)回归模型的基本假设3. 正态分布假设即 4. 通常为了便于数学上的处理,还要求n >p,即样 本容量的个数要多于解释变量的个数对线性回归模型通常要研究的问题1. 如何根据样本求出参数 及方差 估计; 2. 对回归方程及回归系数的种种假设进行检验; 3. 如何根据回归方程进行预测和控制,以及如何进 行实际问题的结构分析正态假设下, 参数的最小二乘估计(OSLE) 与极大似然估计(MLE)一致,即若线性回归模型为 ,其中则有 ,可得若称 为 的残差。

      则误 差 项方差 的无偏估计为回归分析步骤step1:确定模型变量; step2:收集、整理统计数据; step3:确定理论回归模型的数学形式; step4:模型参数估计; step5:模型检验; step6:模型改进; step7:回归模型的运用确定模型变量首先要根据所研究问题的目的设置因变 量 y,然后再选取与y有统计关系的一些变量作 为 自变量对一个具体的经济问题,当研究目的确 定 之后,被解释变量容易确定,被解释变量一 般 直接表达、刻画研究的目的而对被解释变量有影响的解释变量往往 不 容易被确定一是由于认识有局限性,我们不可能完 全 了解对被解释变量有重要影响的全部因素二是为了模型参数估计的有效性,设置 的 解释变量之间应该是不相关的三是我们从经济关系角度考虑非常重要 的 变量应该引进, 但在实际中并没有这样的统 计 数据 这一点在我国建立经济模型时经常会 遇 到这时可以考虑用相近的变量代替,或者 由 其他几个指标复合成一个新的指标注: 1.不要认为一个回归模型中解释变量越多越好 可能选取与问题无关的变量,也可能由于 一些变量具有较强相关性,他们所反映的信 息有较严重的重叠,即出现共线性问题。

      另 当变量太多,计算工作量太大,计算误差积 累也大,估计出的模型参数精度自然不高2.回归变量一般一次并不能完全确定,通常要经过反复试算,最终找出最合适的一些变 量收集、整理统计数据确定好回归模型的变量之后,就要对这 些 变量收集、整理统计数据数据的收集是建立回归模型的重要一环 , 是一项基础性工作,样本数据的质量如何, 对 回归模型的水平有至关重要的影响v常用的样本数据分为时间序列数据和横截面数 据时间序列数据——按时间顺序排列的统计数据 对于时间序列数据要注意数据的可比性和数 据的统计口径问题时间序列数据容易产生模型中随机误差项的 序列相关,这是因为许多经济变量的前后期之间 总是有关联的对于具有随机误差项序列相关的情况,要通 过对数据的某种计算整理来消除序列相关性,最 常用的处理方法是差分法 横截面数据——在同一时间截面上的统计数 据用横截面数据作为样本时,容易产生异 方 差性对于具有异方差性的建模问题,数据整 理 就要注意消除异方差性,这常与模型参数估 计 方法结合起来考虑时间序列结合横截面数据形成面板数据, 由 协 整分析专门处理v样本容量的选择无论是时间序列数据还是横截面数据, 样 本容量的多少一般要与设置的解释变量数目 相 配套。

      通常为了使模型的参数估计更有效, 要 求样本容量n大于解释变量的个数p当n8时,对等级相关系数进行t检验关于异方差性的诊断,方法很多,至于 哪种检验方法最好,目前没有一致的结论 残差图方法直观但较粗糙,登记相关系数检 验要比残差图检验方法更为可取当残差散 点呈现无任何规律的分布时,可认为无异方 差性,若残差点分布有明显规律,可认为存 在异方差性对于既无明显分布规律、分布 似乎又不随机,我们就要慎重了,这时,需 要借助等级相关系数检验会哦其他方法来判 断异方差性异方差性问题的处理方法v消除异方差性的方法通常有加权最小 二乘法(WLS)、Box-Cox变换法、方 差稳定性变换法等,其中WLS最为常 用v加权最小二乘估计照顾小残差项是以牺牲大 残差项为代价的,有一定的局限性v当回归模型存在异方差时,加权最小二乘估 计只是对普通最小二乘估计的改进,这种改 进有可能是细微的,而不是大幅度改进v加权最小二乘以牺牲大方差项的拟合效果为 代价改善了小方差项的拟合效果,这也不总 是研究者需要的在一些特定场合下,即使 数据存在异方差,也仍可选择使用普通最小 二乘估计v出现异方差性时,消除异方差影响的 方法很多,较广泛的是加权最小二乘 法,若软件无加权最小二乘功能,可 通过变换数据来实现,但有可能无法 进行拟合优度检验。

      v当误差项服从正态分布,因变量与自变量之 间遵从线性回归函数,只是误差项存在异方 差时,应采用加权最小二乘估计,以消除异 方差影响;当误差项不仅存在异方差,且误 差项不服从正态分布,因变量与自变量之间 也不遵从线性回归函数关系时,应采用方差 稳定变换自相关性检验v自相关性违背了模型误差项等方差且独立的基本 假设,即v自相关性产生的原因 1. 时间序列容易出现自相关性; 2. 遗漏关键变量时会产生序列的自相关性; 3. 经济变量的滞后性会给序列带来自相关性; 4. 采用错误的回归函数形式也可能引起自相关性; 5. 蛛网现象可能带来序列的自相关性; 6. 对数据加工处理而导致误差项之间产生自相关性 自相关性检验方法v图示检验法v自相关系数法vDW检验v回归检验法也很受人们推崇v图示检验法图示法是一种直观的诊断方法,其把给 定 的回归模型直接用普通最小二乘法估计参数 , 求出残差项,描绘残差的散点,根据残差的 相 关性来判断随机项的序列相关性v残差的散点图通常有两种绘制方式: 1. 绘制以 为纵坐标,以 为横坐标绘制散点图 若大部分点落在第1、3象限,表明随机扰动项 存 在着正的序列相关;若大部分点落在第2、4象限, 则 随机扰动项存在着负相关。

      2. 按照时间顺序绘制回归残差项的图形若残差随t的变化逐次有规律的变化,呈现锯齿 形或循环形状的变化,就可断言残差存在相关, 表明随机扰动存在着序列相关;若残差随t的变化 逐次变化并不断改变符号,则随机扰动存在负相 关,称之为蛛网现象;若残差随t变化逐次变化并 不频繁改变符号,而是几个正的残差后面跟着几 个负的,表明随机扰动存在正相关v自相关系数法自相关系数的取值范围为[-1,1],当自 相 关系数接近1时,表明误差序列存在正相关, 当 自相关系数接近-1时,表明误差序列存在负相关在实际应用中,用残差求出的样本自相 关 系数与样本量有关,需要做统计显著性检验 才 能确定自相关性的存在,通常采用DW检验方法vDW检验方法DW检验是一种适用于小样本的检验方法,且只能用于检验随机扰动项具有一阶自 回 归形式的序列相关问题应用DW检验方法,求出DW值后,根据 样 本容量n和解释变量的数目k(包括常数项) 查 DW分布表,得临界值dL和dU DW在[0,dL],存在正相关; DW在(dL,dU],不能判定是否有自相关; DW在(dU,4-dU),无自相关; DW在[4-dU,4-dL),不能判定是否有自相 关 DW在[4-dL,4],存在负相关。

      当DW值在2左右时,无需查表即可认为 模 型不存在自相关性vDW检验的局限: 1. DW检验有两个不能确定的区域,一旦DW 值落在这两个区域,就无法判断这时,只 有增大样本量或选取其他方法; 2. DW统计量的上、下界标要求n>15; 3. DW检验不适应随机项具有高阶序列相关 的检验自相关处理方法v若是回归模型选用不当造成自相关,则应改 用适当的回归模型;v若是缺少重要的自变量,则应增加自变量;v若上述两种方法都不能消除序列相关性,则 需采迭代法、差分法、科克伦-奥克特迭代 法、普莱斯-温斯登迭代法等v在实际应用中,自相关系数接近1时,我们 采用差分法而不用迭代法v一阶差分法是对原始数据的一种修正,但有 时一阶差分法可能会过度修正,使得差分数 据中出现负自相关的误差项,故从一定意义 上说,差分法要慎用只有当自相关系数等 于1或者接近于1时,差分法效果才会好多重共线性检验v多重共线性产生的原因客观地说,某一经济现象,涉及多个影响因素 时,这多个影响因素之间大都有一定的相关性当 这 种相关性较弱时,我们一般认为符合多元线性回归 模 型的要求;当相关性较强时,认为是一种违背多元 线 性回归模型基本假设的情形。

      研究经济问题涉及时间序列资料时,容易出现 共 线性;利用截面数据建立回归方程也尊在自变量高 度 相关的情形多重共线性的诊断方法v方差扩大因子法v特征根判定法v直观判定法消除多重共线性的方法v剔除一些不重要的解释变量v增大样本容量v回归系数的有偏估计(岭回归、主成分回归 、逐步回归法、特征根法、偏最小二乘法等 )v回归分析中,有时也需要进行数据的中心化 、标准化处理,也要注意异常值和强影响点 的诊断和处理SAS实现vreg过程proc reg data=输入数据集 选项;var 可参与建模的变量列表(左数第一 个为因变量);model 因变量=自变量表/选项;print 输出结果;plot 诊断图形;run;注:vReg过程是交互式过程,在使用了nun语句提交了若干个过 程步语句后,可继续写其他的reg过程步语句,提交运行, 直到提交quit语句或开始其他过程步或数据步才终止vModel语句中选项用“selection=选择方法”,选择方法指的 是自变量选择方法,包含none(全用,默认),forward( 逐步引入法),backward(逐步剔除法),stepwise(逐步 筛选法),maxr(最大增量法),minr(最小增量法), rsquare(选择法),adjrsg(修正选择法)和CP(Mallows 的Cp统计量法)vPrint di //列出Yi的预测值Yi及置信区间(95%)Print clm // 估计均值E(yi)(i=1,……n)及95%置信 限 4. Plot 因变量*自变量 / conf 95 ;//省略conf 95 =不带置信 限。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.