好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

地理加权回归(GWR).ppt

39页
  • 卖家[上传人]:平***
  • 文档编号:47571388
  • 上传时间:2018-07-03
  • 文档格式:PPT
  • 文档大小:6.82MB
  • / 39 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 2012年12月24日基本框架普通线性回归模型及估计 OLS工作的基本原理解释OLS结果 GWR提出的背景及意义地理加权回归模型及估计权函数选择权函数宽带优化诊断工具 膀胱癌死亡率实例OLS工作的基本原理在我们国家是否有持续发生年轻人早逝的地方? 哪里为犯罪或火灾的高发地点? 城市中哪里的交通事故发生率比预期的要高? ……在实际工作中,我们可能会遇到以下类似的问题911紧急呼叫数据的 分析结果,显示了 呼叫热点(红色) 、呼叫冷点(蓝色 )以及负责事故处 理的消防和警察分 队的位置(绿色十 字)可以通过热点分析的方法弄清以上问题对于上面的每一个问题都询问了“where”,但是我们自然会想到“why”为什么国家会存在持续发生年轻人早逝的地方?是什么导致了这种情况?我们能否对犯罪、911呼叫或火灾频发地区的特征进行建模,以帮助减少这些事件的发生?导致交通事故发生率比预期要高的因素有哪些,有没有相关政策或者措施来减少整个城市或特定事故高发区的交通事故?通过回归分析,我们可以对空间关系进行建模、检查和探究,还可以解释所观测到的空间模式背后的诸多因素例如分析有些地区为什么会持续发生年轻人早逝或者糖尿病的发病率比预期的要高。

      通过空间关系建模,对这些现象进行预测例如,对影响大学生毕业率的因素进行建模,可以对近期的劳动力技能和资源进行预测;因为监测站数量不足而无法进行充分插值的情况下(沿山脊地区和山谷内,雨量计通常会短缺),可以用回归法来预测这些地区的降雨量或者是空气质量使用回归分析的主要原因1.对某一现象建模,测量一个或多个变量的变化对另一变量变化 的影响程度例如,了解某些特定濒危鸟类的主要栖息地特征(降水 ,食物源、植被、天敌),以协助通过立法来保护该物种 2.对某种现象建模以预测其他地点或其他时间的数值,构建一个 持续准确的预测模型例如,如果已知人口增长情况和典型的天气 状况,那么明年的用电量将会是多少? 3.深入探索某些假设情况假设您正在对住宅区的犯罪活动进行建模,以更好的了解犯罪活动并 希望实施可能阻止犯罪活动的策略,开始分析时,就会有很多问题或 想要检验的假设情况: 1).“破窗理论”表明公共财产的破坏(涂鸦、被毁坏的建筑物等)可招 致其他犯罪行为,破坏财产行为与入世盗窃之间是否存在正关系? 2).非法使用毒品与盗窃行为之间存在某种关系吗(吸毒成瘾的人又可 能通过偷取财物来维持他们吸毒的习惯吗)?OLS回归方程1.遗遗漏自变变量:如果模型中丢失了关键的自变量,其系数 和相应的关联P值将不可信。

      通过映射并检查OLS残差和 GWR系数或对回归残差进行热点分析,找出可能缺失的 变量 2.非线线性关系:OLS和GWR都是线性方法,如果任一自变 量与因变量之间的关系存在非线性关系,则获得的模型 质量不佳通过创建散点图矩阵来了解模型中所有自变 量之间的关系 3.数据异常值值:影响大的异常值可以使模型化的回归关系 背离最佳拟合,从而使回归系数发生偏差通过创建散点 图来检验数据的极值,如果异常值存在,则进行修正或 者移除如果异常值正确或者有效则不能将其移除,需要 对有异常值和没有异常值的情况下分别进行回归,查看 这两种情况对结果的影响程度回归模型中常见的问题4.不稳稳定性:一个输入变量在区域A中具有很强的解释能 力,但是在区域B中却不显著如果因变量与自变量之间 的关系在研究区域内不一致,将人为地扩大计算出的标准 误差用Koenker测试关联的概率很小时,区域变化具有 统计显著性地理加权回归改进)5.多重共线线性:一个自变量或多个自变量的组合冗余多 重共线性可导致模型不稳定,不可靠可以通过OLS工具 自动检测冗余,每个自变量都被给定一个计算出的VIF值 ,当这个值很大时,冗余便成了问题,通过创建交互变量 或增大采样间隔从模型中移除冲突变量或对其进行修改。

      6.残差的方差不一致:对于较小的因变量值,模型的预测效 果较好,但对于较大的因变量值,模型的预测值变 得不可靠 7.空间自相关残差:注意模型偏低预计值(红色)出现空间聚 类的方式残差(模型的偏低预计值和偏高预计值)在统计学 上的显著空间聚类表明模型缺失关键的因变量,可以使用空间 自相关工具来确定模型残差的空间聚类是否有统计学上的显著 性8.正态态分布偏差:当回 归模型残差不服从均值 为0的正态分布时,与 系数关联的P值将变得 不可靠可以用OLS工 具自动检查 残差是否服 从正态分布当Jarque- Bera统计量显著(< 0.05)时,很可能错误 选定了模型或对其建模 的关系为非线性通过 残差图和GWR系数图来 检查是否缺少关键变 量,查看散点矩阵图 寻找非线性关系解释OLS结果(1)评估模型性能R 平方的倍数和校正 R 平方值都可以用来测 量模型性能取值范围从 0.0 - 1.0由于“校正 R 平方”值与数据相关, 更能准确地测量出模型性能,能够反映模型的复杂性,因此“校正 R 平 方”值始终要比“R 平方的倍数”值略小为模型额外添加一个解释变量可 能会增大“R 平方的倍数”值,但可能会减小“校正的 R 平方”值。

      假设正 在创建一个入室盗窃(与每个人口普查区块相关的入室盗窃数量为因变 量,y)的回归模型如果“校正 R 平方”值为 0.84,则表示该模型(使 用线性回归建模的解释变量)可解释因变量中大约 84% 的变化使用 R 平方值量化模型性能(2)评评估模型中的每一个解释变释变 量:系数、概率、稳稳健 概率和方差膨胀胀因子 (VIF) 系数——反映它与因变量之间关系的强度,以及它们之间的关系类型当系 数为负时 ,表明自变量与因变量负相关当系数为正号时,自变量与因变量 为正相关 概率或稳稳健概率(p 值值)——P值很小时,系数实际为 零的几率也会很小 如果 Koenker 测试(见下图)具有统计学上的显著性,应使用稳健概率来评 估自变量的统计学显著性对于具有统计学上显著性的概率,其旁边带有一 个星号 (*) VIF ——测量自变量中的冗余一般来说,与大于 7.5 的 VIF 值关联的自变量 应逐一从回归模型中移除3)评评估模型是否具有显显著性 联联合 F 统计统计 量(联联合卡方统计统计 量)用于测量整个模型的统计学显著性 只有在 Koenker (BP) 统计量(见下图)不具有统计学上的显著性时,“联合 F 统计量”才可信。

      如果 Koenker (BP) 统计量具有显著性,应参考“联合卡方统计 量”来确定整个模型的显著性对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计学上的显著性4)评评估稳稳定性 Koenker (BP) 统计统计 量(Koenker 的标准化 Breusch-Pagan 统计量)是一种测试, 用于确定模型的自变量是否在地理空间和数据空间中都与因变量具有一致的关 系如果模型在地理空间中一致,由自变量表示的空间进程在研究区域各位置 处的行为也将一致如果模型在数据空间中一致,则预测值 与每个自变量之 间关系的变化不会随自变量值(模型没有异方差性)的变化而变化该测试 的零假设测试 模型稳定性对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计学上的显著异方差性和/或不稳定性如果该测试 的结果具 有统计学上的显著性,需参考稳健系数标准差和概率来评估每个解释变量的效 果具有统计学上显著不稳定性的回归模型通常很适合进行地理加权回归 分 析5)评评估模型偏差Jarque-Bera统计统计 量用于指示残差是否呈正态态分布该测试 的零假设为 残差呈正态分布。

      因此,如果为这些残差建立直方图,这些残差的分布将 高斯分布相似当该测试 的 p 值(概率)较小(例如,对于大小为 95% 的 置信度,其值小于 0.05)时,回归不会呈正态分布,并指示您的模型有偏 差6)评评估残差空间间自相关对对回归归残差运行空间间自相关(Moran‘s I) 可确保回归残差在空间上随机分布 高残差和/或低残差(模型偏高预计值 和偏低预计值 )在统计学上的显著聚 类表明模型中的某个关键变量缺失了当错误指定了模型时,OLS 结果不可信 GWR提出的背景和意义在空间分析(Spatial analysis)中,变量的观测值(数据 )一般都是按照某给定的地理单位为抽样单位得到的,随 着地理位置的变化,变量间的关系或者结构会发生变化, 这种因地理位置的变化而引起的变量间关系或结构的变化 称之为空间非平稳性(spatial nonstationarity) 这种空间非平稳性普遍存在在空间数据中,如果采用通常 的线性回归模型或莫伊特定形式的非线性回归函数来分析 空间数据,一般很难得到满意的结果,因为全局模型( global model)在分析之前就假定了变量间的关系具有同 质性(homogeneity),从而掩盖了变量间关系的局部特 性,所得结果也只有研究区域内的某种“平均”,因此需要 对传统的分析方法进行改进。

      改进方法 ①采用局部回归分析,根据回归区域的不同可以分为分 区回归和移动窗口回归 ②变参数回归模型全局模型中的参数是地理位置的某 种函数,从而参数在空间中的变化趋势就可以被度量出 来 但是这两种模型都没有充分考虑数据的空间结构,就有 了GWR的提出 在总结前人局部回归分析和变参数研究的基础上, Fortheringham等人(1996)基于局部光滑的思想,提出 了地理加权回归(Geographically Weighted Regression )模型,将数据的空间位置嵌入到回归参数中,利用局 部加权最小二乘方法进行逐点参数估计,其中权是回归 点所在的地理空间位置到其他各观测点的地理空间位置 之间的距离函数地理加权回归模型地理加权回归模型是对普通线性回归模型的扩展,将 数据的地理位置嵌入到回归参数中,即:这里的 为第i个采样点的坐标(如经纬度), 是第i个采样 点上的第k个回归参数,是地理位置的函数简便记为:空间权函数的选择地理加权回归模型的核心是空间权重矩阵,它是通过 选取不同的空间权函数来表达对数据久安空间关系的 不同认识空间权函数的正确选取对地理加权回归模 型参数的正确估计非常重要,介绍常用的几种空间全 函数。

      1.距离阈值法2.距离反比法3.Gauss函数法4.截尾型函数法在实际应用中我们发现,地理加权回归分析对Gauss函数和bi- square函数的选择并不是很敏感,但是对特定权函数的宽带却 很敏感,宽带过大回归参数估计的偏差过大,宽带过小又会导 致回归参数估计的方差过大,那么如何选择一个合适的宽带呢 ? 1.交叉验证法(CV)2.AIC准则1.空间自相关性(Autocorrelation) Moran’s I和Geary’s c2.共线性 容许度(Tolerance):越接近1,共线性越小 方差膨胀因子(VIF):容许度的倒数,越接近1,共线性 越小 条件指标(Condition Index):10以下多重共线性较弱, 100以上存在严重的共线性 方差比例(Variance Proportion):同一特征值序号上的 两个或者多个系数的方差比例较大,共线性越强实验数据 研究区域:美国本土的 506个经济发展区 膀胱癌死亡率数据:国际 癌症研究所Atlas癌症死亡 率,1970-1994年,年龄 标准化死亡率(每年每10 万人) 肺癌死亡率:1954-1969年 ,年龄标准化死亡率数局 人口密度:取每年人口密 度的自然对数普通线性回归模型分析GWR模型分析现在回归系数根据经济发 展区变化而变化,通过交叉验证(VC),GWR 核函数的波段宽度的估计为1.27。

      拟合系数变为0.52,提高了拟合精度估计的系数展现出一种明显的变化,在一些地区出现了违反直觉的负相 关关系,肺癌和人口密度都是,而且。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.