应用回归分析PPT(第5版)第7章岭回归
43页1、第七章第七章 岭回归岭回归 2022/7/31 7.1 7.1 岭回归估计的定义岭回归估计的定义 7.2 7.2 岭回归估计的性质岭回归估计的性质 7.3 7.3 岭迹分析岭迹分析7.4 7.4 岭参数岭参数k k的选择的选择7.5 7.5 用岭回归选择变量用岭回归选择变量7.6 7.6 本章小结与评注本章小结与评注中国人民大学六西格玛质量管理研究中心7.1 岭回归估计的定义岭回归估计的定义2022/7/32一、普通最小二乘估计带来的问题一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例例7.17.1 假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/33 然后用模拟的方法产生10个正态随机数,作为误差项 , 见表7.1的第(3)行。然后再由回归模型 计算出10个 值,列在了表7.1的第(4)行。中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/3
2、4中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/35二、岭回归的定义二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很自然的。 当自变量间存在复共线性时,XX0,我们设想给XX加上一个正常数矩阵kI,(k0),那么XX+kI接近奇异的程度就会比XX接近奇异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/36我们称 为的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。(7.2)中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计的定义2022/7/37表表7.2中国人民大学六西格玛质量管理研究中心7.1岭回归估计的定义岭回归估计
3、的定义2022/7/38中国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/39 在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。 中国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/310中国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/311中国人民大学六西格玛质量管理研究中心7.2 岭回归估计的性质岭回归估计的性质 2022/7/312中国人民大学六西格玛质量管理研究中心7.3 岭迹分析岭迹分析 2022/7/313中国人民大学六西格玛质量管理研究中心7.3岭迹岭迹分析分析 2022/7/314中国人民大学六西格玛质量管理研究中心2022/7/315中国人民大学六西格玛质量管理研究中心2022/7/316中国人民大学六西格玛质量管理研究中心2022/7/317中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/318一、岭迹法一、岭迹法 岭迹法选择k值的一般原则是: (1)各回归系数的岭估计基本稳
4、定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。 中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/319中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/320二、方差扩大因子法二、方差扩大因子法 中国人民大学六西格玛质量管理研究中心7.4 岭参数岭参数k的选择的选择 2022/7/321三、由残差平方和来确定三、由残差平方和来确定k值值 岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)cSSE (7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/322岭回归选择变量的原则: (1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数
5、比较稳定且绝对值很小的自变量。 (2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 (3)剔除标准化岭回归系数很不稳定的自变量.如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 中国人民大学六西格玛质量管理研究中心7.5 用岭回归选择变量用岭回归选择变量2022/7/323例例7.2 空气污染问题。Mcdonald和Schwing在参考文献18中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1Average annual precipitation in inches 平均年降雨量x2Average January temperature in degrees F 1月份平均气温x3Same for July 7月份平均气温x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比x5Average household size 每
《应用回归分析PPT(第5版)第7章岭回归》由会员AZ****01分享,可在线阅读,更多相关《应用回归分析PPT(第5版)第7章岭回归》请在金锄头文库上搜索。
外教社2024魅力上海 PPT课件8.4
重大社2024《web前端技术应用》教学课件项目五 任务一 将页面转为响应式设计
外教社2024魅力上海 PPT课件7.4
重大社2024《web前端技术应用》教学课件项目五 任务二 测试网页
外教社2024魅力上海 PPT课件6.4
外教社2024魅力上海 PPT课件3.4
外教社2024魅力上海 PPT课件3.1
重大社2024《web前端技术应用》教学课件项目四 任务三 制作志愿者招募交互板块
外教社2024魅力上海 PPT课件6.1
外教社2024魅力上海 PPT课件5.1
外教社2024魅力上海 PPT课件7.1
外教社2024魅力上海 PPT课件2.3
外教社2024魅力上海 PPT课件4.3
外教社2024魅力上海 PPT课件2.4
外教社2024魅力上海 PPT课件2.2
外教社2024魅力上海 PPT课件3.2
外教社2024魅力上海 PPT课件3.3
外教社2024魅力上海 PPT课件2.1
外教社2024魅力上海 PPT课件7.3
外教社2024魅力上海 PPT课件7.2
2024-05-19 5页
2024-05-19 8页
2024-05-19 5页
2024-05-19 7页
2024-05-19 5页
2024-05-19 5页
2024-05-19 14页
2024-05-19 21页
2024-05-19 13页
2024-05-19 15页