数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章 回归分析
39页1、第3章 回归分析,回归分析的目的:依靠观察数据建立变量间的相关关系,分析数据规律并用于预测或控制. 回归分析的基本内容: 线性回归分析 参数回归分析 回归分析 非线性回归分析 非参数回归分析 本章内容:线性回归分析与Logistic模型. 基本要求:掌握线性回归分析的基本方法与步骤,并能应用该方法解决一些实际问题.,3.1 线性回归模型 3.1.1 线性回归模型及其矩阵表示 线性回归模型: 对n组观察数据(样本): 其中Y是因变量, 为自变量. 是未知数; 为误差项. 它们应满足 其中 相互独立且均服从 分布.,令 则在观察数据下线性回归模型可写为如下矩阵形式 其中 ,称为设计矩阵且假定,3.1.2 参数估计 1. 的最小二乘估计 选择 使误差项的平方和 达到最小,这里约定 解方程组: 即得 的最小二乘估计为: 由 ,故 ,即 为 的一个无偏估计. 这时称 为回归方程.,2.误差方差 的估计 称 为Y拟合值.称 为残差向量,其中 . 称 为残差平方和. 由于 且 ,则有 故得 从而 为 的一个无偏估计.,3.1.3 有关的统计推断 (1) 建立方差分析表 (i) 离差平方和的分解 记
2、,则数据的总的离差平方和 反映了数据 波动的大小. 残差平方和 反映了除去Y与 之间的线性关系以外的因素引起的数据波动. 回归平方和 反映了由变量 的线性关系所引起的 波动. 可证明: SST=SSE+SSR,(ii)方差分析表 表3.1 方差分析表 其中回归平方和及残差平方和各自的自由度之比分别称为均方回归及均方残差.J表示一个元素全为1的n阶方阵.利用方差分析表可对回归方程的显著性进行检验.,(2)线性回归关系的显著性检验 至少有某个 基于上述方差分析表,构造如下检验统计量: 当 为真时,可以证明FF(p-1,n-p),这里表示自由度为p-1和n-p的F分布.给定显著水平 ,计算F的观测值 , 检验法则为: 若 ,接受 若 ,拒绝,(3)检验的p值 联在SAS软件及其它一些数据分析软件中,对显著性检验问题,其输出结果通常是检验的p-值.简单的说,检验的p-值是当 为真时,检验统计量取其观测值及更极端值的概率.对上述线性回归关系的显著性检验问题,其检验p-值为 其中 为检验统计量F 的观测值.有了p-值后,对于给定的显著水平 任何检验准则均为 若 ,拒绝 , 若 ,接受 . 这样不需
3、要查相应分布的分位数表,而直接根据p和 的大小便可判断是拒绝还是接受 .,2.回归参数的统计推断 检验假设: 注意到 ,则 令 为 的估计,则可以证明 其中 为 的主对角线上的第k个元素的平方根.若 为真 若 不真,由于 ,则 有偏大的趋势.因此,给定显著水平 ,检验准则为 若 ,则接受 , 若 ,则拒绝 .,对上述检验统计量,其p值为: 从而若 ,接受 ,反之拒绝 . 另外,由式(3.10)可求得的 置信度为 的置信度区间为: 在SAS系统中,参数估计及其各参数的检验结果以下表形式输出. 参数估计表 参数 估计值 标准差 统计量t值 p值,3.关于预报值的统计推断. 设给定了自变量的一组新观测值 ,则利用回归方程可得因变量Y的预报值为 是对应于自变量值 的一个点估计. 基于 可给出在 处的真值 的区间估计.可证明 其中 而 .因此可得 的置信度为 的置信区间为,例3.1 某公司在各地区销售一种特殊的化妆品.该公司观测了15个城市在某季度内该化妆品的销量Y以及各城市适合使用该化妆品的人数 和人均收入 ,得数据如表3.2所示(见教材94页).假设误差服从正态分布 ,试建立Y与 之间的线性
4、回归方程并讨论相关的统计推断问题. 解:建立线性回归模型 利用所给数据由 SAS PROC REG 过程得如下结果 方差分析表 方差来源 自由度 平方和 均方 F值 p值 回归 2 53844.71643 26922.35822 5679.466 0.0001 误差 12 56.88357 4.74030 总和 14 53901.60000 由p值很小可知,回归关系高度显著.,参数估计表 由此知, 与 均对Y有显著影响.回归方程为 进一步可得参数 和 的置信度为95%的置信区间分别为 若有一新城市关于 和 的值为(200,2500),则代入回归方程得Y的预报值为 其真值 的置信度为95%的置信区间为(130.602, 140.544).,例 3.2 历年农、林、牧、渔业总产值及各项产值见表3.6(教材第96页),其中 是总产值, 分别是农、林、牧、渔业产值.用date表示年份,建立 关于date, 的线性回归关系,并研究相关统计推断问题. 解: 建立线性回归模型 基于数据及 PROC REG 过程可得: 方差分析表 方差来源 自由度 平方和 均方 F值 p值 回归 4 45106073
《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章 回归分析》由会员E****分享,可在线阅读,更多相关《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章 回归分析》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页