电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

相关分析和一元线性回归课件

60页
  • 卖家[上传人]:我***
  • 文档编号:146257675
  • 上传时间:2020-09-28
  • 文档格式:PPT
  • 文档大小:478KB
  • / 60 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、第 8 章 相关分析和线性回归,8.1 变量间关系的度量 8.2 一元线性回归的估计和检验 8.3 利用回归方程进行预测 8.4 用残差检验模型的假定,*,学习目标,相关关系的分析 参数的最小二乘估计 回归直线的拟合优度 回归方程的显著性检验 利用回归方程进行预测 用残差证实模型的假定 用 SPSS 做回归分析,*,子代与父代一样吗?,Galton被誉为现代回归和相关技术的创始人。1875年,Galton利用豌豆实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较 当结果被绘制出来之后,他发现并非每一个子代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返祖”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。一个总体中在某一时期具有某一极端特征(低于或高于总体均值)的个体在未来的某一时期将减弱它的极端性(或者是单个个体或者是整个子代),这一趋势现在被称作“回归效应”。人们发现它的应用很广,而不仅限于

      2、从一代到下一代豌豆大小问题,*,子代与父代一样吗?,正如Galton进一步发现的那样,平均来说,非常矮小的父辈倾向于有偏高的子代;而非常高大的父辈则倾向于有偏矮的子代。在第一次考试中成绩最差的那些学生在第二次考试中倾向于有更好的成绩(比较接近所有学生的平均成绩),而第一次考试中成绩最好的那些学生在第二次考试中则倾向于有较差的成绩(同样比较接近所有学生的平均成绩)。同样,平均来说,第一年利润最低的公司第二年不会最差,而第一年利润最高的公司第二年则不会是最好的 如果把父代和子代看作两个变量,找出这两个变量的关系,并根据这种关系建立适当的数学模型,就可以根据父代的数值预测子代的取值,这就是经典的回归方法要解决的问题。学完本章的内容你会对回归问题有更深入的理解,*,回归分析研究什么?,研究某些实际问题时往往涉及到多个变量。在这些变量中,有一个变量是研究中特别关注的,称为因变量,而其他变量则看成是影响这一变量的因素,称为自变量 假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,那么,就可以利用这一模型根据给定的自变量来预测因变量,这就是回归要解决的问题 在回归分析中,只涉及

      3、一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linear regression);如果因变量与自变量之间是非线性关系则称为非线性回归(nonlinear regression),8.1 变量间的关系 8.1.1 变量间是什么样的关系? 8.1.2 用散点图描述相关关系 8.1.3 用相关系数度量关系强度,第 8 章 相关分析和线性回归,*,怎样分析变量间的关系?,建立回归模型时,首先需要弄清楚变量之间的关系。分析变量之间的关系需要解决下面的问题 变量之间是否存在关系? 如果存在,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变量之间的关系?,8.1.1 变量间是什么样的关系?,8.1 变量间的关系,*,函数关系,是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上,*

      4、,相关关系(几个例子),子女的身高与其父母身高的关系 从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响 一个人的收入水平同他受教育程度的关系 收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响 农作物的单位面积产量与降雨量之间的关系 在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响,*,相关关系(correlation),一个变量的取值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值对应着一个分布 各观测点分布在直线周围,8.1.2 用散点图描述相关关系,8.1 变量间的关系,*,散点图(scatter diagram),*,用散点图描述变量间的关系(例题分析),【例】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药

      5、品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系,*,散点图(销售收入和广告费用的散点图),8.1.3 用相关系数度量关系强度,8.1 变量间的关系,*,相关系数(correlation coefficient),度量变量之间线性关系强度的一个统计量 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r 也称为Pearson相关系数 (Pearsons correlation coefficient) 样本相关系数的计算公式,*,相关系数的性质,性质1:r 的取值范围是 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线性相关关系 -1r0,为负相关 0r1,为正相关 |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱,*,相关系数的性质,性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据

      6、原点及计量尺度,并不改变r数值大小 性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两个 变量之间不存在线性相关关系,并不说明变量之 间没有任何关系 性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系,*,相关系数的经验解释,|r|0.8时,可视为两个变量之间高度相关 0.5|r|0.8时,可视为中度相关 0.3|r|0.5时,视为低度相关 |r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关 上述解释必须建立在对相关系数的显著性进行检验的基础之上,*,相关系数的显著性检验(检验的步骤),1.检验两个变量之间是否存在线性相关关系 采用R.A.Fisher提出的 t 检验 检验的步骤为 提出假设:H0: ;H1: 0 计算检验的统计量 用Excel中的【TDIST】函数得双尾计算P值,并于显著性水平比较,并作出决策 若P,拒绝H0,8.2 一元线性回归的估计和检验 8.2.1 一元线性回归模型 8.2.2 参数的最小二乘估计 8.2.3 回归直线的拟合优度 8.2.4 显著性检验,第 8 章 相关分

      7、析和线性回归,8.2.1 一元线性回归模型,8.2 一元线性回归的估计和检验,*,什么是回归分析?(regression analysis),重点考察考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来 利用样本数据建立模型的估计方程 对模型进行显著性检验 进而通过一个或几个自变量的取值来估计或预测因变量的取值,*,一元线性回归,涉及一个自变量的回归 因变量y与自变量x之间为线性关系 被预测或被解释的变量称为因变量(dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 因变量与自变量之间的关系用一个线性方程来表示,*,一元线性回归模型(linear regression model),描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 一元线性回归模型可表示为 y = b0 + b1 x + e y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机

      8、变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数,*,一元线性回归模型(基本假定),因变量x与自变量y之间具有线性关系 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的 误差项 满足 正态性。 是一个服从正态分布的随机变量,且期望值为0,即 N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=0+ 1x 方差齐性。对于所有的 x 值, 的方差一个特定的值,方差也都等于都相同。同样,一个特定的x 值, y 的方差也都等于2 独立性。独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,*,估计的回归方程(estimated regression equation),总体回归参数 和 是未知的,必须利用样本数据去估计 用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程 一元线性回归中估计的回归方程为,其中: 是估计的回归直线在 y 轴上的截距

      9、, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值,8.2.2 参数的最小二乘估计,8.2 一元线性回归的估计和检验,*,参数的最小二乘估计(method of least squares ),德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,*,Karl Gauss的最小化图,x,y,(xn , yn),(x1 , y1),(x2 , y2),(xi , yi),*,参数的最小二乘估计 ( 和 的计算公式), 根据最小二乘法,可得求解 和 的公式如下,8.2.3 回归直线的拟合优度,8.2 一元线性回归的估计和检验,*,变差,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,*,误差分解图,x,y,*,误差平方和的分解 (误差平方和的关系),SST = SSR + SSE,总平方和 (SST),回归平方和 (SSR),残差平方和 (SSE),*,误差平方和的分解 (三个平方和的意义),总平方和(SSTtotal sum of squares) 反映因变量的 n 个观察值与其均值的总误差 回归平方和(SSRsum of squares of regression) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSEsum of squares of error) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,*,判定系数R2 (coefficient of determina

      《相关分析和一元线性回归课件》由会员我***分享,可在线阅读,更多相关《相关分析和一元线性回归课件》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
  • 2020届中考英语备考复习-作文课件

    2020届中考英语备考复习-作文课件

  • 2019年中考英语复习-专题十五-交际运用(试卷部分)课件

    2019年中考英语复习-专题十五-交际运用(试卷部分)课件

  • 2019届二轮复习-高中英语-情态动词和虚拟语气课件

    2019届二轮复习-高中英语-情态动词和虚拟语气课件

  • 2019届一轮复习苏教版物质的跨膜运输课件

    2019届一轮复习苏教版物质的跨膜运输课件

  • 2019年北师大版英语单元复习课件::Unit17Laughter课件北师大版选修6

    2019年北师大版英语单元复习课件::Unit17Laughter课件北师大版选修6

  • 2021届新中考物理冲刺备考复习-力-弹力-重力课件

    2021届新中考物理冲刺备考复习-力-弹力-重力课件

  • 2019届一轮复习人教版种群的特征和数量变化课件

    2019届一轮复习人教版种群的特征和数量变化课件

  • 2020年高考地理一轮复习--等高线地形图-课件

    2020年高考地理一轮复习--等高线地形图-课件

  • 2019版高考英语一轮复习-Unit-1-Living-well课件

    2019版高考英语一轮复习-Unit-1-Living-well课件

  • 2019届一轮复习人教版孟德尔的遗传定律——基因分离定律课件

    2019届一轮复习人教版孟德尔的遗传定律——基因分离定律课件

  • 2019届高三第二轮复习专题二万有引力定律及其应用课件

    2019届高三第二轮复习专题二万有引力定律及其应用课件

  • 2020最新部编版语文五年级上册23-鸟的天堂课件含课后练习

    2020最新部编版语文五年级上册23-鸟的天堂课件含课后练习

  • 2020版高考(浙江)一轮复习:第7讲-细胞呼吸课件

    2020版高考(浙江)一轮复习:第7讲-细胞呼吸课件

  • 2020年新教材高中英语UNIT4HISTORYANDTRADITIONSSectionⅢDiscoveringUsefulStructures课件必修第二册

    2020年新教材高中英语UNIT4HISTORYANDTRADITIONSSectionⅢDiscoveringUsefulStructures课件必修第二册

  • 2019届高考历史二轮复习阶段三专题十三罗斯福新政与当代资本主义的新变化课件2

    2019届高考历史二轮复习阶段三专题十三罗斯福新政与当代资本主义的新变化课件2

  • 2019版高考生物二轮复习-专题三-细胞的生命历程-考点9-细胞分裂过程图像和坐标曲线的识别课件

    2019版高考生物二轮复习-专题三-细胞的生命历程-考点9-细胞分裂过程图像和坐标曲线的识别课件

  • (通史版)2021版高考历史一轮复习第4部分高考讲座(三)2高考非选择题(12分开放探究题)规范答题讲练课件

    (通史版)2021版高考历史一轮复习第4部分高考讲座(三)2高考非选择题(12分开放探究题)规范答题讲练课件

  • 2019届高三地理复习第五讲--《区际联系与区域协调发展》课件

    2019届高三地理复习第五讲--《区际联系与区域协调发展》课件

  • 2021人教部编版历史九年级上册习题课件:第18课美国的独立

    2021人教部编版历史九年级上册习题课件:第18课美国的独立

  • 2020学年新教材高中英语Unit1FoodforthoughtPeriodTwoStartingout课件

    2020学年新教材高中英语Unit1FoodforthoughtPeriodTwoStartingout课件

  • 点击查看更多
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.