
第九章相关与回归分析.doc
33页统计学 第九章 相关与回归分析第 1 页目 录第九章第九章 相关与回归分析相关与回归分析__________________________________________________________2第一节第一节 相关分析相关分析 _____________________________________________________________________3一、相关关系的概念及分类___________________________________________________________________3二、相关关系的识别_________________________________________________________________________4第二节第二节 一元线性回归分析一元线性回归分析 ____________________________________________________________11一、一元线性回归__________________________________________________________________________11二、参数10,的最小二乘估计 ____________________________________________________________12三、对一元回归方程的评价__________________________________________________________________14四、一元回归方程的预测区间________________________________________________________________19第三节第三节 多元线性回归分析多元线性回归分析 ____________________________________________________________21一、多元线性回归模型______________________________________________________________________21二、多元回归模型的参数估计________________________________________________________________23三、对多元线性回归方程的评价______________________________________________________________23第四节第四节 非线性回归模型非线性回归模型 ______________________________________________________________26一、直接代换法____________________________________________________________________________26二、间接代换法____________________________________________________________________________27英文摘要与关键词英文摘要与关键词 ___________________________________________________________________29习习 题题 ______________________________________________________________________________29统计学 第九章 相关与回归分析第 2 页第第九章九章 相关与回归分析相关与回归分析通过本章的学习,我们应该知道:1.如何判别相关关系2.回归分析的基本假定3.一元线性回归分析的内容4.如何做多元线性回归分析5.如何将非线性回归模型转换成线性模型统计学 第九章 相关与回归分析第 3 页相关与回归分析是现代统计学中非常重要的内容,它在自然科学、管理科学和社会经济领域有着十分广泛的应用。
本章从介绍相关分析与回归分析的基本概念与分类入手,以一元线性回归模型为基础,引出包括多元线性回归分析及非线性回归分析中模型识别、参数估计、模型检验与预测等内容在分析变量之间关系的时,常用的基本模型有两个,一是相关模型(correlation model),一是回归模型(regression model)实践中到底使用哪种模型取决于研究者的研究目的和数据的收集方式和条件在相关分析中,变量和都被视为随机变量,服从二元分布;而回归分析中,变量不是随机变量,XY),(YXx它被假定为一般变量,在事先选好的已知值中取值,变量是随机变量,在变量的给定取值处有相应Yx的观测值例如,考虑太阳镜的日销售数量与日最高气温之间的关系问题如果我们随机地选择 36YX天,记录下这 36 天的太阳镜销售量和日最高气温,,它们是来自二维总体(随机变量)),(iiYX36, 1i的独立同分布样本;在这种情况下,应用相关模型进行分析另一情况是,假如研究者决定只在),(YX 日最高气温25、30、33、35、36、37、38、39、40℃的那些天收集数据,在日最高气温为上述事先x设定的温度的那些天中随机地抽取 36 天,然后测量记录下相应的太阳镜日销售量,如在每一个日最高气温取值处,随机抽取 4 天进行测量记录;此时变量就不再是随机变量,变量是随机变量,往往应用xY回归模型进行分析。
有时这种区别并不是这么明显第一节第一节 相关分析相关分析一、相关关系的概念及分类(一)相关关系的概念(一)相关关系的概念无论是在自然界还是社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系如某种商品的销售额(y)与销售量(x)之间的关系、商品销售额(y)与广告费支出(x)之间的关系以及粮食亩产量(y)与施肥量() 、降1x雨量() 、温度()之间的关系等统计学的主要研究对象是随机变量,在多个变量的时候,至2x3x少有一个变量是随机变量,因此我们对变量之间关系的分析是随机变量之间的关系或随机变量与确定变量之间的关系变量之间的依存关系可以分为两种:一是函数关系,指变量之间保持的严格的、确定的关系如圆的面积(S)与半径之间的关系可表示为 S = ,当圆的半径 R 的值取定后,其圆的面积也随之确定二2R是相关关系,指变量之间保持着不确定的依存关系即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量 x 取某个值时,变量 y 的取值可能有几个或无穷多个例如人的身高与体重这两个变量,一般而言是相互依存的,但它们并不表现为确定的函数的关系。
因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同身高变量间的这种不严格的依存关系就构成了相关与回归分析的对象二)相关关系的分类(二)相关关系的分类统计学 第九章 相关与回归分析第 4 页1. 按相关的程度可分为按相关的程度可分为完全相关、不完全相关和不相关完全相关、不完全相关和不相关当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系当两个变量的变化相互独立、互不影响时,称这两个变量不相关(与下面的不线性相关或线性无关不同) ,实际上,这里的不相关就是(概率中的)独立,即变量间没有任何关系当变量之间存在不严格的依存关系时,称为不完全相关不完全相关关系是现实当中相关关系的主要表现形式,也是相关分析的主要研究对象2. 按相关的方向可分为正相关和负相关按相关的方向可分为正相关和负相关当一个变量随着另一个变量的增加(减少)而增加(减少) ,即两者同向变化时,称为正相关,例如家庭收入与家庭支出之间的关系,一般随着家庭收入的增加,家庭支出也会随之增加。
当一个变量随着另一个变量的增加(减少)而减少(增加) ,即两者反向变化时,称为负相关,如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少3. 按相关的形式可分为线性相关和非线性相关按相关的形式可分为线性相关和非线性相关当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称为线性相关当变量间的关系不按固定比例变化时,就称之为非线性相关上述的这些相关关系我们可以用图 9.1 来示意图 9.1 相关关系分类示意图4. 按研究变量的多少可分为单相关、偏相关和复相关按研究变量的多少可分为单相关、偏相关和复相关两个变量之间的相关,称为单相关一个变量与两个或两个以上其他变量之间的相关,称为复相关在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关变量之间的相关关系需要用相关分析方法来识别和判断相关分析,就是借助于图形和若干分析指标(如相关系数)对变量之间的依存关系的密切程度进行测定的过程二、相关关系的识别(一(一)散点图)散点图识别变量间相关关系最简单的方法是图形法所谓图形法,就是将所研究变量的观察值以散点的形统计学 第九章 相关与回归分析第 5 页式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。
例 9.1】在研究我国人均消费水平的问题时,把全国人均消费记为 y,把人均国内生产总值(人均GDP)记为 x根据数据集 01 摘录样本数据(),i =1,2,……,9,如表 9.1 所示,问两者之间存在什么iiyx ,样的相关关系表 9.1 我国人均国内生产总值与人均消费金额数据 单位:元年份人均国内生产总值人均消费金额199519961997199819992000200120022003485455766054630865517086765182149101223626412834297231383397360938184089【解】根据表 9.1,画出() ,i=1,2,.,n 的散点图,见图 9.2iiyx ,图 9.2 反映相关关系的散点图从上图中我们看到本例的样本数据()大致分别落在一条直线附近,这说明变量 x 与 y 之间具iiyx ,有明显的线性相关关系另外,所绘制的散点图呈现出从左至右的上升趋势,它表明 x 与 y 之间存在着一定的正相关关系,即随着人均 GDP 的上升,人均消费金额也会增加图形法虽然有助于识别变量间的相关关系,但它无法对这种关系进行精确的计量。
因此在初步判定变量间存在相关关系的基础上,通常还要计算相关关系的度量指标下面我们缩小研究的范围,仅仅研究两个变量间的线性线性相关关系两个变量间线性相关关系的度量指标有很多,应用最广泛的是相关系数二)相关系数(二)相关系数统计学 。
