
《相关与回归分析》PPT课件.ppt
48页统统计计学学第九章第九章 相关与回归分析相关与回归分析第一节第一节 相关分析的一般问题相关分析的一般问题第二节第二节 相关关系的判断相关关系的判断第三节第三节 回归分析的一般问题回归分析的一般问题第四节第四节 回归模型的建立与检测回归模型的建立与检测8/3/20241统统计计学学第一节第一节 相关分析相关分析一、相关分析的意义一、相关分析的意义二、相关关系的测定二、相关关系的测定8/3/20242变量间的关系变量间的关系n变量间的关系有两种类型:函数关系和相关关系变量间的关系有两种类型:函数关系和相关关系n函数关系函数关系——n是一一对应的确定关系是一一对应的确定关系n设设有有两两个个变变量量 x 和和 y ,,变变量量 y 完完全全依依赖赖于于 x ,,则则称称 y 是是 x 的的函函数数,,记记为为 y = f (x),,其其中中 x 称称为为自变量,自变量,y 称为因变量称为因变量n例如:例如:n圆的面积(圆的面积(S))与半径之间的关系可表示为与半径之间的关系可表示为S = R2 ;;n某某种种商商品品的的销销售售额额(y)与与销销售售量量(x)之之间间的的关关系系可可表表示示为为 y = p x (p 为单价为单价)8/3/20243相关关系相关关系——n变变量量间间确确实实存存在在、、但但数数量量上上不不固固定定的的相相互互依依存存。
这这种种关关系系不不能能用用函函数数关关系系精精确确表达;表达;n一一个个变变量量的的取取值值不不能能由由另另一一个个变变量量惟惟一一地地确确定定;;当当变变量量 x 取取某某个个值值时时,,与与之之相相关的变量关的变量 y 的取值可能有若干个;的取值可能有若干个;n各观测点分布在一条直线或曲线周围各观测点分布在一条直线或曲线周围.8/3/20244相关关系的例子相关关系的例子§商商品品的的消消费费量量( (y y) )与与居居民民收收入入( (x x) )之之间间的的关关系系§商商品品销销售售额额( (y y) )与与广广告告费费支支出出( (x x) )之之间间的的关关系系§粮粮食食亩亩产产量量( (y y) )与与施施肥肥量量( (x x1 1) ) 、、降降雨雨量量( (x x2 2) ) 、、温度温度( (x x3 3) )之间的关系之间的关系§收入水平收入水平( (y y) )与受教育程度之间的关系与受教育程度之间的关系( (x x) )§父亲身高父亲身高( (y y) )与子女身高与子女身高( (x x) )之间的关系之间的关系§…………8/3/20245v相关关系的特点(见相关关系的特点(见154页)页)v相关关系和函数关系,既有联系又有区相关关系和函数关系,既有联系又有区别。
在实际工作中,对表现为函数关系别在实际工作中,对表现为函数关系的现象的测量由于种种原因,每次观测的现象的测量由于种种原因,每次观测值都不可能完全相同,这时函数关系就值都不可能完全相同,这时函数关系就表现为相关关系在研究相关关系时,表现为相关关系在研究相关关系时,又常常要用函数形式来表现,以便得到又常常要用函数形式来表现,以便得到相关关系的一般数量表达式形式因此,相关关系的一般数量表达式形式因此,相关关系是相关分析的研究对象,函数相关关系是相关分析的研究对象,函数关系是相关分析的必要工具关系是相关分析的必要工具8/3/20246相关关系的类型相关关系的类型1、按相关关系涉及的因素多少分为:、按相关关系涉及的因素多少分为:•单相关单相关——一元相关,两变量间的相关关系;一元相关,两变量间的相关关系;•复相关复相关——多元相关,三个(或以上)变量间的相多元相关,三个(或以上)变量间的相关关系;关关系;2、按相关的表现形态分为:、按相关的表现形态分为:•直线相关直线相关——观察点的分布大致呈现为一条直线;观察点的分布大致呈现为一条直线;•曲线相关曲线相关——观察点的分布大致呈现为一条曲线观察点的分布大致呈现为一条曲线8/3/20247n3、按相关方向分为:、按相关方向分为:n正相关正相关——两变量大体上呈同方向变化;两变量大体上呈同方向变化;n负相关负相关——两变量大体上呈反方向变化。
两变量大体上呈反方向变化n4、按相关密切程度分:、按相关密切程度分:n完全相关完全相关——两变量间有确定函数关系两变量间有确定函数关系n不完全相关不完全相关——两变量不存在严格函数关系两变量不存在严格函数关系n不相关不相关——当一个变量变化,另一个变量不当一个变量变化,另一个变量不变化或呈不规则变化或没有依存关系变化或呈不规则变化或没有依存关系8/3/20248二、相关关系的测定二、相关关系的测定进行相关分析的一般程序:进行相关分析的一般程序:•定性分析定性分析•定量分析定量分析•相关表和相关图相关表和相关图相关表和相关图相关表和相关图•计算相关系数与判定系数计算相关系数与判定系数计算相关系数与判定系数计算相关系数与判定系数8/3/20249(一)相关表和相关图(一)相关表和相关图n相关表相关表——将一个变量按大小顺序排序,将一个变量按大小顺序排序,另一个变量对应排列而成的表格见另一个变量对应排列而成的表格见P156表表9--1))n相关图相关图——也称为散点图一对数据对应坐也称为散点图一对数据对应坐标图上一个点,将成对的观察数据表现为坐标图上一个点,将成对的观察数据表现为坐标图的散点而形成的图。
见标图的散点而形成的图见P158图图9—1))n编制相关表、图的意义编制相关表、图的意义——有助于有助于分析者判分析者判断断 相关的有无、方向、形态、密切程度相关的有无、方向、形态、密切程度8/3/202410相关关系的图示相关关系的图示完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 不相关不相关不相关不相关不相关不相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关8/3/202411(二)相关系数和判定系数(二)相关系数和判定系数1.都是对变量之间关系密切程度的度量;都是对变量之间关系密切程度的度量;2.判定系数判定系数=相关系数的平方;相关系数的平方;3.不同类型的相关不同类型的相关,相关系数的计算方法也不同相关系数的计算方法也不同.n对对两两个个变变量量之之间间线线性性相相关关程程度度的的度度量量称称为为简简单单相相关系数关系数(也称(也称直线相关系数直线相关系数)),常简称相关系数常简称相关系数.n此此外外还还有有复复相相关关系系数数、、非非线线性性相相关关系系数数、、偏偏相相关关系系数数n3. 有总体相关系数与样本相关系数之分:有总体相关系数与样本相关系数之分:•总体相关系数总体相关系数ρ——根据总体数据计算的,根据总体数据计算的,•样本相关系数样本相关系数 r ——根据样本数据计算的。
根据样本数据计算的8/3/202412相关关系的计算公式相关关系的计算公式或化简为见见P161公式〔公式〔9--2〕〕8/3/202413相关系数取值及其意义相关系数取值及其意义1. r 的取值范围是的取值范围是 [-1,1]2.|r|=1,,为完全相关;为完全相关;nr =1=1,,为为完全正相关完全正相关nr =-1=-1,,为完全负相关为完全负相关3. r = 0,,不存在不存性相关线性相关关系相关;关系相关;4.-1 r <0,,为为负负相相关关;;0 才进一步进行相关分析8/3/202415统统计计学学第三节 回归分析的一般问题一. 回归分析的意义回归分析的意义二二.一元线性回归方程的确定一元线性回归方程的确定三三.回归估计的标准差回归估计的标准差8/3/202416一、回归分析的意义一、回归分析的意义1.从从一一组组样样本本数数据据出出发发,,确确定定变变量量之之间间的的数数学学关系式关系式——建立回归模型建立回归模型;;n借助于数学模型来表达变量之间的平均数量关系借助于数学模型来表达变量之间的平均数量关系2.对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验并并从从某某一一特特定定变变量量的的诸诸多多影影响响因因素素((变变量量))中找出哪些变量的影响显著,哪些不显著;中找出哪些变量的影响显著,哪些不显著;3.利利用用所所求求的的关关系系式式,,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特特定定变变量量的的取取值值,,并给出这种预测或控制的精确程度并给出这种预测或控制的精确程度8/3/202417回归分析与相关分析的区别回归分析与相关分析的区别1.相相关关分分析析中中,,变变量量 x、、 变变量量 y 处处于于平平等等地地位位。 回回归归分分析析中中,, y 为为因因变变量量,,处处在在被被解解释释的的地地位位;;x 为自变量,用于解释和预测因变量的变化为自变量,用于解释和预测因变量的变化2.2. 相相关关分分析析中中所所涉涉及及的的变变量量 x 和和 y 都都是是随随机机变变量量;;回回归归分分析析中中,,因因变变量量y 是是随随机机变变量量,,自自变变量量 x 可以是随机变量,也可以是非随机的确定变量可以是随机变量,也可以是非随机的确定变量3.3. 相相关关分分析析主主要要描描述述两两个个变变量量之之间间相相关关关关系系的的密密切切程程度度;;回回归归分分析析揭揭示示变变量量之之间间数数量量变变动动的的统统计计规规律律性性((不不仅仅可可以以由由回回归归方方程程揭揭示示变变量量 x 对对变变量量 y 的平均影响大小,还可以进行预测和控制的平均影响大小,还可以进行预测和控制 )8/3/202418回归模型的类型回归模型的类型 回归模型(方程)回归模型(方程)——来表达变量之间的平来表达变量之间的平均数量关系的数学模型该模型中包含:均数量关系的数学模型该模型中包含:n n1 1 个因变量(被解释变量,通常为数值型的)个因变量(被解释变量,通常为数值型的)个因变量(被解释变量,通常为数值型的)个因变量(被解释变量,通常为数值型的) n n1 1 个或多个自变量个或多个自变量个或多个自变量个或多个自变量 ( (解释变量,通常为数值型的解释变量,通常为数值型的解释变量,通常为数值型的解释变量,通常为数值型的或分类的或分类的或分类的或分类的) )n n包含一个自变量的回归模型称为一元回归模型;包含一个自变量的回归模型称为一元回归模型;包含一个自变量的回归模型称为一元回归模型;包含一个自变量的回归模型称为一元回归模型;n n包含多个自变量的回归模型称为多元回归模型。 包含多个自变量的回归模型称为多元回归模型包含多个自变量的回归模型称为多元回归模型包含多个自变量的回归模型称为多元回归模型按模型形态分,有线性回归和非线性回归按模型形态分,有线性回归和非线性回归8/3/202419二、一元线性回归方程的确定二、一元线性回归方程的确定Æ具具有有线线性性相相关关关关系系的的两两个个变变量量的的关关系系可可表示为:表示为:Æ y = α + + x n线线性性部部分分反反映映了了由由于于 x 的的变变化化而而引引起起的的 y 的变化的变化.nα 和和 称为模型的两个待定参数称为模型的两个待定参数8/3/202420(总体)回归方程(总体)回归方程1.描描述述 y 的的平平均均值值或或期期望望值值如如何何依依赖赖于于 x 的的方方程称为程称为(总体的)总体的)回归方程;回归方程;2.一元线性(总体)回归方程的形式如下:一元线性(总体)回归方程的形式如下:3. E( y ) = α + x§方程的图示是一条直线,因此也称为直线回归方程方程的图示是一条直线,因此也称为直线回归方程方程的图示是一条直线,因此也称为直线回归方程方程的图示是一条直线,因此也称为直线回归方程§α α 是是是是回回回回归归归归直直直直线线线线在在在在 y y 轴轴轴轴上上上上的的的的截截截截距距距距,,,,是是是是当当当当 x x=0 =0 时时时时 y y 的的的的期期期期望值,是回归直线是起始值;望值,是回归直线是起始值;望值,是回归直线是起始值;望值,是回归直线是起始值;§ 是是是是直直直直线线线线的的的的斜斜斜斜率率率率,,,,表表表表示示示示当当当当 x x 每每每每变变变变动动动动一一一一个个个个单单单单位位位位时时时时,,,,y y 的平均变动值。 的平均变动值的平均变动值的平均变动值8/3/202421样本样本(估计的、经验的(估计的、经验的) )回归回归方方程程1.总总体体回回归归参参数数α和和 是是未未知知的的,,我我们们必必须须利用样本数据去估计它们;利用样本数据去估计它们;2.用用样样本本统统计计量量 a、、b代代替替回回归归方方程程中中的的未未知知参参数数α和和 ,,就就得得到到了了样样本本回回归归方方程程((估估计计的回归方程):的回归方程):拟合估计方程,就是要估计方程的参数拟合估计方程,就是要估计方程的参数a、、b8/3/202422估计参数的估计参数的最小二乘法最小二乘法最小平方法(最小平方法(L S ))2.可用于直线回归,也可用于曲线回归可用于直线回归,也可用于曲线回归3.用用最最小小平平方方法法拟拟合合的的直直线线来来代代表表x与与y之之间间的的关关系系,,所所产产生生的的估估计计值值与与实实际际值值的的误误差差要要比比其他任何直线的误差都小其他任何直线的误差都小1. 最小平方法最小平方法——使因变量的观察值与估计值之间使因变量的观察值与估计值之间的离差平方和达到最小来求得的离差平方和达到最小来求得 a和和b的方法,即:的方法,即:8/3/202423a 和和 b 的计算公式的计算公式根根据据最最小小平平方方法法的的原原则则,,利利用用微微分分求求解解极极值值((最最优优值值))的的原原理理,,可可得得求求解解 a 和和 b 的的标标准准方方程程组如下:组如下:8/3/202424三、回归估计标准误差三、回归估计标准误差 n(一)回归估计标准误差的概念(一)回归估计标准误差的概念n实实际际观观察察值值y与与估估计计值值 之之间间差差异异的的平平均均程程度度,,是是用用来来说说明明回回归归方方程程推推算算结结果果 的的 准准 确确 程程 度度 或或 可可 靠靠 性性 的的 分分 析析 指指 标标 ,, 用用 表表 示示n计计算算公公式式为为((P166页页9-8))和和((P166页页9-9):):8/3/202425回归估计标准差的作用回归估计标准差的作用 回归估计标准差反映的是因变量各实际值与其回归估计标准差反映的是因变量各实际值与其回归估计标准差反映的是因变量各实际值与其回归估计标准差反映的是因变量各实际值与其回归估计值之间的平均差异程度;回归估计值之间的平均差异程度;回归估计值之间的平均差异程度;回归估计值之间的平均差异程度; 表明其估计值对各实际值的代表性的强弱,其表明其估计值对各实际值的代表性的强弱,其表明其估计值对各实际值的代表性的强弱,其表明其估计值对各实际值的代表性的强弱,其值越小,估计值(或回归方程)的代表性越强,用值越小,估计值(或回归方程)的代表性越强,用值越小,估计值(或回归方程)的代表性越强,用值越小,估计值(或回归方程)的代表性越强,用回归方程估计或预测的结果越准确。 回归方程估计或预测的结果越准确回归方程估计或预测的结果越准确回归方程估计或预测的结果越准确1.说明了回归直线的拟合程度(衡量回归方程的说明了回归直线的拟合程度(衡量回归方程的代表性,代表性,测定回归估计的精度测定回归估计的精度测定回归估计的精度测定回归估计的精度););2.反映实际观察值在回归直线周围的分散状况;反映实际观察值在回归直线周围的分散状况;8/3/202426回归估计标准误差回归估计标准误差 与一般的与一般的标准差的异同标准差的异同n从计算公式可见:从计算公式可见:n同:都是离差的平方的平均数的同:都是离差的平方的平均数的 平方根;平方根; n 反映平均差异程度;反映平均差异程度;n 衡量代表性大小衡量代表性大小n主要区别:与什么的离差、差异;主要区别:与什么的离差、差异;n 衡量谁的代表性衡量谁的代表性 8/3/202427回归估计标准差与相关系数的关回归估计标准差与相关系数的关系系n大样本条件下,近似地:大样本条件下,近似地:n 或:或:见见P167公式公式〔〔9—11〕〕8/3/202428相关系数与回归系数的关系相关系数与回归系数的关系n见见167页〔例页〔例9--3〕〕8/3/202429第三节第三节 线性相关的显著性检验线性相关的显著性检验n检验两个变量之间是否存性相关关系,检验两个变量之间是否存性相关关系,包括两个方面的检验:包括两个方面的检验:n1. 对相关系数对相关系数 r 的显著性检验;的显著性检验;n对回归系数对回归系数 的显著性检验;的显著性检验;n 对于一元线性相关而言,二者等价。 对于一元线性相关而言,二者等价8/3/202430例例v根据下表提供的资料确定直线回归方程,根据下表提供的资料确定直线回归方程,计算估计标准误差计算估计标准误差企业编号生产性固定资产价值总产值 1 318 524 2 9201019 3 200 638 4 409 215 5 415 913企业编号生产性固定资产价格总产值 6 502 928 7 314 603 8 12101516 9 10221219 10 122516248/3/202431解解n第第1步:应先确定自变量和因变量按本步:应先确定自变量和因变量按本题所述,生产性固定资产价值为自变量,题所述,生产性固定资产价值为自变量,总产值为因变量总产值为因变量n第第2步:对数据进行下列计算步:对数据进行下列计算::8/3/202432((续)续)n回归参数中:回归参数中:n 8/3/202433((续)续)n第第3步:计算估计标准误差用公式:步:计算估计标准误差用公式:8/3/202434练习题练习题n一、判断题一、判断题n1、在计算相关系数时,要求两个变量都、在计算相关系数时,要求两个变量都是随机的;在回归分析中,要求因变量是随机的;在回归分析中,要求因变量是随机的,自变量是非随机的。 是随机的,自变量是非随机的 ))n2、变量、变量X和变量和变量Y之间存在相关关系,之间存在相关关系,当当X按固定数额增加时,相应地,变量按固定数额增加时,相应地,变量Y按大致固定的数额减小,说明两变量之按大致固定的数额减小,说明两变量之间存在着负直线相关关系间存在着负直线相关关系 ))8/3/202435((续)续)n3、相关系数的数值越大;说明相关程度越高,、相关系数的数值越大;说明相关程度越高,相关系数的数值越小,说明相关程度越低相关系数的数值越小,说明相关程度越低 ))n4、变量之间相关关系的形式可能是多种多样、变量之间相关关系的形式可能是多种多样的,变量间线性相关系数的大小,只能说明变的,变量间线性相关系数的大小,只能说明变量间直线相关的方向和程度量间直线相关的方向和程度n (( ))n5.估计标准误差的大小与因变量的方差无关估计标准误差的大小与因变量的方差无关 )8/3/202436二、单项选择题二、单项选择题n1、当变量、当变量X按一定数额变化时,变量按一定数额变化时,变量Y也也随之近似地按一定数额变化,这时,变量随之近似地按一定数额变化,这时,变量X和和Y之间存在着(之间存在着( )关系。 关系n A、、正相关正相关 B、、负相关负相关n C、、直线相关直线相关 D、、曲线相关曲线相关n2、若变量、若变量X增加时,变量增加时,变量Y的值也增加,的值也增加,那么变量那么变量X和和Y之间存在着(之间存在着( )关系n A、、正相关正相关 B、、负相关负相关n C、、直线相关直线相关 D、、曲线相关曲线相关CA8/3/202437((续)续)n3、如果两变量之间的相关系数为-、如果两变量之间的相关系数为-1,,说明两变量之间存在(说明两变量之间存在( )关系n A、、无相关无相关 B、、低度相关低度相关n C、、高度相关高度相关 D、、完全相关完全相关n4、在回归分析中,自变量同因变量地位、在回归分析中,自变量同因变量地位不同,两变量不同,两变量X与与Y中,中,Y倚倚X回归同回归同X倚倚Y回归是(回归是( ))n A、、同一个问题同一个问题 B、、有联系但意义有联系但意义不同的问题不同的问题 C、、一般情况下是相同的一般情况下是相同的问题问题 D、、是否相同,视两相关变量的是否相同,视两相关变量的具体内容而定。 具体内容而定DB8/3/202438((续)续)n5、已知某企业棉大衣产量和生产成本有直、已知某企业棉大衣产量和生产成本有直接关系,具体说来,是直接相关关系,当产接关系,具体说来,是直接相关关系,当产量为量为1000件时,其生产成本为件时,其生产成本为30000元,元,其中不变成本为其中不变成本为6000元该企业总生产成元该企业总生产成本倚产量的回归方程应是(本倚产量的回归方程应是( )n A8/3/2024398/3/202440第四节第四节 可线性化的曲线回归方可线性化的曲线回归方程(程(非线性回归)非线性回归)n一、配合回归曲线的问题一、配合回归曲线的问题1.通通过过定定性性分分析析或或散散点点图图判判断断变变量量之之间间的的曲曲线线相相关形态,选择曲线模型;关形态,选择曲线模型;n2.可可通通过过变变量量代代换换将将曲曲线线模模型型转转换换成成线线性性形式;形式;3.用用最最小小二二乘乘法法求求出出线线性性模模型型中中参参数数的的估估计计值值,,再转换为原曲线模型的参数的估计值再转换为原曲线模型的参数的估计值4.((注:并非所有的非线性模型都可以化为线性模型注:并非所有的非线性模型都可以化为线性模型))8/3/202441可线性化的常用曲线模型可线性化的常用曲线模型2.线性化方法:令:令:y y' ' = 1/ = 1/y y,,x x' '= 1/= 1/x x, , 则有则有y y' ' = = + + x x' '(一(一 )双曲线)双曲线1.基本形式: 1/1/y y= = + + / /x x3.图 < 0< 0 > 0> 08/3/2024422.线性化方法:两端取对数两端取对数 lglg y y = = lglg + + lglg x x§令:令:y y' ' = = lglgy y,,x x' '= = lglg x x,,则则y y' ' = = lglg + + x x' '(二)幂函数(二)幂函数•基本形式:3.图0<0< < 1< 1 1 1 = 1= 1-1<-1< <0 <0 < -1 < -1 = -1 = -1 8/3/202443n(三)(三) 指数函数指数函数2.线性化方法:两端取对数得两端取对数得 lnlny y = = lnln + + x x§ 令:令:y y‘ ‘ = = lnlny y,,则有则有 y y' ' = = lnln + + x x1.基本形式:3.图 8/3/2024442.线性化方法§令:令:y y' ' = 1/ = 1/y y,,x x' '= e= e- -x x, , 则有则有y y' ' = = + + x x' '(四)(四)S型曲线型曲线•基本形式:3.图8/3/202445三、非线性判定系数与相关系数三、非线性判定系数与相关系数n(一)非线性判定系数(一)非线性判定系数 R R2 2n 值域:值域:((0 0,,1 1),越接近),越接近1 1表示非表示非线性相关程度越强,所配合的曲线回线性相关程度越强,所配合的曲线回归模型拟合效果越好。 归模型拟合效果越好8/3/202446n(二)非线性相关系数((二)非线性相关系数(相关指数相关指数))R Rn非线性判定系数的平方根非线性判定系数的平方根n测定两变量间曲线相关的密切程度,衡量测定两变量间曲线相关的密切程度,衡量曲线曲线回归模型的拟合效果回归模型的拟合效果 n不能判明相关方向(用于直线时,通过其他方不能判明相关方向(用于直线时,通过其他方法确定相关系数的正负)法确定相关系数的正负)n注:注:衡量衡量曲线回归模型的拟合效果还可以采用回归估计曲线回归模型的拟合效果还可以采用回归估计标准误差标准误差8/3/202447本章学习要求本章学习要求1.弄清相关关系的概念、种类;弄清相关关系的概念、种类;2.掌握相关系数的计算方法和应用;掌握相关系数的计算方法和应用;3.掌握一元线性回归的基本原理和参数的最掌握一元线性回归的基本原理和参数的最小二乘估计方法;小二乘估计方法;4.掌握相关系数或回归方程的显著性检验;掌握相关系数或回归方程的显著性检验;5.利用回归方程进行预测;利用回归方程进行预测;6.了解可化为线性回归的曲线回归了解可化为线性回归的曲线回归7.用用 Excel 进行回归分析进行回归分析8/3/202448。












