
统计学原理:第8章 现象间的相关分析.ppt
91页第八章第八章 现象间的相关分析现象间的相关分析目录目录相关分析的概念和内容1相关分析指标的测定2一元线性回归分析3多元回归与曲线回归分析4广义的相关分析包括狭义的相关分析和回归分析;广义的相关分析包括狭义的相关分析和回归分析; Ø狭义的相关分析仅揭示现象之间的联系形态、联系狭义的相关分析仅揭示现象之间的联系形态、联系方向和联系程度(以下所称的方向和联系程度(以下所称的““相关分析相关分析””一般指狭一般指狭义的相关分析);义的相关分析);Ø回归分析则是在狭义相关分析的基础上,把相互联回归分析则是在狭义相关分析的基础上,把相互联系和相互影响的事物区分为影响因素和被影响因素,系和相互影响的事物区分为影响因素和被影响因素,进一步揭示一事物影响另一事物变动的一般水平进一步揭示一事物影响另一事物变动的一般水平一、相关关系的概念一、相关关系的概念相关关系的特点:相关关系的特点:•就事物质的规定性而言,变量之间确实存在相互依存关系,就事物质的规定性而言,变量之间确实存在相互依存关系,即一个变量发生变化,另一个变量必然会相应地发生变化即一个变量发生变化,另一个变量必然会相应地发生变化 •就事物量的规定性而言,变量之间的依存关系表现为一定就事物量的规定性而言,变量之间的依存关系表现为一定的范围,其具体数值不是惟一确定的。
的范围,其具体数值不是惟一确定的 相关关系与函数关系的区别与联系:区别:区别:凡现象之间的关系值是惟一确定的就属于函数关系;凡现象之间凡现象之间的关系值是惟一确定的就属于函数关系;凡现象之间的关系值不是惟一确定的则属于相关关系的关系值不是惟一确定的则属于相关关系联系:联系:l由于在观察或测量中存在误差等原因,实际工作中的函数关系有由于在观察或测量中存在误差等原因,实际工作中的函数关系有时通过相关关系表现出来;时通过相关关系表现出来;l在研究相关关系时又常常借用函数关系的形式近似地将它表达出在研究相关关系时又常常借用函数关系的形式近似地将它表达出来,以便找到相关关系的一般数量特征来,以便找到相关关系的一般数量特征l当随机因素不存在时,相关关系就转化为函数关系因此,函数当随机因素不存在时,相关关系就转化为函数关系因此,函数关系是相关关系的特例关系是相关关系的特例 一、相关关系的概念一、相关关系的概念二、相关关系的判断二、相关关系的判断测定相关关系之前,一般在理论分析的基础上测定相关关系之前,一般在理论分析的基础上还要利用相关表和相关图粗略地判断现象之间的还要利用相关表和相关图粗略地判断现象之间的相关程度和相关形态。
相关程度和相关形态一般的简单相关表是将具有相关关系的两个变一般的简单相关表是将具有相关关系的两个变量值按其中一个的大小顺序排列,另一个依其对量值按其中一个的大小顺序排列,另一个依其对应关系编排而成的统计表应关系编排而成的统计表例8-1假定已知某地区假定已知某地区20002000~~20072007年居民货币收入和购买商品支出年居民货币收入和购买商品支出的统计资料,据此可编制简单相关表如下:的统计资料,据此可编制简单相关表如下:二、相关关系的判断二、相关关系的判断 相关图也称相关散点图或散点图,是将具有相关图也称相关散点图或散点图,是将具有相关关系的两个变量值描绘在坐标图上,以横轴相关关系的两个变量值描绘在坐标图上,以横轴表示自变量,纵轴表示因变量,按两变量的对应表示自变量,纵轴表示因变量,按两变量的对应值标出坐标点的分布状况的统计图它是粗略观值标出坐标点的分布状况的统计图它是粗略观察现象之间相关程度和相关形态的一种有效工具,察现象之间相关程度和相关形态的一种有效工具,它为测定相关关系奠定有效基础它为测定相关关系奠定有效基础 二、相关关系的判断二、相关关系的判断例8-2依据表依据表8.18.1的统计资料,可绘制相关散点图如下:的统计资料,可绘制相关散点图如下: 二、相关关系的判断二、相关关系的判断三、相关关系的种类三、相关关系的种类(一)按影响因素的多少分为单相关和复相关(二)按相关的表现形态分为线性相关和曲线相关Ø线性相关也称直线相关,指相互依存的变量之间的变动近似地线性相关也称直线相关,指相互依存的变量之间的变动近似地表现为一条直线的关系。
运用相关散点图进行观察,表现为一条直线的关系运用相关散点图进行观察,Ø曲线相关也称非线性相关,指相互依存的变量之间的变动近似曲线相关也称非线性相关,指相互依存的变量之间的变动近似地表现为一条曲线,具体分析时,也可以通过相关散点图来描述地表现为一条曲线,具体分析时,也可以通过相关散点图来描述 三、相关关系的种类三、相关关系的种类三、相关关系的种类三、相关关系的种类三、相关关系的种类三、相关关系的种类(三)按线性相关的变动方向分为正相关和负相关(三)按线性相关的变动方向分为正相关和负相关Ø正相关是指自变量的数值增加(或减少)时,因变正相关是指自变量的数值增加(或减少)时,因变量的数值也相应地增加(或减少),即自变量与因变量的数值也相应地增加(或减少),即自变量与因变量的变化方向具有一致性量的变化方向具有一致性Ø负相关是指自变量数值增加时,因变量数值减少;负相关是指自变量数值增加时,因变量数值减少;或自变量数值减少时,因变量的数值增加,即自变量或自变量数值减少时,因变量的数值增加,即自变量与因变量的变化方向具有不一致性与因变量的变化方向具有不一致性 四、相关分析的主要内容四、相关分析的主要内容(一)判断现象之间的相关状态(一)判断现象之间的相关状态 (二)衡量现象相关的密切程度(二)衡量现象相关的密切程度(三)确定相关关系的数学表达式(三)确定相关关系的数学表达式(四)检验因变量估计值的误差(四)检验因变量估计值的误差一、相关指标的选择与列联表一、相关指标的选择与列联表(一)相关指标的选择l要注意变量的测量层次,是定类层次、定序层次、还要注意变量的测量层次,是定类层次、定序层次、还是定距层次。
是定距层次l要注意变量间关系的对称性要注意变量间关系的对称性l要注意分析指标是否具有消减误差比例的意义要注意分析指标是否具有消减误差比例的意义一、相关指标的选择与列联表一、相关指标的选择与列联表一、相关指标的选择与列联表一、相关指标的选择与列联表(二)列联表是由两个或两个以上的变量构成的交叉分类频数(或频是由两个或两个以上的变量构成的交叉分类频数(或频率)分布表,也称交互分类表率)分布表,也称交互分类表 一、相关指标的选择与列联表一、相关指标的选择与列联表例8-3为了研究青年人的受教育程度和愿望之间的关系,随机抽取为了研究青年人的受教育程度和愿望之间的关系,随机抽取200200名青年人进行调查,其数据如表名青年人进行调查,其数据如表8.28.2所示 一、相关指标的选择与列联表一、相关指标的选择与列联表条件次数表条件次数表l表下端的合计数与表的右端合计数,称为边缘次数,表下端的合计数与表的右端合计数,称为边缘次数,其分布情况称为边缘分布其分布情况称为边缘分布l表中的其他次数,称为条件次数,表示在自变量每个表中的其他次数,称为条件次数,表示在自变量每个值(条件)的情况下因变量的各个值的次数。
值(条件)的情况下因变量的各个值的次数 一、相关指标的选择与列联表一、相关指标的选择与列联表例8-4依据表依据表8.28.2的资料编制而成的条件百分表如下的资料编制而成的条件百分表如下 二、二、LambdaLambda、、Tau-yTau-y相关测量法相关测量法(一)Lambda相关测量法LambdaLambda相关测量法又称为格特曼可预测度系数,根据相关测量法又称为格特曼可预测度系数,根据分析对象的不同,即变量关系是否对称,分系数和系分析对象的不同,即变量关系是否对称,分系数和系数两种形式数两种形式1. 1. 系数系数 例8-5为了研究青年人与其知心朋友的愿望是否有关,随机抽取青为了研究青年人与其知心朋友的愿望是否有关,随机抽取青年人及其知心朋友各年人及其知心朋友各100100名进行调查,其数据如表名进行调查,其数据如表8.48.4所示:所示: 计算结果表明,青年人与其知心朋友可能在许多方面有着共同的情趣和爱计算结果表明,青年人与其知心朋友可能在许多方面有着共同的情趣和爱好,但在好,但在““快乐家庭快乐家庭””、、““理想工作理想工作””、、““增广见闻增广见闻””三个方面只有三个方面只有47%47%的共同看法,如果以这两个变量相互预测,可以消减的共同看法,如果以这两个变量相互预测,可以消减47%47%的误差。
的误差二、二、LambdaLambda、、Tau-yTau-y相关测量法相关测量法例8-6为了研究青年人的愿望是否男女有别,随机抽取为了研究青年人的愿望是否男女有别,随机抽取100100名青年名青年人进行调查,其数据如表人进行调查,其数据如表8.58.5所示:所示:计算结果表明,性别是影响青年人愿望的一个不可忽视的因素,但不是决计算结果表明,性别是影响青年人愿望的一个不可忽视的因素,但不是决定的因素,它们之间的相关性只有定的因素,它们之间的相关性只有40%40%,如果用性别预测青年人的在,如果用性别预测青年人的在““快快乐家庭乐家庭””、、““理想工作理想工作””、、 ““增广见闻增广见闻””三个方面,只能消减三个方面,只能消减40%40%的误差二、二、LambdaLambda、、Tau-yTau-y相关测量法相关测量法LambdaLambda相关测量法的特点:l以众值(即最多的次数)作为相关分析的准则,不考以众值(即最多的次数)作为相关分析的准则,不考虑众值以外的次数分布;虑众值以外的次数分布;l仅用仅用Lambda系数测量两个定类现象之间的相关关系是系数测量两个定类现象之间的相关关系是不够的,还必须学习和掌握其他的统计分析方法。
不够的,还必须学习和掌握其他的统计分析方法(二)(二)Tau-yTau-y相关测量法相关测量法Tau-yTau-y相关测量法是一种不对称的相关测量法,即在相关相关测量法是一种不对称的相关测量法,即在相关分析中,必须区分自变量分析中,必须区分自变量x x和因变量和因变量y yTau-yTau-y相关测量法是计算相关测量法是计算tau-ytau-y系数,其计算公式为:系数,其计算公式为:例8-7计算结果表明,性别与青年人的愿望之间只有计算结果表明,性别与青年人的愿望之间只有22.4%22.4%的相关性,的相关性,如果用性别预测青年人的愿望,只能消减如果用性别预测青年人的愿望,只能消减22.4%22.4%的误差这与的误差这与系数计算的结果系数计算的结果0.400.40相差相差17.617.6个百分点,个百分点,三、三、GammaGamma、、DyxDyx相关测量法相关测量法(一)GammaGamma相关测量法例8-8有有4 4名学生的数学成绩与中文成绩如表名学生的数学成绩与中文成绩如表8.6 8.6 计算结果表明,这计算结果表明,这4 4名学生的数学成绩与中文成绩之间有一定程度的名学生的数学成绩与中文成绩之间有一定程度的负相关,即数学成绩较好的、可能中文成绩较差,中文成绩较好的、负相关,即数学成绩较好的、可能中文成绩较差,中文成绩较好的、可能数学成绩较差。
如果用数学成绩推测中文成绩,或者用中文成绩可能数学成绩较差如果用数学成绩推测中文成绩,或者用中文成绩推测数学成绩只有推测数学成绩只有33%33%的可信度的可信度三、三、GammaGamma、、DyxDyx相关测量法相关测量法(二)DyxDyx相关测量法三、三、GammaGamma、、DyxDyx相关测量法相关测量法DyxDyx相关测量法与GammaGamma相关测量法异同:l基本思想相同,是依据变量之间的同序对数和异序对基本思想相同,是依据变量之间的同序对数和异序对数的差距来测量现象之间的相关性;数的差距来测量现象之间的相关性;l不同的是不同的是Gamma相关测量法适用于对称性变量,相关测量法适用于对称性变量,Dyx相相关测量法适用于非对称性变量,即以自变量推断因变量关测量法适用于非对称性变量,即以自变量推断因变量 三、三、GammaGamma、、DyxDyx相关测量法相关测量法例8-9为了研究受教育程度与经济收入的关系,在某行业中随机为了研究受教育程度与经济收入的关系,在某行业中随机抽取抽取100100名职员进行调查,其数据如表名职员进行调查,其数据如表8.78.7所示:所示: 三、三、GammaGamma、、DyxDyx相关测量法相关测量法计算结果表明,该行业职员的受教育程度与经济收入有一定程度的正相计算结果表明,该行业职员的受教育程度与经济收入有一定程度的正相关,即受教育程度越高,其职员经济收入越高。
如果用职员的受教育程关,即受教育程度越高,其职员经济收入越高如果用职员的受教育程度推断其经济收入,可以消减度推断其经济收入,可以消减37.9%37.9%的误差四、积矩相关测量法四、积矩相关测量法 积矩相关测量法是测量两个定距变量之间相关性的积矩相关测量法是测量两个定距变量之间相关性的一种方法,它以变量的平均值作为判断的准则,在分析一种方法,它以变量的平均值作为判断的准则,在分析现象的相关关系时是计算皮尔逊(现象的相关关系时是计算皮尔逊(PearsonPearson)的积矩相关)的积矩相关系数(简写为系数(简写为r r),说明性相关的条件下,两个现象),说明性相关的条件下,两个现象之间相关关系紧密程度的指标之间相关关系紧密程度的指标四、积矩相关测量法四、积矩相关测量法例8-10依据表依据表8.18.1的统计资料,计算该地区的统计资料,计算该地区20002000~~2007 2007 年居民货年居民货币收入和购买商品支出的积矩相关系数如下币收入和购买商品支出的积矩相关系数如下: : 四、积矩相关测量法四、积矩相关测量法例8-11仍依据表仍依据表8.18.1的统计资料,用简捷公式计算该地区的统计资料,用简捷公式计算该地区20002000~~20072007年居民货币收入和购买商品支出的相关系数如下:年居民货币收入和购买商品支出的相关系数如下: 简捷计算公式简捷计算公式五、相关比率测量法五、相关比率测量法相关比率测量法主要用于一个定类变量和一个定距变量相关比率测量法主要用于一个定类变量和一个定距变量的非对称性相关关系的测量的非对称性相关关系的测量例8-12为了研究某班学生的家庭职业背景(假定只有职员、工人为了研究某班学生的家庭职业背景(假定只有职员、工人和农民三类)与英语学习成绩(以百分制考核)之间的关和农民三类)与英语学习成绩(以百分制考核)之间的关系,随机抽取系,随机抽取2020名学生进行调查,其资料如下:名学生进行调查,其资料如下: 计算结果表明,学生家庭的职业背景与其英语学习成绩有较大的影响,计算结果表明,学生家庭的职业背景与其英语学习成绩有较大的影响,两者的相关程度达到了两者的相关程度达到了83.47%83.47%。
其中,出生于职员家庭的学生,学习其中,出生于职员家庭的学生,学习成绩最好,平均成绩成绩最好,平均成绩84.2984.29分;出生于农民家庭的学生,学习成绩居分;出生于农民家庭的学生,学习成绩居于中间状况,平均成绩于中间状况,平均成绩79.679.6分;出生于工人家庭的学生,学习成绩较分;出生于工人家庭的学生,学习成绩较差,平均成绩差,平均成绩61.7561.75分如果用家庭职业背景推断学生成绩,可以消分如果用家庭职业背景推断学生成绩,可以消减减69.68%69.68%的误差一、回归分析的特点一、回归分析的特点回归分析与相关分析的区别与联系回归分析与相关分析的区别与联系联系:都是对客观事物数量依存关系的分析联系:都是对客观事物数量依存关系的分析不同:概念和作用不同不同:概念和作用不同回归分析的分类回归分析的分类按表现分为:线性回归和非线性回归按表现分为:线性回归和非线性回归按影响因素分为:一元回归分析和多元回归分析按影响因素分为:一元回归分析和多元回归分析二、一元线性回归模型二、一元线性回归模型注意:注意:(1)变量之间是非对称关系在两个变量中,首先要区分自变量和(1)变量之间是非对称关系。
在两个变量中,首先要区分自变量和因变量,因为因变量是倚自变量的变动而变动的究竟哪一个是自变量,因变量,因为因变量是倚自变量的变动而变动的究竟哪一个是自变量,哪一个是因变量,可以根据现象之间的因果关系或研究目的而定哪一个是因变量,可以根据现象之间的因果关系或研究目的而定2)因变量是随机变量,自变量是确定性的量,可以事先给定或控(2)因变量是随机变量,自变量是确定性的量,可以事先给定或控制自变量制自变量 三、一元线性回归模型的建立三、一元线性回归模型的建立(一)回归模型的建立程序(一)回归模型的建立程序Ø分析变量之间的相互关系,通常是在理论分析的基分析变量之间的相互关系,通常是在理论分析的基础上采用相关表或相关图进行观察,再计算相关系数;础上采用相关表或相关图进行观察,再计算相关系数;Ø通过检验相关系数的显著性,判断相关系数的客观通过检验相关系数的显著性,判断相关系数的客观真实状况;真实状况;Ø根据研究目的确定自变量和因变量;根据研究目的确定自变量和因变量;Ø根据搜集的统计资料估计模型参数,建立回归模型根据搜集的统计资料估计模型参数,建立回归模型(二)相关系数的显著性检验(二)相关系数的显著性检验三、一元线性回归模型的建立三、一元线性回归模型的建立例8-13 以例以例1111中的统计资料为例,对居民购买商品支出中的统计资料为例,对居民购买商品支出与货币收入的相关系数进行显著性检验。
与货币收入的相关系数进行显著性检验 三、一元线性回归模型的建立三、一元线性回归模型的建立(三)变量定位(四)参数估计 三、一元线性回归模型的建立三、一元线性回归模型的建立例8-14以例以例1111表表8.98.9中的资料为例,对某地居民购买商品中的资料为例,对某地居民购买商品支出与其货币收入建立回归模型支出与其货币收入建立回归模型 三、一元线性回归模型的建立三、一元线性回归模型的建立四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用(一)分析自变量解释力(一)分析自变量解释力1. 1. 回归方差分析回归方差分析四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用例8-15四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用2. 模型优劣判断 利用决定系数分析模型的优劣决定系数也称可决利用决定系数分析模型的优劣决定系数也称可决系数或判定系数,即前述的相关系数的平方,是指因变系数或判定系数,即前述的相关系数的平方,是指因变量的总变差中可以被自变量解释部分的比重。
量的总变差中可以被自变量解释部分的比重四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用(二)测算估计标准误 估计标准误也称估计标准误差或剩余标准差,是回估计标准误也称估计标准误差或剩余标准差,是回归直线随机离差的均方根,反映以回归直线为中心的各归直线随机离差的均方根,反映以回归直线为中心的各观察值与其估计值之间的平均离差程度观察值与其估计值之间的平均离差程度例8-16四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用(三)运用模型预测 如果观察值的点值在回归直线两侧呈正态分布,则如果观察值的点值在回归直线两侧呈正态分布,则可以期望:约有可以期望:约有68.27%68.27%的点值落在回归直线的点值落在回归直线sysy范围内;范围内;约有约有95.45%95.45%的点值落在回归直线的点值落在回归直线2sy2sy范围内;约有范围内;约有99.73%99.73%的点值落在回归直线的点值落在回归直线3sy3sy范围内 四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用例8-17四、一元线性回归模型的预测应用四、一元线性回归模型的预测应用一、多元线性回归模型一、多元线性回归模型 多元回归分析是以多元回归模型研究多个自多元回归分析是以多元回归模型研究多个自变量与一个因变量的相互关系,从而推算或预测变量与一个因变量的相互关系,从而推算或预测因变量的未知值或未来值。
因变量的未知值或未来值多元回归分析有多元线性回归分析和多元曲线回多元回归分析有多元线性回归分析和多元曲线回归分析归分析一、多元线性回归模型一、多元线性回归模型一、多元线性回归模型一、多元线性回归模型例8-18某地管理部门随机抽取某地管理部门随机抽取1010个零售贸易企业,对它们某月的个零售贸易企业,对它们某月的商品销售额、流通费用额和利润额情况进行了调查,其资商品销售额、流通费用额和利润额情况进行了调查,其资料见表料见表8.138.13 一、多元线性回归模型一、多元线性回归模型这一模型表明,零售企业没有任何商品销售时,利润额为-这一模型表明,零售企业没有任何商品销售时,利润额为-0.5680.568万元,万元,即要支付企业生存的固定费用;商品每销售1万元,利润额增加即要支付企业生存的固定费用;商品每销售1万元,利润额增加0.02960.0296万元;在商品销售额和其它相关条件既定的情况下,费用每增万元;在商品销售额和其它相关条件既定的情况下,费用每增加1万元,利润额增加加1万元,利润额增加0.26970.2697万元 例8-19二、复相关系数及其显著性检验二、复相关系数及其显著性检验例8-3例8-3三、多元线性回归分析的应用三、多元线性回归分析的应用 建立了多元线性回归(也称复回归)模型以后,需建立了多元线性回归(也称复回归)模型以后,需要分析自变量对因变量的解释力,以便判断模型拟合的要分析自变量对因变量的解释力,以便判断模型拟合的优劣。
用方差分析和决定系数判断用方差分析和决定系数判断多元线性回归模型的方差分析:多元线性回归模型的方差分析:例8-20以表以表8.188.18中的有关资料,对例中的有关资料,对例1919建立的二元回归模型进行建立的二元回归模型进行方差分析方差分析 三、多元线性回归分析的应用三、多元线性回归分析的应用三、多元线性回归分析的应用三、多元线性回归分析的应用例8-3例8-21三、多元线性回归分析的应用三、多元线性回归分析的应用例8-22三、多元线性回归分析的应用三、多元线性回归分析的应用四、可化为线性回归的曲线回归四、可化为线性回归的曲线回归(一)指数函数(一)指数函数四、可化为线性回归的曲线回归四、可化为线性回归的曲线回归(二)幂函数 四、可化为线性回归的曲线回归四、可化为线性回归的曲线回归(三)双曲函数 四、可化为线性回归的曲线回归四、可化为线性回归的曲线回归(四)对数函数 四、可化为线性回归的曲线回归四、可化为线性回归的曲线回归(五)S形曲线 五、运用回归分析应注意的问题五、运用回归分析应注意的问题11. .筛选影响因变量的主要自变量筛选影响因变量的主要自变量22. .正确理解回归系数正确理解回归系数33. .科学合理地内插外推科学合理地内插外推44. .充分发挥电子计算机的作用充分发挥电子计算机的作用。












