线性相关与回归分析.doc
9页第十章 相关与回归分析第一节 简单线性相关分析一、简单线性相关(直线相关)的概念:二、相关关系的种类:(一)按相关程度划分可分为完全相关、不完全相关、和不相关(二)按相关方向划分可分为正相关和负相关(三)按相关的形式划分可分为线形相关和非线形相关(四)按变量多少划分可分为单相关、复相关和偏相关三、相关分析相关分析一般可以借助相关系数与相关图来进行相关分析一)相关系数1.简单相关系数的含义反映两个变量之间线性相关密切程度和相关方向的统计测定,它是其他相关系数形成的基础2.简单相关系数的计算(6.17)22)()(yxr或化简为: (6.18)2222nn3.相关系数的性质(1)相关系数的取值范围在-1 和+1 之间,即:–1≤r≤ 12)计算结果,若 r 为正,则表明两变量为正相关;若 r 为负,则表明两变量为负相关3)相关系数 r 的数值越接近于 1(–1 或+1) ,表示相关系数越强;越接近于 0,表示相关系数越弱如果 r=1 或–1,则表示两个现象完全直线性相关如果 r=0,则表示两个现象完全不相关(不是直线相关) 4)判断两变量线性相关密切程度的具体标准为:,称为微弱相关; ,称为低度相关;3.0r 5.03.r,称为显著相关; 称为高度相关。
85.0 180(二)相关图相关图又称散点图它是以直角坐标系的横轴代表标量 X,纵轴代表标量 Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形四.相关系数的假设检验1.目的:相关系数检验的目的是判断两变量的总体是否有相关关系检验样本相关系数 r 是否总体相关系数为 0 的总体,如概率p<0.05,认为两变量存在相关关系2.方法:有 t 检验和查表法1) t 检验法: 统计量计算为:; v = n-221nrr(2)查表法:是直接查相关系数界值表得到相应的概率 p统计量 r 绝对值越大,p 越小第二节 简单线性回归分析一、回归分析的概念与种类二、一元线性回归1.一元线性回归模型xy102.一元线性回归方程3.回归模型的前提条件1)线性:是指反应变量 Y 的总体平均值与自变量 X 呈线性关系;2)独立性:任意两个观察值之间相互独立;3)正态性:是指对于给定的 X 值,其对应的 Y 值的总体和线性模型的误差项 ε 均服从正态分布;(ε 均服从均数为 0 的正态分布)4)等方差性:无论 X 如何取值,Y 都有相同的方差4.回归方程的检验回归方程的显著性检验检验自变量和因变量之间的线性关系是否显著。
具体方法是将回归离差平方和( SSR)同剩余离差平方和( SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著,如果是显著的,两个变量之间存性关系;如果不显著,两个变量之间不存性关系 ·SS 总=SS 回+SS 剩 SS 回 为回归平方和,它反映在 Y 的总变异中,由于 X 与 Y 的直线关系,而使得 Y 变异减小的部分,也即在总平方和中可以用 X 解释的部分SS 回 越大,说明回归效果越好SS 剩 为剩余平方和,它反映 X 对 Y 的线性影响之外的因素,对 Y的总变异的影响,也即在总平方和中无法用 X 解释的部分SS 剩 越小,说明直线回归的估计误差越小回归系数的显著性检验 1bSt·对于一元线性回归,回归方程的显著性检验与回归系数的显著性检验是等价的可通过方差分析或 t 检验进行三、相关与回归分析应用注意事项2.直线相关与回归的区别与联系(1)区别 :① 相关分析要求两个变量均服从正态分布,而回归分析则有两种不同的模型Ⅰ型回归:定 x 后对 y 进行测量,y 须服从正态分布;Ⅱ型回归:x,y 均须服从正态分布,如体重依身高的变动关系 ② 对于同一资料,只能计算一个相关系数,而Ⅱ型回归可以计算由 x推 y 和由 y 推 x 的两个回归方程,但两者不是反函数的关系。
③ 回归反映两变量间的依存关系,相关反映两变量间的相互关系有相关联系不一定是因果联系2)联系:① 同一资料 r 与 b 符号相同② 同一资料 r 与 b 的假设检验结果是等价的 ③ r 与 b 可以互相换算④ 相关是相互关系,双方向,-1≤r≤+1,无单位,有相关不一定有回归;回归是依存关系,单方向, 无限, 有单位,有回归一定有相关 第三节 秩相关秩相关又称等级相关,是一种用等级数据进行直线相关分析的非参数统计方法,适用于双变量不服从正态分布的资料;总体分布型未知;等级资料或无确切数值资料秩相关用等级相关系数 rs表示密切程度及方向其取值范围为-1≤r≤+1;r>0 为正相关,r<0 为负相关;r=0,表示无线性相关关系,为零相关rs = 1- 162nd第十一章 多重线性回归一.基本概念:多重线性回归的概念:1.多重线性回归是研究多个自变量与一个因变量之间线性依存关系的方法2.多重线性相关(复相关)是研究多个变量与一个变量线性相关关系的方法3.多元线性回归是研究多个自变量与多个因变量线性依存关系的方法4.多元线性相关是研究多个变量与多个变量之间线性相关关系的方法5.偏相关是研究在多个变量中消除其它变量影响后一变量与另一变量的相关关系。
二、多重线性回归模型1.意义:多重线性回归模型用于研究一个被解释变量(因变量)受多个解释变量(自变量)的影响,多重线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量 y 与多个解释变量 x1,x2···xk之间存性关系2.模型与方程:·假定被解释变量 y 与多个解释变量 x1,x2···xk之间具有线性关系,建立多重线性回归模型为:kxxy210 (一元 xy10)其中 y 为被解释变量,x j为 k 个解释变量,β j为偏(部分)回归系数,ε 为随机误差项·被解释变量 y 的期望值与解释变量 x 的多重线性回归方程为: kXbXbaYL21ˆ·参数估计的方法: 一般需要计算机软件完成如以儿子身高为因变量,父、母身高和体育锻炼次数为自变量,建立方程如下:Ŷ = 0.244x1+0.566x2+0.224x33.多重线性回归模型的假设(条件):1、因变量 Y 和解释变量 X 之间是线性关系;2、X 是自变量,并在两个或多个自变量之间没有精确的线性关系;3、误差项的所有观测值的期望值为 0,方差相等;4、误差项的观测值之间相互独立,不相关;5、误差项服从正态分布。
三、参数与参数估计:1.参数估计方法:参数估计方法是最小二乘法一般用统计软件完成2.偏回归系数 β i(bi):表示除 Xi外的其他自变量固定时, Xi改变一个单位后 Y 的平均变化3.标准回归系数:偏回归系数因各自变量值的单位不同,不能直接比较其大小对变量值作标准化变换,得到的回归系数为标准回归系数,可直接比较其大小,反映各自变量对因变量的贡献大小四、多重回归的假设检验:1. 回归方程(模型)的假设检验:检验模型是否成立,或方程是否有意义1)方差分析:(2)总体复相关系数的假设检验:2. 回归系数的假设检验:)(01bSEt3. 确定系数计算:确定系数为: TeTrSR12SST = SSE + SSR总离差平方和=残差平方和+ 回归平方和R2表示总变差中由多元回归方程“解释”的比例;R2可解释模型的拟合优度,残差平方和越小,决定系数越接近 1,回归方程的拟合程度越好 四.回归分析中的变量筛选:五.多重回归分析的主要用途:六.多重回归分析的一般步骤:七.多重相关和偏相关:应用条件:同简单线性相关一样,仅当 X1, X2, …, Y 为多元正态分布的随机变量时才能考虑相关分析。
1. 复相关系数(多重相关系数):多重相关的实质就是 Y 的实际观察值与由 k 个自变量预测的 值的相关也既复相关系数反映一Yˆ个因变量与一组自变量之间的相关程度前面计算的确定系数是 Y 与 相关系数的平方,那么复相关系数ˆ就是确定系数的平方根 2R2. 偏相关系数(部分相关系数):部分相关系数反映校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数计算公式: )1(2323,12rr3. 偏相关系数的假设检验:用 t 检验总体中扣除 q 个变量影响的偏相关系数为 (-q),样本中相应的偏相关系数为 r(-q)检验假设: H0: (-q)=0, H1: (-q)≠0可采用统计量: = n-q-2 2)()(1qrnt·偏相关系数的假设检验等同于偏回归系数的 t 检验·复相关系数的假设检验等同于回归方程的方差分析。





