
多元线性回归与多项式回归 (2).doc
36页0第九章 多元线性回归与多项式回归直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析(multiple regression analysis) ,而其中最为简单、常用并且具有基础性质的是多元线性回归分析(multiple linear regression analysis) ,许多非线性回归( non-linear regression)和多项式回归(polynomial regression)都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用研究多元线性回归分析的思想、方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进行计算aaa第一节 多元线性回归分析多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。
一、 多元线性回归方程的建立(一)多元线性回归的数学模型 设依变量 与自变量 、 、…、 共有 ny1x2mx组实际观测数据:变量序号 y1x2x… x1 1 1… 1m2 2122… 2┆ ┆ ┆ ┆ … ┆nnynxnx… nx假定依变量 y 与自变量 x1、x 2、…、x m 间存性关系,其数学模型为:(9-1 )jmjjj .20(j=1,2,…,n)式中,x 1、x 2、…、x m 为可以观测的一般变量(或为可以观测的随机变量) ;y 为可以1观测的随机变量,随 x1、x 2、…、x m 而变,受试验误差影响; 为相互独立且都服从j的随机变量我们可以根据实际观测值对 以及方差 作出估),0(2N m、、、、 .210 2计二)建立线性回归方程 设 对 、 、…、 的 元线性回归方程为:y1x2xmbb0ˆ其中的 、 、 、…、 为 的最小二乘估计值即 、0b12m、、、 . 0b、 、…、 应使实际观测值 y 与回归估计值 的偏差平方和最小12myˆ令 njjjyQ1)ˆ(j mjjjj xbxb2210 )为关于 、 、 、…、 的 +1 元函数。
根据微分学中多元函数求极值的方法,若使 达到最小,则应有:Q nj mjjjj xbxbybQ12100 0)(2j jjjjiix( =1、 2、…、 )经整理得:(9-2) yxbbxxbx ybxbxxnb mmm m)( )()()( )( )()()( 2210 222 1121101 由方程组(9-2)中的第一个方程可得(9-3)y210即 iixby10 , : 1njijinjj x其 中若记,)(12njiijixS njjyyS12)(j kikjiijik PP)( jjijiox( 、 、 、…、 ; k)2m并将 分别代入方程组(9-2 )中的后 个方程,经整理可得到mxbxby2102关于偏回归系数 、 、…、 的正规方程组(normal equations)为:1b2mb(9-4 )021m222 10121SP mSPbb 解正规方程组(9-4)即可得偏回归系数 、 、…、 的解,而12xxy0于是得到 元线性回归方程 mbb21ˆ元线性回归方程的图形为 维空间的一个平面,称为回归平面; 称为回归常数mm0b项,当 = =…= =0 时, 在 b0 有实际意义时, 表示 的起始值;1x2mx,y0y( = 、2、…、 )称为依变量 对自变量 的偏回归系数( partial regression ib ixcoefficient) ,表示除自变量 以外的其余 个自变量都固定不变时,自变量 每变化一i 1ix个单位,依变量 平均变化的单位数值,确切地说,当 >0 时,自变量 每增加一个单位,y ibi依变量 平均增加 个单位;当 F0.01(3,50), P 、 F0.01(1,50) , 1bF0.01(2,51), 51,21dffPR0.01(50,4) ,P5,则采用 F 检验或根据多元线性回归关系显著性检验的结果来推断复相关系数的显著性。
第三节 偏相关分析多个相关变量间的关系是较为复杂的,任何两个变量间常常存在不同程度的简单相关关系,但是这种相关关系又包含有其他变量的影响因此简单相关分析即直线相关分析没有考虑其他变量对这两个变量的影响,简单相关分析实际上并不能真实反映两个相关变量间的相关关系而只有消除了其他变量的影响之后,研究两个变量间的相关性,才能真实地反映这两个变量间相关的性质与密切程度偏相关分析就是固定其他变量不变而研究某两个变量间相关性的统计分析方法一、偏相关系数的意义与计算(一)偏相关系数的意义 在多个相关变量中,其他变量保持固定不变,所研究的两个变量间的线性相关称为偏相关(partial correlation ) 15用来表示两个相关变量偏相关的性质与程度的统计量叫偏相关系数(partial correlation coefficient) 根据被固定的变量个数可将偏相关系数分级,偏相关系数的级数等于被固定的变量的个数当研究 2 个相关变量 x1、x 2 的关系时,用直线相关系数 r12 表示 x1 与 x2 线性相关的性质与程度此时固定的变量个数为 0,所以直线相关系数 r12 又叫做零级偏相关系数。
当研究 3 个相关变量 x1、x 2、x 3 的相关时,我们把 x3 保持固定不变,x 1 与 x2 的相关系数称为 x1 与 x2 的偏相关系数,记为 r12.3,类似地,还有偏相关系数 r13.2、 r23.1这 3 个偏相关系数固定的变量个数为 1,所以都叫做一级偏相关系数当研究 4 个相关变量 x1、x 2、x 3、x 4 的相关时,须将其中的 2 个变量固定不变,研究另外两个变量间的相关即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度二级偏相关系数共有 个:r 12.34,r 13.24,r 14.23,r 23.14,r 24.13,r 34.126C一般,当研究 m 个相关变量 x1、x 2、 、 、…、x m 的相关时,只有将其中的 m-2 个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有 m-2 级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度 m-2 级偏相关系数共有 个x i 与 xj 的 m-2 级偏相关系数记为 rij.(i,j=1,2,…,m,i≠ j)/)(2C偏相关系数的取值范围为[-1,1] ,即:-1≤r ij.≤1。
二)偏相关系数的计算1、一级偏相关系数的计算 设三个相关变量 共有 n 组实测数据:32x、、序号 1x 3x1 2112 2x2n nx1n2nx3一级偏相关系数可由零级偏相关系数即直线相关系数计算,计算公式为: 23123.12)(rr(9-28 ))(2.1321.23rr2、二级偏相关系数的计算 设四个相关变量 共有 n 组实测数据:4321xx、、、序号 1x2 41 13112 2x2x2xn nx1n2n3n4二级偏相关系数可由一级偏相关系数计算,计算公式为:16)1)((23.423.4..34.12rrr2.342.1424.13))((2.432.13..23.14rrr(9-29)21.3421.4..14.23))((21.4321.3..13.24rrr21.421.3..412.343、m-2 级偏相关系数的计算 设 m 个相关变量 共有 n 组观测数据:mxx、、、 序号 1x2x…1 1… 12 2 … 2mxn nx1nx2… nm-2 级偏相关系数的计算方法如下:首先计算简单相关系数即直线相关系数 :ijr, ( (9-30)jiijSPr)21,m、、、 其中: , , ,并由简)()jiij xxSP(iix2)(jjxS单相关系数 rij 组成相关系数矩阵 :R(9-31 ) 212112mmmrrrr 然后求相关系数矩阵 的逆矩阵R:C(9-32 )mmccC 2121则相关变量 的 -2 级偏相关系数 的计算公式为:jix与 .ijr(9-33 ) );21,( . jicrjiij 、、、 17二、偏相关系数的显著性检验(一)t 检验法 设相关变量 的总体偏相关系数为 , 则对偏相关系数jix与 .ij进行显著性检验的无效假设与备择假设为: .ijr,0:.ijoH0:.ijA检验公式为:t(9-34 )mndfrSrtijijijijij ,)(1(2.....(9-34)式中, 为偏相关系数标准误, ;n 为观测数据组数,m 为相关.ijr rSijrij 2.1.变量总个数。
注意,m 个相关变量的偏相关分析中的 m 指相关变量的总个数; m 元线性回归分析中的 m 指自变量的个数;这两种分析方法中的 m 所表达的意义是不同的二)查表法 由 及变量个数 2 查附表 8《r 和 R 显著数值表》得 r0.05(n-ndfm,2), r0.01(n-m,2)将偏相关系数的绝对值 r0.05(n-m,2)、r 0.01(n-m,2)进行比较,即可作出统计与|.ij推断例 9.2】 对【例 9.1】资料进行偏相关分析注意,此时相关变量总个数 m=4首 先 由 【例 9.1】的 计302102312321 SPSPSSy 、、、、、、、、、算 变 量 间的简单相关系数:321xy、、、 5.604.78.4211 Pr 7.9.13.2533 S35.8.604.722 r 460.17.2.851010ySP32..064.7922 yr 605.17.8.133030 ySP相关系数矩阵 R 为: 13605.2.0468. .45723.. 48..03021320121rrrr然后求得相关系数矩阵 的逆矩阵 C 为:R 5694.13804.1469.069.0 380772125.2...03201321ccRC18因为我们需要研究的是瘦肉量(y)与眼肌面积(x 1) 、胴体长(x 2) 、膘厚(x 3)的二级偏相关系数,由(9-33)式可以算得: 4850.329.564.1)0(023.01 cr 1.67..2. .034.1569.803012.03 cr现在对上述三个二级偏相关系数进行 t 检验: *92.35)80.()( 223.01.23.01 mnrtr( 1.419.(.213.02 tr952.5])26.0([)(1.0312.03 nrtr由 查 值表得 t0.05(50)=2.008、t 0.01(50)=。












