
12第十二章多元回归分析1.ppt
41页第十一章第十一章多元回归多元回归本章介绍多元回归的最基本知识,运用多元本章介绍多元回归的最基本知识,运用多元回归进行多项式回归分析的一般步骤,回回归进行多项式回归分析的一般步骤,回归方程的显著性检验归方程的显著性检验矩阵的复习:矩阵的复习: 什么叫矩阵什么叫矩阵 方阵方阵 对称阵对称阵 单位阵单位阵 行列式行列式 矩阵的运算矩阵的运算 矩阵的求逆矩阵的求逆在许多情况下,影响一个变量的因素往往有许多个,在许多情况下,影响一个变量的因素往往有许多个,因此,仅用简单回归进行预测其结果不够理想,因此,仅用简单回归进行预测其结果不够理想,因此应当研究一个依变量和多个自变量的关系因此应当研究一个依变量和多个自变量的关系这种研究多个自变量和一个依变量的关系就是多元这种研究多个自变量和一个依变量的关系就是多元回归分析,简单回归分析仅研究一个自变量和依回归分析,简单回归分析仅研究一个自变量和依变量的关系,因此可以将简单回归看作是多元回变量的关系,因此可以将简单回归看作是多元回归的一种特例,是多元回归的基础归的一种特例,是多元回归的基础这里所研究的多元回归也是线性回归,称为多元线这里所研究的多元回归也是线性回归,称为多元线性回归性回归有两个自变量(有两个自变量(x1、、x2)时,称二元线性回归)时,称二元线性回归有三个自变量(有三个自变量(x1、x2、x3)时,称三元线性回归)时,称三元线性回归有有m 元自变量(元自变量(xi)时,称)时,称 m 元线性回归元线性回归以此类推以此类推例如:影响家畜发病的因素有很多种,如致病菌、例如:影响家畜发病的因素有很多种,如致病菌、营养、环境、消毒、污染、抗病力、药物等营养、环境、消毒、污染、抗病力、药物等又如:影响动植物生化指标的因素也很多,既有外又如:影响动植物生化指标的因素也很多,既有外部因素,也有内部因素部因素,也有内部因素又如:影响牧场经营效益的因素有规模、品种、饲又如:影响牧场经营效益的因素有规模、品种、饲料、饲养密度、管理水平、药物的使用、保健成料、饲养密度、管理水平、药物的使用、保健成本、防疫等本、防疫等其中,有些影响因素是数量性质的,而有些虽是质其中,有些影响因素是数量性质的,而有些虽是质量性质的,但可以进行量化量性质的,但可以进行量化将这些影响因素(自变量)与被影响的因素(依变将这些影响因素(自变量)与被影响的因素(依变量)组合成一个线性函数,即建立一个多元线性量)组合成一个线性函数,即建立一个多元线性回归方程来定量地说明这种回归关系,其效果往回归方程来定量地说明这种回归关系,其效果往往好于一般的分析往好于一般的分析第一节第一节 偏回归与复回归偏回归与复回归一、偏回归一、偏回归设影响依变量设影响依变量 y 的自变量的自变量 xi 有有 m 个个 (( i = 1 , 2 , … , m))我们可以建立一个多元线性回归方程:我们可以建立一个多元线性回归方程:其中,其中,b0 是常数项:是常数项:而而 b1、、b2、、…、、bi、、...、、bm 分别为分别为 x1、、x2、、…、、xi、、…、、xm 对对 y 的偏回归系数的偏回归系数Bi 的含义是当的含义是当 x1、x2、…、xi-1、xi+1、…、xm 固定不变固定不变时,时,xi 每变化一个单位,每变化一个单位,y 发生变化的平均量发生变化的平均量二、多元回归方程的一般配置方法二、多元回归方程的一般配置方法多元回归方程中多元回归方程中 bi 的求解是通过最小二乘法来确定的的求解是通过最小二乘法来确定的即所选取的即所选取的 bi 必须使得离回归平方和必须使得离回归平方和 Q 最小,即:最小,即: 为最小为最小为了使方程的求解容易一些,先消去为了使方程的求解容易一些,先消去 b0消去消去 b0:: 代入代入Q式:式:令令则则分别求分别求 Q 对对 bi 的偏微分,并令之为的偏微分,并令之为 0::整理之,得正规方程组:整理之,得正规方程组:其中:其中:用矩阵形式表示之:用矩阵形式表示之:得:得:这一形式可以简写为:这一形式可以简写为:由于系数矩阵是一个对称的方阵,且一般满秩,因由于系数矩阵是一个对称的方阵,且一般满秩,因此可求逆,有解,且是唯一解此可求逆,有解,且是唯一解当方程仅为二元或三元时,可用行列式或消元法求当方程仅为二元或三元时,可用行列式或消元法求解,但方程多元时,手工计算很麻烦,且不太可解,但方程多元时,手工计算很麻烦,且不太可能,因此必须借助统计软件进行求解能,因此必须借助统计软件进行求解例题请参阅例题请参阅《《兽医统计学兽医统计学》》P149~150猪的瘦肉量是猪育种工作中一个非常重要的指标,猪的瘦肉量是猪育种工作中一个非常重要的指标,一般认为,猪的瘦肉量与猪的眼肌面积、胴体长、一般认为,猪的瘦肉量与猪的眼肌面积、胴体长、背膘厚有关背膘厚有关今根据三江白猪育种组对今根据三江白猪育种组对 54 头杂种猪的资料,得头杂种猪的资料,得到如下一级数据,试作多元回归分析到如下一级数据,试作多元回归分析x1:眼肌面积(:眼肌面积(cm2)) x2:胴体长(:胴体长(cm))x3:背膘厚(:背膘厚(cm)) y:瘦肉量(:瘦肉量(kg))其正规方程组的矩阵形式是:其正规方程组的矩阵形式是:对系数矩阵进行求逆,然后将逆左乘方程两边,即对系数矩阵进行求逆,然后将逆左乘方程两边,即得解,进一步求解得解,进一步求解 b0,即可写出一个多元回归方,即可写出一个多元回归方程程由于由于因此,因此,三、多元回归方程的估计标准误三、多元回归方程的估计标准误求解多元回归方程我们用的是最小二乘原理:求解多元回归方程我们用的是最小二乘原理:由于每一个由于每一个 y 不可能与不可能与 相同,因此相同,因此Q 称为多元离回归平方和称为多元离回归平方和Q 越大,表示越大,表示 y 与与 的差距越大,方程的预测效果的差距越大,方程的预测效果就越差,因此可以用就越差,因此可以用 Q 来表示多元回归方程的预来表示多元回归方程的预测效果,即多元回归方程的估计标准误为:测效果,即多元回归方程的估计标准误为:其中,其中,n 为样本量,为样本量,m 为自变量个数为自变量个数由于由于 因此,因此,本例中,本例中,四、偏回归系数标准误四、偏回归系数标准误多元回归方程求出后,应对偏回归系数进行显著性多元回归方程求出后,应对偏回归系数进行显著性检验:检验: 为为 b 的标准误的标准误其中,其中, 为高斯乘数,即系数矩阵的逆为高斯乘数,即系数矩阵的逆 中主对角中主对角线上与每个自变量相应的元素线上与每个自变量相应的元素三个偏回归系数的标准误分别为:三个偏回归系数的标准误分别为:对三个偏回归系数进行显著性检验:对三个偏回归系数进行显著性检验: 将所有的自变量全纳入多元回归方程,这样的多元将所有的自变量全纳入多元回归方程,这样的多元回归方程称为全回归方程回归方程称为全回归方程对每一个对每一个 bi 进行检验,将不显著的自变量剔出方程,进行检验,将不显著的自变量剔出方程,方程内保留全部显著的自变量,而方程外不再有方程内保留全部显著的自变量,而方程外不再有显著的自变量,这样的多元回归方程称为显著的自变量,这样的多元回归方程称为“最优最优”回归方程回归方程剔出不显著的自变量后,方程应作相应的变化剔出不显著的自变量后,方程应作相应的变化统计软件中,计算统计软件中,计算“最优最优”回归方程的常用方法为回归方程的常用方法为逐步回归法逐步回归法由于在一般情况下,我们都是借助于统计软件进行由于在一般情况下,我们都是借助于统计软件进行回归分析,因此剔出不显著的自变量后方程如何回归分析,因此剔出不显著的自变量后方程如何变化这里不再作介绍(参看书变化这里不再作介绍(参看书 PP151~153))本例中,由于第二个变量的偏回归系数最不显著,本例中,由于第二个变量的偏回归系数最不显著,因此可将其首先剔除,对第一、三个变量的偏回因此可将其首先剔除,对第一、三个变量的偏回归系数作相应的变动,获得一个包括第一、第三归系数作相应的变动,获得一个包括第一、第三变量在内的二元回归方程:变量在内的二元回归方程:有兴趣的同学可以了解一下逐步回归法的思路和解有兴趣的同学可以了解一下逐步回归法的思路和解题步骤题步骤第三节第三节 相关分析相关分析多元回归方程建立以后,用这一方程来预测多元回归方程建立以后,用这一方程来预测 y ,其其准确度如何,这种准确度的度量,就是多元相关准确度如何,这种准确度的度量,就是多元相关分析分析用来进行多元相关分析的指标就是复相关指数用来进行多元相关分析的指标就是复相关指数 R2 R 称为复相关系数,它表示称为复相关系数,它表示 y 与回归方程中自变量与回归方程中自变量线性组合关系的密切程度线性组合关系的密切程度而而 R2 则是用多元回归方程进行预测的准确程度则是用多元回归方程进行预测的准确程度上例中,复相关指数为:上例中,复相关指数为:R2 的分布范围为的分布范围为 [0,1]R2 的显著性检验为:的显著性检验为:也可在求得也可在求得 R 以后,将其与以后,将其与 r 附表中相应的附表中相应的 rα 值相相比比较,但要注意,但要注意变量的个数量的个数如果如果 R< r0.05 ,表示表示 R 不不显著著如果如果 R> r0.05 ,表示,表示 R 显著著如果如果 R> r0.01 ,表示,表示 R 极极显著著这种比种比较与前与前页的的 F-test 的的结果是相同的果是相同的本例的本例的 R 为极显著为极显著 FR = 9.493 我们也发现本例中的复相关指数虽然是极显著的,我们也发现本例中的复相关指数虽然是极显著的,但不足但不足 50%,这说明,还有一些与猪的瘦肉量有,这说明,还有一些与猪的瘦肉量有关的因素还没有被找到,因此还需要继续寻找关的因素还没有被找到,因此还需要继续寻找(研究),直到复相关指数超过(研究),直到复相关指数超过 85%第三节第三节 多项式回归多项式回归在曲线回归分析中,有些曲线可以经直线化转换成在曲线回归分析中,有些曲线可以经直线化转换成直线方程来配置,有些则不能经直线转换,如多直线方程来配置,有些则不能经直线转换,如多项式回归项式回归将多项式回归方程中的每一项将多项式回归方程中的每一项 xi 看作是一个自变量看作是一个自变量xi 则多项式回归可以转换成多元回归方程进行求解则多项式回归可以转换成多元回归方程进行求解多变量的多项式同样可以经多元回归进行转换多变量的多项式同样可以经多元回归进行转换任何一个函数在一个不大的范围内都可以用一个多任何一个函数在一个不大的范围内都可以用一个多项式作任意的逼近项式作任意的逼近即取适当的项数所得到的多项式与任意函数方程两即取适当的项数所得到的多项式与任意函数方程两者的曲线可以有理想的拟合效果者的曲线可以有理想的拟合效果因此,在很多情况下,我们可以不考虑自变量与依因此,在很多情况下,我们可以不考虑自变量与依变量的确切函数关系,而用合适的多项式来进行变量的确切函数关系,而用合适的多项式来进行分析分析例:太阳光的紫外线强度随时间的改变而改变,今例:太阳光的紫外线强度随时间的改变而改变,今测得某地测得某地 5~6 月份晴天一日内不同时间的紫外线月份晴天一日内不同时间的紫外线强度如下,试作回归分析强度如下,试作回归分析时时 间间t 6 8 10 12 14 16 18 紫外线强度紫外线强度I 0.6 1.0 1.07 1.17 1.09 0.89 0.48画散点图,可以看出,紫外线强度与一日内的时间画散点图,可以看出,紫外线强度与一日内的时间大致呈抛物线关系,因而可以配置抛物线方程大致呈抛物线关系,因而可以配置抛物线方程今简化数据,令今简化数据,令1.21.00.80.60.4 06 08 10 12 14 16 18则一级数据为:则一级数据为:计算二级数据:计算二级数据:组建正规方程组:组建正规方程组:解之,得:解之,得:将将 代入,得:代入,得:计算各时间段的估测值,得下表计算各时间段的估测值,得下表时时 间间t 6 8 10 12 14 16 18 紫外线强度紫外线强度I 0.6 1.0 1.07 1.17 1.09 0.89 0.48预预 测测 值值 0.62 0.94 1.12 1.17 1.09 0.85 0.48 -0.02 0.06 -0.05 0.0 0.01 0.04 0.0对该多项式方程作显著性检验:对该多项式方程作显著性检验:复相关指数复相关指数该多项式回归方程的估计标准误为:该多项式回归方程的估计标准误为:两偏回归系数的高斯乘数分别为:两偏回归系数的高斯乘数分别为:因此因此 b1 和和 b2 的标准误分别为:的标准误分别为:两回归系数的显著性检验:两回归系数的显著性检验:即两偏回归系数均达到极显著水平即两偏回归系数均达到极显著水平如果抛物线方程的拟合效果还不理想,可用高次方如果抛物线方程的拟合效果还不理想,可用高次方中的任几项进行拟合,使复相关指数达到一个较中的任几项进行拟合,使复相关指数达到一个较理想的值理想的值下面看一个实例:下面看一个实例:研究饲料的含磷量与饲料系数的关系,得如下数据,研究饲料的含磷量与饲料系数的关系,得如下数据,试进行回归分析试进行回归分析含磷量含磷量x% 0.35 0.77 1.04 1.36 1.70饲料系数饲料系数y 2.65 2.01 1.77 2.25 4.27配置抛物线方程,得方程配置抛物线方程,得方程 1::增加高次方项,并进行筛选,得方程增加高次方项,并进行筛选,得方程 2::显然,方程显然,方程 1 要好于方程要好于方程 2,两者的预测值也表明,两者的预测值也表明方程方程 2 要更接近于实测值:要更接近于实测值: 含磷量含磷量x% 0.35 0.77 1.04 1.36 1.70 饲料系数饲料系数y 2.65 2.01 1.77 2.25 4.27方程方程1 预测值预测值 2.75 1.75 1.79 2.53 4.14方程方程2 预测值预测值 2.68 1.95 1.77 2.30 4.25多元回归方程、曲线回归方程和多项式回归方程是多元回归方程、曲线回归方程和多项式回归方程是一种十分有用的资料分析工具,在实际使用中,一种十分有用的资料分析工具,在实际使用中,必须使用统计分析软件必须使用统计分析软件回归分析时,必须有专业依据,运用专业知识对分回归分析时,必须有专业依据,运用专业知识对分析结果进行解释,不能为分析而分析析结果进行解释,不能为分析而分析 (*) end。
