
偏最小二乘回归=多元线性回归分析典型相关分析主成分分析报告.docx
18页偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德 和阿巴诺等人首次提出近十年来,它在理论、方法和应用方面都得到了迅速的 发展密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法 偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1) 偏最小二乘回归是一种多因变量对多自变量的回归建模方法2) 偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的 问题在普通多元线形回归的应用中,我们常受到许多限制最典型的问题就是 自变量之间的多重相关性如果采用普通的最小二乘方法,这种变量多重相关性 就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性变量多重相关问 题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事 实际系统分析的工作人员在偏最小二乘回归中开辟了一种有效的技术途径,它 利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的 综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建 模中的不良作用3) 偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多 种数据分析方法的综合应用偏最小二乘回归二多元线性回归分析+典型相关分析+主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二 维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能 十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变 量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以与观 察样本点间的相似性结构这种高维数据多个层面的可视见性,可以使数据系统 的分析容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际 解释一、偏最小二乘回归的建模策略'原理'方法1.1建模原理设有q个因变量{^ ,..., J }和p自变量{X ,...,X }为了研究因变量和自变 1 q 1 p量的统计关系,我们观测了 n个样本点,由此构成了自变量与因变量的数据表X={X ,...,X }和.Y={ j ,..., j }偏最小二乘回归分别在X与Y中提取出成分t和 1 p 1 q 1u (也就是说,t是X ,..., X的线形组合,u是j ,..., j的线形组合).在提取 1 1 1 p 1 1 q这两个成分时,为了回归分析的需要,有下列两个要求:(1) t1和u1应尽可能携带他们各自数据表中的变异信息;(2) t1与u1的相关程度能够达到最大这两个要求表明,t]和u应尽可能好的代表数据表X和Y,同时自变量的成分t] 对因变量的成分u又有最强的解释能力。
1在第一个成分t1和u1被提取后,偏最小二乘回归分别实施X对匕的回归以 与Y对u1的回归如果回归方程已经达到满意的精度,则算法终止;否则,将 利用X被t1解释后的残余信息以与Y被t1解释后的残余信息进行第二轮的成分 提取如此往复,直到能达到一个较满意的精度为止若最终对X共提取了 m 个成分〈,...,t ,偏最小二乘回归将通过实施 七对〈,...,t ,的回归, 然后再表达成y关于原变量X. ... X 的回归方程,k=1,2,.,q1.2计算方法推导为了数学推导方便起见,首先将数据做标准化处理X经标准化处理后的数据矩阵记为E0=( E 01,…,E ),七经标准化处理后的数据矩阵记为F =(F,…,F ) 0 01 0q nxp第一步 记匕是e的第一个成分,.是e的第一个轴,它是一个单位向量,既|| W] ||二1记u是F的第一个成分,u=F c c是F的第一个轴,并且|| c ||二11 0 1 0 1 1 0 1如果要t1, U1能分别很好的代表X与Y中的数据变异信息,根据主成分分析原理,应该有Var( u ) — maxVar( t1) — max另一方面,由于回归建模的需要,又要求〈对"1有很大的解释能力,有典型相关 分析的思路,〈与"1的相关度应达到最大值,既r( t1, U1) — max因此,综合起来,在偏最小二乘回归中,我们要求〈与U1的协方差达到最大,既Cov( t1 U1)_ jVar (t ~)Var (U ) r( t1 U1) — max正规的数学表述应该是求解下列优化问题,既w , F cmaxw ,c1' 1s.t因此,将在|| w ||2 =1和|| C || 2 =1的约束条件下,去求(w,E F C )1 1 1 0 0 1的最大值。
如果采用拉格朗日算法,记s=w E F c _ 人,W w 人(c c _1 0 0 1 1 ( 1 1 1) 2 ( 1 1 1)对s分别求关于w1,c,力和人的偏导并令之为零,有——=E F c _2人 w =0 (1 -2)dw o 0 1 — 1 118s——=f E w _ 2 人 c =0 (1-3)1 0(1-4)Qs(1-5)旦二—(c ' c —1)=0° 2 1由式(1-2广(1-5),可以推出2人=2人=w' E' F c =< E w , F c >1 2 1 0 0 1 0 1 0 1记0 = 2人=2人=w' E.Fc,所以,9正是优化问题的目标函数值.1 1 2 1 0 0 1 1把式(1-2)和式(1-3)写成E' F c =0 w (1-6)0 0 1 1 1F' E w =0 c (1-7)0 0 1 1 1将式(1-7)代入式(1-6),有E' F F' E w =0 2w (1-8)0 0 0 0 1 1 1同理,可得F' E E' F c =0 2c (1-9)0 0 0 0 1 1 1可见,w是矩阵E' F F' E的特征向量,对应的特征值为0 2 . 0是目标函数值,它 1 0 0 0 0 1 1要求取最大值,所以,w是对应于E' FF' E矩阵最大特征值的单位特征向量.而 1 0 0 0 0另一方面,c是对应于矩阵F' E E' F最大特征值0 2的单位特征向量. 1 0 0 0 0 1求得轴w1和c1后,即可得到成分t = E wu = F c然后,分别求E和F对t,u的三个回归方程 0 0 1 1E0 =七 p '1 + % (1-10)F = u q,1 + F \ (1-11)F0 ='七 + F] (1-12)式中,回归系数向量是p = J1 II ti II2(1-13)q =日1 II U1 II2(1-14)(1-15)r = 11 II t」|2而E1, F \ , F1分别是三个回归方程的残差矩阵.第二步 用残差矩阵E和F取代E和F,然后,求第二个轴w和c以与第1 1 0 0 2 2二个成分12,U 2,有12 二 E1 w22E '1F1Cw是对应于矩阵E' FF' E最大特征值0 2的特征值,c是对应于矩阵2 1 1 1 1 2 2F' EE' F最大特征值的特征向量.计算回归系数11 11p =工2 II t2 II2r = F '1t 22 II t2 II2因此,有回归方程E1 = 12 P' 2 + E 2F = t r'2 + F如此计算下去,如果X的秩是A,则会有E = t p' + +1 p' (1-16)0 1 1 A AF = t r' + +1 r' + F (1-17 )0 1 1 A A A由于,t ,…,t均可以表示成E,…,E的线性组合,因此,式(1-17)还可以1 A 01 0 p还原成y*= F关于X * = E的回归方程形式,即k 0k j 0 ky * = a x * h a x* + F k=1,2,…,qk k1 1 kp P AkF^是残差距阵FA的第k列。
1.3交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程在许多 情形下,偏最小二乘回归方程并不需要选用全部的成分匕,…,tA进行回归建模,而 是可以象在主成分分析一样,采用截尾的方式选择前m个成分 (m v A,A =秩(X)),仅用这m个后续的成分.…,七就可以得到一个预测性较好 的模型事实上,如果后续的成分已经不能为解释F0提供更有意义的信息时,采 用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论在多元回归分 析一章中,我们曾在调整复测定系数的容中讨论过这一观点下面的问题是怎样来确定所应提取的成分个数在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应 用我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估 计量^,拟合值y以与残差均方和s2 ;再用第二部分数据作为实验点,代入刚才 B B B所求得的回归方程,由此求出y和^2一般地,若有2 y2,则回归方程会有更 T T T B好的预测效果若 吒>>6b,则回归方程不宜用于预测在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增 加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。
采用类似于抽 样测试法的工作方式,把所有n个样本点分成两部分:第一部分除去某个样本点/ 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一 个回归方程;第二部分是把刚才被排除的样本点/代入前面拟合的回归方程,得到 y/在样本点i上的拟合值y研)对于每一个i =1,2,…,n,重复上述测试,则可以 定义y.的预测误差平方和为PRESS.,有PRESSh =u (yi. - y.( .))2 (1-18)i=1定义丫的预测误差平方和为PRESS.,有PRESS =£ PRESS (1-19)j=1显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感, 这种扰动误差的作用,就会加大PRESS舟的值另外,再采用所有的样本点,拟合含h个成分的回归方程这是,记第/个样 本点的预测值为如则可以记七的误差平方和为ss疽有SS =U (y— y ..)2 (1-20)i=1 定义丫的误差平方和为SS,,有SS =XsS (1-21)j=1 一般说来,总是有PRESS大于SS,而SS则总是小于SS 下面比较SS h h h h-1 h-1和PRESS舟SShi是用全部样本点拟合的具有 h-1个成分的方程的拟合误 差;PRESS舟增加了一个成分七,但却含有样本点的扰动误差。
如果h个成分的回 归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则 认为增加一个成分t,会使预测结果明显提高因此我们希望(PRESS /SS )的 h h h-1比值能越小越好在SIMCA-P软件中,指定(PRESSh / SS- 1)< 0.952即PRESSh < 0.95."SS"时,增加成分七就是有益的;或者反过来说,当 、:PRESS人> 0.95."SS「时,就认为增加新的成分气,对减少方程的预测误差无明 显的改善作用.另有一种等价的定义称为交叉有效性对每一个变量y.,定义(1-22)=1-preSL hk SS(h-1) k对于全部因变量Y,成分七交叉有效性定义为E PRESSQ 2 = 1 — -k-1 h Ess(h—1) k(1-23)hk _ 1 PRESS_ - ~sS__h(h-1)用交叉有效性测量成分th对预测模型精度的边际贡献有如下两个尺度。
