
专题6偏最小二乘回归ppt课件.ppt
43页专题专题6 偏最小二乘回归偏最小二乘回归Partial Least-Squares Regression1 1主要内容主要内容一、一、偏最小二乘回归概述偏最小二乘回归概述二、二、偏最小二乘回归的建模步骤偏最小二乘回归的建模步骤三、三、偏最小二乘回归的辅助分析技术偏最小二乘回归的辅助分析技术四、四、偏最小二乘回归的研究前沿偏最小二乘回归的研究前沿五、五、文献研读文献研读2 2一、偏最小二乘回归概述一、偏最小二乘回归概述偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的特点偏最小二乘回归的特点3 3偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景 PLS最先产生于化学领域最先产生于化学领域,在利用分光在利用分光镜来预测化学样本的组成时镜来预测化学样本的组成时,作为解释变量作为解释变量的红外区反射光谱的波长常有几百个的红外区反射光谱的波长常有几百个,往往往往超过化学样本的个数超过化学样本的个数,所造成的多重相关性所造成的多重相关性使得人们很难利用传统的最小二乘法使得人们很难利用传统的最小二乘法。
基于这个应用的需要基于这个应用的需要,S.Wold和和C.Albano等人于等人于1983年首次提出了年首次提出了PLS回回归方法并首先在化工领域取得了广泛的应归方法并首先在化工领域取得了广泛的应用一、偏最小二乘回归概述一、偏最小二乘回归概述4 4 在国内在国内,最早对此进行系统研究的学者最早对此进行系统研究的学者是北京航空航天大学的王惠文教授是北京航空航天大学的王惠文教授一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景( (续续续续) )5 5偏最小二乘回归的基本思想偏最小二乘回归的基本思想 设有设有p个自变量个自变量{ }和和q因变量因变量{ }为了研究因变量和自变量的统计关系为了研究因变量和自变量的统计关系,我们观测了我们观测了n个样本点个样本点,由此构成了自变量由此构成了自变量与因变量的数据表与因变量的数据表X={ }n×p和和Y={ }n×q×q。
偏最小二乘回归分别在偏最小二乘回归分别在X与与Y中提取出中提取出成分成分t1和和u1(也就是说也就是说, t1是是 的线性的线性组合组合, u1是是 的线性组合的线性组合) 一、偏最小二乘回归概述一、偏最小二乘回归概述6 6 在提取这两个成分时在提取这两个成分时,为了回归分析的为了回归分析的需要需要,有下列两个要求有下列两个要求:(1)t1和和u1应尽可能大地携带它们各自数据表应尽可能大地携带它们各自数据表中的变异信息中的变异信息;(2)t1和和u1的相关程度能够达到最大的相关程度能够达到最大 这两个要求表明:这两个要求表明:t1和和u1应尽可能好地应尽可能好地代表数据表代表数据表X和和Y,同时同时,自变量的成分自变量的成分t1对因对因变量的成分变量的成分u1又有很强的解释能力又有很强的解释能力一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想( (续续续续) )7 7 在第一个成分在第一个成分在第一个成分在第一个成分t t1 1和和和和u u1 1被提取后被提取后被提取后被提取后, ,偏最小二乘回偏最小二乘回偏最小二乘回偏最小二乘回归分别实施归分别实施归分别实施归分别实施X X对对对对t t1 1的回归以及的回归以及的回归以及的回归以及Y Y对对对对t t1 1的回归。
如果的回归如果的回归如果的回归如果回归方程已经达到满意的精度回归方程已经达到满意的精度回归方程已经达到满意的精度回归方程已经达到满意的精度, ,则算法终止则算法终止则算法终止则算法终止; ;否则否则否则否则, ,将利用将利用将利用将利用 X X被被被被t t1 1解释后的解释后的解释后的解释后的残余信息残余信息残余信息残余信息以及以及以及以及Y Y被被被被t t1 1解释后解释后解释后解释后的的的的残余信息残余信息残余信息残余信息进行第二轮的成分提取如此往复进行第二轮的成分提取如此往复进行第二轮的成分提取如此往复进行第二轮的成分提取如此往复, ,直直直直到能达到一个较满意的精度为止到能达到一个较满意的精度为止到能达到一个较满意的精度为止到能达到一个较满意的精度为止 若最终对若最终对若最终对若最终对 X X共提取了共提取了共提取了共提取了mm个成分个成分个成分个成分t t1 1、、、、t t2 2、、、、……、、、、t tmm, ,偏最小二乘回归将通过实施偏最小二乘回归将通过实施偏最小二乘回归将通过实施偏最小二乘回归将通过实施y yk k(k(k=1=1、、、、2 2、、、、……、、、、q)q)对对对对t t1 1、、、、t t2 2、、、、……、、、、t tmm的回归的回归的回归的回归, ,然后表达成然后表达成然后表达成然后表达成y yk k关于原关于原关于原关于原变量变量变量变量x x1 1、、、、x x2 2、、、、……、、、、x xp p的回归方程。
的回归方程的回归方程的回归方程一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想( (续续续续) )8 8偏最小二乘回归的特点偏最小二乘回归的特点1.PLS是一种可以处理是一种可以处理多个因变量对多个自变多个因变量对多个自变量量的回归建模方法特别当各变量集合内的回归建模方法特别当各变量集合内部存在较高程度的相关性时部存在较高程度的相关性时,用用PLS进行回进行回归建模分析归建模分析,比对逐个因变量做多元回归更比对逐个因变量做多元回归更加有效加有效,其结论更加可靠其结论更加可靠,整体性更强整体性更强2.PLS可以较好地解决许多以往用普通多元回可以较好地解决许多以往用普通多元回归分析方法无法解决的重要问题例如自归分析方法无法解决的重要问题例如自变量之间的多重相关性问题和样本点容量变量之间的多重相关性问题和样本点容量不宜太少等问题不宜太少等问题一、偏最小二乘回归概述一、偏最小二乘回归概述9 9偏最小二乘回归的特点偏最小二乘回归的特点1.PLS是一种可以处理多个因变量对多个自变是一种可以处理多个因变量对多个自变量的回归建模方法。
特别当各变量集合内量的回归建模方法特别当各变量集合内部存在较高程度的相关性时部存在较高程度的相关性时,用用PLS进行回进行回归建模分析归建模分析,比对逐个因变量做多元回归更比对逐个因变量做多元回归更加有效加有效,其结论更加可靠其结论更加可靠,整体性更强整体性更强2.PLS可以较好地解决许多以往用普通多元回可以较好地解决许多以往用普通多元回归分析方法无法解决的重要问题例如自归分析方法无法解决的重要问题例如自变量之间的多重相关性问题和样本点容量变量之间的多重相关性问题和样本点容量不宜太少等问题不宜太少等问题一、偏最小二乘回归概述一、偏最小二乘回归概述10103.PLS可以实现多种数据分析方法的综合应用可以实现多种数据分析方法的综合应用它可以集它可以集多元线性回归方法多元线性回归方法、、主成分分析主成分分析法法和和典型相关分析典型相关分析的基本功能为一体在的基本功能为一体在一次一次PLS计算后计算后,不但可以得到多因变量对不但可以得到多因变量对多自变量的回归模型多自变量的回归模型,而且可以分析而且可以分析2组变组变量之间的相关关系量之间的相关关系,以及观察样本点间的相以及观察样本点间的相似性结构。
这使得数据系统的分析内容更似性结构这使得数据系统的分析内容更加丰富加丰富,同时还可以对所建立的回归模型给同时还可以对所建立的回归模型给予许多更详细深入的实际解释予许多更详细深入的实际解释一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点( (续续续续) )11114.PLS允许在最终模型中包含原来全部自变量允许在最终模型中包含原来全部自变量,最大限度地利用数据信息最大限度地利用数据信息,使得使得PLS在相同在相同的数据信息情况下比普通多元二乘回归模的数据信息情况下比普通多元二乘回归模型具有更高的有效性型具有更高的有效性5.在建模的同时实现了数据结构的简化在建模的同时实现了数据结构的简化,可以可以在二维平面上对多维数据的特性进行观察在二维平面上对多维数据的特性进行观察,图形功能强大图形功能强大 因此因此,许多统计分析专家称许多统计分析专家称PLS为为第二第二代回归分析方法代回归分析方法一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点( (续续续续) )1212二二、、偏最小二乘回归的建模步骤偏最小二乘回归的建模步骤Step1.将将X与与Y进行标准化处理进行标准化处理,得到标准化得到标准化后的自变量矩阵后的自变量矩阵E0=(E01,E02,…,E0P)n×p和和因变量矩阵因变量矩阵 F0= (F01,F02,…,F0q)n×q 。
标准化处理的目的是为了公式表达上的标准化处理的目的是为了公式表达上的方便和减少运算误差方便和减少运算误差1313Step2.记记记记t t1是是是是E E0的第的第的第的第1 1个成分个成分个成分个成分,t ,t1=E=E0ωω1, ω, ω1是是是是E E0的的的的第第第第1 1个轴个轴个轴个轴, ,它是一个单位向量,既它是一个单位向量,既它是一个单位向量,既它是一个单位向量,既||ω||ω1||=1||=1 记记记记u u1是是是是F F0的第的第的第的第1 1个成分个成分个成分个成分, u, u1 = F = F0 c c1c c1是是是是F F0的第的第的第的第1 1个轴个轴个轴个轴, ,并且并且并且并且||c||c1||=1||=1 如果要如果要如果要如果要t t1和和和和u u1能分别很好地代表能分别很好地代表能分别很好地代表能分别很好地代表X X与与与与Y Y中的数中的数中的数中的数据变异信息据变异信息据变异信息据变异信息, ,根据主成分分析原理,应该有:根据主成分分析原理,应该有:根据主成分分析原理,应该有:根据主成分分析原理,应该有: Var(tVar(t1) )maxmax Var(u Var(u1) )maxmax二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1414 另一方面另一方面另一方面另一方面, ,由于回归建模的需要由于回归建模的需要由于回归建模的需要由于回归建模的需要, ,又要求又要求又要求又要求t t1对对对对u u1有很大的解释能力有很大的解释能力有很大的解释能力有很大的解释能力, ,由典型相关分析的思路由典型相关分析的思路由典型相关分析的思路由典型相关分析的思路,t ,t1与与与与u u1的相关度应达到最大值的相关度应达到最大值的相关度应达到最大值的相关度应达到最大值, ,即即即即: : r(t r(t1,u,u1) )maxmax 因此因此因此因此, ,综合起来综合起来综合起来综合起来, ,在偏最小二乘回归中在偏最小二乘回归中在偏最小二乘回归中在偏最小二乘回归中, ,我们要我们要我们要我们要求求求求t t1与与与与u u1的协方差达到最大的协方差达到最大的协方差达到最大的协方差达到最大, ,即即即即: : Cov(t Cov(t1,u,u1)= r(t)= r(t1,u,u1) )maxmax二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1515 正规的数学表述应该是求解下列优化问题正规的数学表述应该是求解下列优化问题正规的数学表述应该是求解下列优化问题正规的数学表述应该是求解下列优化问题: : 因此,将在因此,将在因此,将在因此,将在||ω||ω1|| ||2 2=1=1和和和和||c||c1|| ||2 2=1=1的约束条件的约束条件的约束条件的约束条件下下下下, ,去求去求去求去求 的最大值。
的最大值的最大值的最大值 s.t 二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1616 采用拉格朗日算法采用拉格朗日算法采用拉格朗日算法采用拉格朗日算法( (过程略过程略过程略过程略), ),可得可得可得可得: : ωω1是矩阵是矩阵是矩阵是矩阵 的特征向量的特征向量的特征向量的特征向量, ,对应的特对应的特对应的特对应的特征值为征值为征值为征值为 , , 是目标函数值是目标函数值是目标函数值是目标函数值, ,它要求取最大值它要求取最大值它要求取最大值它要求取最大值, ,所所所所以以以以, ω, ω1是对应于是对应于是对应于是对应于 矩阵最大特征值的单位矩阵最大特征值的单位矩阵最大特征值的单位矩阵最大特征值的单位特征向量。
特征向量特征向量特征向量 而另一方面而另一方面而另一方面而另一方面, c, c1是对应于矩阵是对应于矩阵是对应于矩阵是对应于矩阵 最大最大最大最大特征值特征值特征值特征值 的单位特征向量的单位特征向量的单位特征向量的单位特征向量二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1717 求得求得ω1和和c1后后,即可得到成分即可得到成分: 然后然后,分别求分别求E0和和F0对对t1的回归方程的回归方程:二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1818Step3.用残差矩阵用残差矩阵E1和和F1取代取代E0和和F0然后,求第求第2个轴个轴ω2和和c2以及第以及第2个成分个成分t2和和u2,有有:同理同理,有有: ω2是对应于矩阵是对应于矩阵 最大特征值最大特征值 的特征向量的特征向量, c2是对应于矩阵是对应于矩阵 最大最大特征值的特征向量。












