好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

专题6偏最小二乘回归ppt课件.ppt

43页
  • 卖家[上传人]:re****.1
  • 文档编号:587628401
  • 上传时间:2024-09-06
  • 文档格式:PPT
  • 文档大小:1.44MB
  • / 43 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 专题专题6 偏最小二乘回归偏最小二乘回归Partial Least-Squares Regression1 1 主要内容主要内容一、一、偏最小二乘回归概述偏最小二乘回归概述二、二、偏最小二乘回归的建模步骤偏最小二乘回归的建模步骤三、三、偏最小二乘回归的辅助分析技术偏最小二乘回归的辅助分析技术四、四、偏最小二乘回归的研究前沿偏最小二乘回归的研究前沿五、五、文献研读文献研读2 2 一、偏最小二乘回归概述一、偏最小二乘回归概述偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的特点偏最小二乘回归的特点3 3 偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景 PLS最先产生于化学领域最先产生于化学领域,在利用分光在利用分光镜来预测化学样本的组成时镜来预测化学样本的组成时,作为解释变量作为解释变量的红外区反射光谱的波长常有几百个的红外区反射光谱的波长常有几百个,往往往往超过化学样本的个数超过化学样本的个数,所造成的多重相关性所造成的多重相关性使得人们很难利用传统的最小二乘法使得人们很难利用传统的最小二乘法。

      基于这个应用的需要基于这个应用的需要,S.Wold和和C.Albano等人于等人于1983年首次提出了年首次提出了PLS回回归方法并首先在化工领域取得了广泛的应归方法并首先在化工领域取得了广泛的应用一、偏最小二乘回归概述一、偏最小二乘回归概述4 4 在国内在国内,最早对此进行系统研究的学者最早对此进行系统研究的学者是北京航空航天大学的王惠文教授是北京航空航天大学的王惠文教授一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景偏最小二乘回归方法的产生背景( (续续续续) )5 5 偏最小二乘回归的基本思想偏最小二乘回归的基本思想 设有设有p个自变量个自变量{ }和和q因变量因变量{ }为了研究因变量和自变量的统计关系为了研究因变量和自变量的统计关系,我们观测了我们观测了n个样本点个样本点,由此构成了自变量由此构成了自变量与因变量的数据表与因变量的数据表X={ }n×p和和Y={ }n×q×q。

      偏最小二乘回归分别在偏最小二乘回归分别在X与与Y中提取出中提取出成分成分t1和和u1(也就是说也就是说, t1是是 的线性的线性组合组合, u1是是 的线性组合的线性组合) 一、偏最小二乘回归概述一、偏最小二乘回归概述6 6 在提取这两个成分时在提取这两个成分时,为了回归分析的为了回归分析的需要需要,有下列两个要求有下列两个要求:(1)t1和和u1应尽可能大地携带它们各自数据表应尽可能大地携带它们各自数据表中的变异信息中的变异信息;(2)t1和和u1的相关程度能够达到最大的相关程度能够达到最大 这两个要求表明:这两个要求表明:t1和和u1应尽可能好地应尽可能好地代表数据表代表数据表X和和Y,同时同时,自变量的成分自变量的成分t1对因对因变量的成分变量的成分u1又有很强的解释能力又有很强的解释能力一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想( (续续续续) )7 7 在第一个成分在第一个成分在第一个成分在第一个成分t t1 1和和和和u u1 1被提取后被提取后被提取后被提取后, ,偏最小二乘回偏最小二乘回偏最小二乘回偏最小二乘回归分别实施归分别实施归分别实施归分别实施X X对对对对t t1 1的回归以及的回归以及的回归以及的回归以及Y Y对对对对t t1 1的回归。

      如果的回归如果的回归如果的回归如果回归方程已经达到满意的精度回归方程已经达到满意的精度回归方程已经达到满意的精度回归方程已经达到满意的精度, ,则算法终止则算法终止则算法终止则算法终止; ;否则否则否则否则, ,将利用将利用将利用将利用 X X被被被被t t1 1解释后的解释后的解释后的解释后的残余信息残余信息残余信息残余信息以及以及以及以及Y Y被被被被t t1 1解释后解释后解释后解释后的的的的残余信息残余信息残余信息残余信息进行第二轮的成分提取如此往复进行第二轮的成分提取如此往复进行第二轮的成分提取如此往复进行第二轮的成分提取如此往复, ,直直直直到能达到一个较满意的精度为止到能达到一个较满意的精度为止到能达到一个较满意的精度为止到能达到一个较满意的精度为止 若最终对若最终对若最终对若最终对 X X共提取了共提取了共提取了共提取了mm个成分个成分个成分个成分t t1 1、、、、t t2 2、、、、……、、、、t tmm, ,偏最小二乘回归将通过实施偏最小二乘回归将通过实施偏最小二乘回归将通过实施偏最小二乘回归将通过实施y yk k(k(k=1=1、、、、2 2、、、、……、、、、q)q)对对对对t t1 1、、、、t t2 2、、、、……、、、、t tmm的回归的回归的回归的回归, ,然后表达成然后表达成然后表达成然后表达成y yk k关于原关于原关于原关于原变量变量变量变量x x1 1、、、、x x2 2、、、、……、、、、x xp p的回归方程。

      的回归方程的回归方程的回归方程一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想偏最小二乘回归的基本思想( (续续续续) )8 8 偏最小二乘回归的特点偏最小二乘回归的特点1.PLS是一种可以处理是一种可以处理多个因变量对多个自变多个因变量对多个自变量量的回归建模方法特别当各变量集合内的回归建模方法特别当各变量集合内部存在较高程度的相关性时部存在较高程度的相关性时,用用PLS进行回进行回归建模分析归建模分析,比对逐个因变量做多元回归更比对逐个因变量做多元回归更加有效加有效,其结论更加可靠其结论更加可靠,整体性更强整体性更强2.PLS可以较好地解决许多以往用普通多元回可以较好地解决许多以往用普通多元回归分析方法无法解决的重要问题例如自归分析方法无法解决的重要问题例如自变量之间的多重相关性问题和样本点容量变量之间的多重相关性问题和样本点容量不宜太少等问题不宜太少等问题一、偏最小二乘回归概述一、偏最小二乘回归概述9 9 偏最小二乘回归的特点偏最小二乘回归的特点1.PLS是一种可以处理多个因变量对多个自变是一种可以处理多个因变量对多个自变量的回归建模方法。

      特别当各变量集合内量的回归建模方法特别当各变量集合内部存在较高程度的相关性时部存在较高程度的相关性时,用用PLS进行回进行回归建模分析归建模分析,比对逐个因变量做多元回归更比对逐个因变量做多元回归更加有效加有效,其结论更加可靠其结论更加可靠,整体性更强整体性更强2.PLS可以较好地解决许多以往用普通多元回可以较好地解决许多以往用普通多元回归分析方法无法解决的重要问题例如自归分析方法无法解决的重要问题例如自变量之间的多重相关性问题和样本点容量变量之间的多重相关性问题和样本点容量不宜太少等问题不宜太少等问题一、偏最小二乘回归概述一、偏最小二乘回归概述1010 3.PLS可以实现多种数据分析方法的综合应用可以实现多种数据分析方法的综合应用它可以集它可以集多元线性回归方法多元线性回归方法、、主成分分析主成分分析法法和和典型相关分析典型相关分析的基本功能为一体在的基本功能为一体在一次一次PLS计算后计算后,不但可以得到多因变量对不但可以得到多因变量对多自变量的回归模型多自变量的回归模型,而且可以分析而且可以分析2组变组变量之间的相关关系量之间的相关关系,以及观察样本点间的相以及观察样本点间的相似性结构。

      这使得数据系统的分析内容更似性结构这使得数据系统的分析内容更加丰富加丰富,同时还可以对所建立的回归模型给同时还可以对所建立的回归模型给予许多更详细深入的实际解释予许多更详细深入的实际解释一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点( (续续续续) )1111 4.PLS允许在最终模型中包含原来全部自变量允许在最终模型中包含原来全部自变量,最大限度地利用数据信息最大限度地利用数据信息,使得使得PLS在相同在相同的数据信息情况下比普通多元二乘回归模的数据信息情况下比普通多元二乘回归模型具有更高的有效性型具有更高的有效性5.在建模的同时实现了数据结构的简化在建模的同时实现了数据结构的简化,可以可以在二维平面上对多维数据的特性进行观察在二维平面上对多维数据的特性进行观察,图形功能强大图形功能强大 因此因此,许多统计分析专家称许多统计分析专家称PLS为为第二第二代回归分析方法代回归分析方法一、偏最小二乘回归概述一、偏最小二乘回归概述——偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点偏最小二乘回归的特点( (续续续续) )1212 二二、、偏最小二乘回归的建模步骤偏最小二乘回归的建模步骤Step1.将将X与与Y进行标准化处理进行标准化处理,得到标准化得到标准化后的自变量矩阵后的自变量矩阵E0=(E01,E02,…,E0P)n×p和和因变量矩阵因变量矩阵 F0= (F01,F02,…,F0q)n×q 。

      标准化处理的目的是为了公式表达上的标准化处理的目的是为了公式表达上的方便和减少运算误差方便和减少运算误差1313 Step2.记记记记t t1是是是是E E0的第的第的第的第1 1个成分个成分个成分个成分,t ,t1=E=E0ωω1, ω, ω1是是是是E E0的的的的第第第第1 1个轴个轴个轴个轴, ,它是一个单位向量,既它是一个单位向量,既它是一个单位向量,既它是一个单位向量,既||ω||ω1||=1||=1 记记记记u u1是是是是F F0的第的第的第的第1 1个成分个成分个成分个成分, u, u1 = F = F0 c c1c c1是是是是F F0的第的第的第的第1 1个轴个轴个轴个轴, ,并且并且并且并且||c||c1||=1||=1 如果要如果要如果要如果要t t1和和和和u u1能分别很好地代表能分别很好地代表能分别很好地代表能分别很好地代表X X与与与与Y Y中的数中的数中的数中的数据变异信息据变异信息据变异信息据变异信息, ,根据主成分分析原理,应该有:根据主成分分析原理,应该有:根据主成分分析原理,应该有:根据主成分分析原理,应该有: Var(tVar(t1) )maxmax Var(u Var(u1) )maxmax二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1414 另一方面另一方面另一方面另一方面, ,由于回归建模的需要由于回归建模的需要由于回归建模的需要由于回归建模的需要, ,又要求又要求又要求又要求t t1对对对对u u1有很大的解释能力有很大的解释能力有很大的解释能力有很大的解释能力, ,由典型相关分析的思路由典型相关分析的思路由典型相关分析的思路由典型相关分析的思路,t ,t1与与与与u u1的相关度应达到最大值的相关度应达到最大值的相关度应达到最大值的相关度应达到最大值, ,即即即即: : r(t r(t1,u,u1) )maxmax 因此因此因此因此, ,综合起来综合起来综合起来综合起来, ,在偏最小二乘回归中在偏最小二乘回归中在偏最小二乘回归中在偏最小二乘回归中, ,我们要我们要我们要我们要求求求求t t1与与与与u u1的协方差达到最大的协方差达到最大的协方差达到最大的协方差达到最大, ,即即即即: : Cov(t Cov(t1,u,u1)= r(t)= r(t1,u,u1) )maxmax二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1515 正规的数学表述应该是求解下列优化问题正规的数学表述应该是求解下列优化问题正规的数学表述应该是求解下列优化问题正规的数学表述应该是求解下列优化问题: : 因此,将在因此,将在因此,将在因此,将在||ω||ω1|| ||2 2=1=1和和和和||c||c1|| ||2 2=1=1的约束条件的约束条件的约束条件的约束条件下下下下, ,去求去求去求去求 的最大值。

      的最大值的最大值的最大值 s.t 二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1616 采用拉格朗日算法采用拉格朗日算法采用拉格朗日算法采用拉格朗日算法( (过程略过程略过程略过程略), ),可得可得可得可得: : ωω1是矩阵是矩阵是矩阵是矩阵 的特征向量的特征向量的特征向量的特征向量, ,对应的特对应的特对应的特对应的特征值为征值为征值为征值为 , , 是目标函数值是目标函数值是目标函数值是目标函数值, ,它要求取最大值它要求取最大值它要求取最大值它要求取最大值, ,所所所所以以以以, ω, ω1是对应于是对应于是对应于是对应于 矩阵最大特征值的单位矩阵最大特征值的单位矩阵最大特征值的单位矩阵最大特征值的单位特征向量。

      特征向量特征向量特征向量 而另一方面而另一方面而另一方面而另一方面, c, c1是对应于矩阵是对应于矩阵是对应于矩阵是对应于矩阵 最大最大最大最大特征值特征值特征值特征值 的单位特征向量的单位特征向量的单位特征向量的单位特征向量二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1717 求得求得ω1和和c1后后,即可得到成分即可得到成分: 然后然后,分别求分别求E0和和F0对对t1的回归方程的回归方程:二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1818 Step3.用残差矩阵用残差矩阵E1和和F1取代取代E0和和F0然后,求第求第2个轴个轴ω2和和c2以及第以及第2个成分个成分t2和和u2,有有:同理同理,有有: ω2是对应于矩阵是对应于矩阵 最大特征值最大特征值 的特征向量的特征向量, c2是对应于矩阵是对应于矩阵 最大最大特征值的特征向量。

      特征值的特征向量二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤1919 从而从而,有回归方程有回归方程:二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤2020 Step4.如此计算下去如此计算下去,如果如果X的秩是的秩是A,则会有则会有: 由于由于t1,t2,…,tA均可以表示成均可以表示成E01,E02,…,E0p的线性组合的线性组合,因此上式可还原因此上式可还原成成yk*=F0k关于关于yk*=E0j的回归方程形式的回归方程形式,即即:二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤2121 Step5.确定抽取成分的个数确定抽取成分的个数——交叉有效性交叉有效性 下面要讨论的问题是在现有的数据表下下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程在许多情形下如何确定更好的回归方程在许多情形下,偏最小二乘回归方程并不需要选用全部的偏最小二乘回归方程并不需要选用全部的成分成分t1,t2,…,tA进行回归建模进行回归建模,而是可以像而是可以像在主成分分析时一样在主成分分析时一样,采用截尾的方式选择采用截尾的方式选择前前m 个成分个成分(m

      模型二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤2222 在多元回归分析中在多元回归分析中,经常采用抽样测试经常采用抽样测试法来确定回归模型是否适于预测应用该法来确定回归模型是否适于预测应用该方法是把观测到的样本点分成方法是把观测到的样本点分成2部分部分:第第1部部分数据用于建立回归方程分数据用于建立回归方程,求出回归系数估求出回归系数估计量计量 ,拟合值拟合值 以及残差均方和以及残差均方和 ;再再用第用第2部分数据作为试验点部分数据作为试验点,代入所求得的代入所求得的回归方程回归方程,由此求出由此求出 一般地,若有若有 ,则回归方程会有更好的预测效果则回归方程会有更好的预测效果;若若 ,则回归方程不宜用于预测则回归方程不宜用于预测二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤2323 在在在在PLSPLS建模中建模中建模中建模中, ,究竟该选取多少个成分为宜究竟该选取多少个成分为宜究竟该选取多少个成分为宜究竟该选取多少个成分为宜, ,这可通过考察增加一个新的成分后这可通过考察增加一个新的成分后这可通过考察增加一个新的成分后这可通过考察增加一个新的成分后, ,能否对模型的能否对模型的能否对模型的能否对模型的预测功能有明显改进来考虑。

      预测功能有明显改进来考虑预测功能有明显改进来考虑预测功能有明显改进来考虑 采用类似于抽样测试法的工作方式采用类似于抽样测试法的工作方式采用类似于抽样测试法的工作方式采用类似于抽样测试法的工作方式, ,把所有把所有把所有把所有n n个样本点分成个样本点分成个样本点分成个样本点分成2 2部分部分部分部分: :第第第第1 1部分除去某个样本点部分除去某个样本点部分除去某个样本点部分除去某个样本点i i的的的的所有样本点集合所有样本点集合所有样本点集合所有样本点集合( (共含共含共含共含n-1n-1个样本点个样本点个样本点个样本点), ),用这部分样用这部分样用这部分样用这部分样本点并使用本点并使用本点并使用本点并使用h h个成分拟合一个回归方程个成分拟合一个回归方程个成分拟合一个回归方程个成分拟合一个回归方程; ;第二部分第二部分第二部分第二部分是把刚才被排除的样本点是把刚才被排除的样本点是把刚才被排除的样本点是把刚才被排除的样本点i i代入前面拟合的回归方代入前面拟合的回归方代入前面拟合的回归方代入前面拟合的回归方程程程程, ,得到得到得到得到 在样本点在样本点在样本点在样本点i i上的拟合值上的拟合值上的拟合值上的拟合值 。

      二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤2424 对于每一个对于每一个i=1,2,…,n,重复上述测试重复上述测试,则可以定义则可以定义 的的预测误差平方和预测误差平方和为为 ,有有: 定义定义Y的的预测误差平方和预测误差平方和为为 ,有有:二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤 显显然然,如果回如果回归归方程的方程的稳稳健性不好健性不好,误误差就很大差就很大,它它对样对样本点的本点的变动变动就会十分敏感就会十分敏感,这这种种扰动误扰动误差的作差的作用就会加大用就会加大SPRESS,h的的值值2525 另外另外,再采用所有的样本点再采用所有的样本点,拟合含拟合含h 个成分的回归方程这时个成分的回归方程这时,记第记第i个样本点的个样本点的预测值为预测值为 ,则可以定义则可以定义 的的误差平方和误差平方和为为 ,有有: 定义定义Y的的误差平方和误差平方和为为 ,有有:二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤2626 一般说来一般说来,总是有总是有(WHY?): 下面下面,比较比较二、偏最小二乘回归的建模步骤二、偏最小二乘回归的建模步骤 是用全部是用全部样样本点本点拟拟合的具有合的具有h-1个成分的个成分的方程的方程的拟拟合合误误差差; 增加了增加了1个成分个成分 ,但却含有但却含有样样本点的本点的扰动误扰动误差。

      差 如果如果h个成分的回归方程的含扰动误差个成分的回归方程的含扰动误差SPRESS,h能在一定程度上小于能在一定程度上小于(h-1)个成分回归方程的拟合误个成分回归方程的拟合误差差SSS,h-1,则认为增加则认为增加1个成分个成分 ,会使预测的精度明会使预测的精度明显提高 2727 三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术与典型相关分析对应的研究内容与典型相关分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容2828 与典型相关分析对应的研究内容与典型相关分析对应的研究内容1.精度分析精度分析(1)th对某自变量对某自变量xj的解释能力为的解释能力为(2)th对对X的解释能力为的解释能力为(3) t1,t2,……,tm对对X的累计解释能力为的累计解释能力为三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术2929 (4) t1,t2,……,tm对某自变量对某自变量xj的累计解释能力的累计解释能力为为(5)th对某因变量对某因变量yk的解释能力为的解释能力为(6)th对对Y的解释能力为的解释能力为三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容 ( (续续续续) )3030 (7) t1,t2,……,tm对对Y的累计解释能力为的累计解释能力为(8) t1,t2,……,tm对某因变量对某因变量yk的解释能力为的解释能力为三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容 ( (续续续续) )3131 2.判断判断X与与Y之间的相关关系之间的相关关系 由于在由于在PLS分析中分析中,自变量的成分自变量的成分t1与与因变量的成分因变量的成分u1明显具备典型成分的特征明显具备典型成分的特征,因此类似地因此类似地,也可以绘制也可以绘制t1/u1平面图平面图,在其在其上标出每个样本点上标出每个样本点(t1(i),u1(i))的位置。

      的位置 如果在图中明显观察到如果在图中明显观察到t1与与u1之间存在之间存性关系线性关系,则说明则说明X与与Y有显著的相关关系有显著的相关关系,这时采用这时采用PLS建立建立Y对对X的线性模型才会是的线性模型才会是比较合理的比较合理的三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容 ( (续续续续) )3232 3.自变量自变量xj在解释因变量集合在解释因变量集合Y时的作用时的作用 xj在解释在解释Y时作用的重要性时作用的重要性,可以用变量可以用变量投影重要性指标投影重要性指标(Variable Importance in Projection,VIP),即即:三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容 ( (续续续续) )3333 需要注意的是:需要注意的是:需要注意的是:需要注意的是: 在上述分析自变量在上述分析自变量在上述分析自变量在上述分析自变量xjxj对因变量的解释能力过程对因变量的解释能力过程对因变量的解释能力过程对因变量的解释能力过程中中中中, ,虽然定义了虽然定义了虽然定义了虽然定义了VIPjVIPj指标指标指标指标, ,但其分析结论还基本是但其分析结论还基本是但其分析结论还基本是但其分析结论还基本是定性的。

      定性的 我们只能说明相对而言我们只能说明相对而言我们只能说明相对而言我们只能说明相对而言, ,哪些自变量的作用更哪些自变量的作用更哪些自变量的作用更哪些自变量的作用更大一些大一些大一些大一些, ,但却不能决定哪些自变量几乎没有作用但却不能决定哪些自变量几乎没有作用但却不能决定哪些自变量几乎没有作用但却不能决定哪些自变量几乎没有作用, ,因此,可以从自变量集合中被删除因此,可以从自变量集合中被删除因此,可以从自变量集合中被删除因此,可以从自变量集合中被删除 要解决这一问题要解决这一问题要解决这一问题要解决这一问题, ,还需要发展进一步的统计检还需要发展进一步的统计检还需要发展进一步的统计检还需要发展进一步的统计检验技术验技术验技术验技术, ,如如如如:Bootstrap:Bootstrap三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容 ( (续续续续) )3434 4.对成分的解释或命名对成分的解释或命名 我们从我们从th的构造方式来对其做一大致的的构造方式来对其做一大致的解释:解释: 其中其中,E0j是是xj的标准化后的变量的标准化后的变量; 可见可见,E0j的权重的权重ωhj*越大越大,xj在构造在构造th时的边际贡献就越为重要。

      因此在实际应时的边际贡献就越为重要因此在实际应用中用中,可根据可根据ωhj*(j=1,2,…,p)的取值情况的取值情况来大致判断成分来大致判断成分th的物理含义的物理含义三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容与典型相关分析对应的研究内容 ( (续续续续) )3535 与主成分分析对应的研究内容与主成分分析对应的研究内容1.1.对样本点分布结构的观察对样本点分布结构的观察对样本点分布结构的观察对样本点分布结构的观察 从从从从PLSPLS对成分提取的过程来看对成分提取的过程来看对成分提取的过程来看对成分提取的过程来看,t ,th h虽然并不是虽然并不是虽然并不是虽然并不是主成分分析中的主成分主成分分析中的主成分主成分分析中的主成分主成分分析中的主成分, ,但它却带有很明显的主成但它却带有很明显的主成但它却带有很明显的主成但它却带有很明显的主成分特征例如分特征例如分特征例如分特征例如t t1 1, ,它是在能很大程度解释它是在能很大程度解释它是在能很大程度解释它是在能很大程度解释Y Y的同时的同时的同时的同时, ,又尽可能多地反映又尽可能多地反映又尽可能多地反映又尽可能多地反映X X中的变异信息。

      中的变异信息中的变异信息中的变异信息 所以所以所以所以, ,在在在在PLSPLS分析后分析后分析后分析后, ,可以直接利用成分可以直接利用成分可以直接利用成分可以直接利用成分t t1 1、、、、t t2 2, ,做做做做t t1 1/t /t2 2平面图在这个图上平面图在这个图上平面图在这个图上平面图在这个图上, ,以以以以(t (t1 1(i),t(i),t2 2(i))(i))作作作作为样本点为样本点为样本点为样本点i i的坐标点的坐标点的坐标点的坐标点, ,绘出所有样本点的位置绘出所有样本点的位置绘出所有样本点的位置绘出所有样本点的位置, ,从而从而从而从而观察样本点在高维空间的分布特征和相似性结构观察样本点在高维空间的分布特征和相似性结构观察样本点在高维空间的分布特征和相似性结构观察样本点在高维空间的分布特征和相似性结构三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术3636 2.特异点的发现特异点的发现 样本中特异点的存在会对回归线产生明样本中特异点的存在会对回归线产生明显的拉动作用显的拉动作用,使模型偏离原统计规律。

      使模型偏离原统计规律 类似于主成分分析类似于主成分分析,定义第定义第i个样本点对个样本点对第第h成分成分th的贡献率的贡献率:三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容 ( (续续续续) )3737 从而从而,样本点样本点i对成分对成分t1,t2,…,tm的累计贡献的累计贡献率率: 一般说来一般说来,Ti2值不宜过大一个点若对成值不宜过大一个点若对成分构成的贡献过大分构成的贡献过大,它的存在有可能使分析它的存在有可能使分析发生偏离发生偏离Tracy给出了一个统计量用以检给出了一个统计量用以检验验:三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容 ( (续续续续) )3838 所以所以,当当 时时,可以认为在可以认为在95%的检验水平下的检验水平下,样本点样本点对成分对成分t1、、t2、、…、、tm的贡献过大的贡献过大,这时称样这时称样本点本点i为一个特异点。

      为一个特异点三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容 ( (续续续续) )3939 当当m=2时时,这个判别条件为这个判别条件为 则有则有: 上式是一个椭圆上式是一个椭圆三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容 ( (续续续续) )4040 所以所以,在在t1/t2平面图上平面图上,可以做出这个可以做出这个椭圆图如果所有的样本点都落在椭圆内椭圆图如果所有的样本点都落在椭圆内,则认为所有的样本点的分布是均匀的则认为所有的样本点的分布是均匀的;否则否则,若有若干样本点落在椭圆之外若有若干样本点落在椭圆之外,则可以认为则可以认为这些点是特异点这些点是特异点,它们的取值远离所有样本它们的取值远离所有样本点的平均水平点的平均水平三、偏最小二乘回归的辅助分析技术三、偏最小二乘回归的辅助分析技术——与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容与主成分分析对应的研究内容 ( (续续续续) )4141 四、偏最小二乘回归的研究前沿四、偏最小二乘回归的研究前沿ØPartial Least-Squares Path ModelingØPartial Least-Squares Hierarchical ModelingØNonlinear Partial Least-Squares Regression4242 五、文献研读五、文献研读 The PLS Procedure.SAS OnlineDocTM:Version84343 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.