电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

类型MATLAB数据分析方法_主成分分析

收藏

编号:341107354    类型:共享资源    大小:1.03MB    格式:PPT    上传时间:2022-11-28
  
10
金贝
分享到微信 分享到微博 分享到QQ空间
关 键 词:
MATLAB 数据 分析 方法 成分
资源描述:
MATLAB数据分析方法数据分析方法 第第5章章 主成分与典型相关分析主成分与典型相关分析 主成分分析就是将原来指标重新组合成一组新的主成分分析就是将原来指标重新组合成一组新的互相无关的指标来代替原来指标互相无关的指标来代替原来指标.这些综合指标就是原这些综合指标就是原来指标的线性组合,同时根据实际需要从中选取几个来指标的线性组合,同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来指标的信息较少的综合指标尽可能多地反映原来指标的信息.5.1主成分分析的基本原理主成分分析的基本原理 1.基本思想基本思想主成分分析是一种数学降维的方法,找出几个综合变主成分分析是一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。的统计分析方法就叫做主成分分析或主分量分析。2.主成分的数学模型主成分的数学模型设设X1,X2,Xp,为实际问题的,为实际问题的p个个n维随机变量维随机变量(p项指标项指标)记记X=(X1,X2,Xp)T,其协方差矩阵为,其协方差矩阵为它是一个它是一个p阶的非负定矩阵。设变量阶的非负定矩阵。设变量x1,x2,xp经过经过线性变换后得到新的综合变量线性变换后得到新的综合变量Y1,Y2,Yp,即,即或或(5.1.1)其中系数其中系数 为常数向量。要求为常数向量。要求(5.1.1)满足以下条件:满足以下条件:(1)系数向量是单位向量,即)系数向量是单位向量,即(2)不同的主成分不相关,即)不同的主成分不相关,即(3)各主成分的方差递减,即)各主成分的方差递减,即(5.1.2)(5.1.3)(5.1.4)于是,称于是,称Y1为第一主成分,为第一主成分,Y2为第二主成分,为第二主成分,依此类推,依此类推,Yp称为称为第第p个主成分。主成分又叫主分个主成分。主成分又叫主分量。这里量。这里lij我们称为主成分的系数。我们称为主成分的系数。3.主成分的求法及性质主成分的求法及性质 当总体当总体X=(X1,X2,Xp)T的协方差矩阵的协方差矩阵=(ij)p已已知时,我们可根据下面的定理求出主成分。知时,我们可根据下面的定理求出主成分。定理定理5.1 设设p维随机向量维随机向量X的协方差矩阵的协方差矩阵 的特征值满足的特征值满足 12 p 0,相应的单位正交特征向量为相应的单位正交特征向量为e1,e2,ep,则,则X的第的第i个主成分为个主成分为(5.1.5)其中其中 ,且,且(5.1.6)证明:证明:令令 ,则则P为正交矩阵,且为正交矩阵,且 若若 为为X的第一主成分,其中的第一主成分,其中 ,令,令则则 ,且,且只有当只有当h1=(1,0,0)(标准单位向量标准单位向量)时等号成立,这时时等号成立,这时因此,因此,X的第的第1个主成分为个主成分为:且方差且方差 Var(Y1)=1,达到最大达到最大.若若 为为X的第二主成分,其中的第二主成分,其中 ,且,且则则 ,且,且从而从而只有当只有当h2=(0,1,0)=2时等号成立,这时时等号成立,这时因此的第因此的第2个主成分为:个主成分为:且方差且方差 Var(Y2)=2,达到最大达到最大.类似可得其余主成分的表达式,且各主成份的方类似可得其余主成分的表达式,且各主成份的方差等于相应的特征值差等于相应的特征值.定理定理5.1表明:求表明:求X的主成分等价于求它的协方差矩阵的主成分等价于求它的协方差矩阵的所有特征值及相应的正交单位化特征向量的所有特征值及相应的正交单位化特征向量.推论:若记推论:若记Y=(Y1,Y2,Yp)T为主成分向量,矩阵为主成分向量,矩阵p=(e1,e2,ep),则则 Y=pTX,且,且Y的协方差的协方差主成分的总方差主成分的总方差证明证明:由由(5.1.5)式,显然有式,显然有Y=PTX,又由,又由(5.1.6)式,式,有有 又因为又因为 此性质表明主成分分析是将此性质表明主成分分析是将p个原始变量的总方个原始变量的总方差分解为差分解为p个不相关变量个不相关变量Y1,Y2,Yp的方差之和的方差之和.由于由于Var(Yk)=k,因此,因此 描述了第描述了第k个主成分提个主成分提取的信息占总信息的份额取的信息占总信息的份额.我们称我们称 为第个主成分的贡献率,他表示第个为第个主成分的贡献率,他表示第个主成分提取的信息占总信息的百分比主成分提取的信息占总信息的百分比.称前称前m个主成分的贡献率之和个主成分的贡献率之和为累计贡献率,它表示前为累计贡献率,它表示前m个主成分综合提供总信个主成分综合提供总信息的程度息的程度.通常通常m eps B=B*real(inv(B*B)(1/2);div=min(abs(diag(B*BOld);BOld =B;B=(sPCA*(sPCA*B).3)/length(sPCA)-3*B;sICA=sPCA*B;end%独立成分分析独立成分分析subplot(322),plot(sICA(:,1),ylabel(s_ICA1),title(Separated signals-ICA)subplot(324),plot(sICA(:,2),ylabel(s_ICA2)subplot(326),plot(sICA(:,3),ylabel(s_ICA3)图图 5.6 分离信号图形分离信号图形5.3 典型相关分析典型相关分析 在在对对经经济济和和管管理理问问题题的的研研究究中中,不不仅仅经经常常需需要要考考察察两两个个变变量量之之间间的的相相关关程程度度,而而且且还还经经常常需需要要考考察察多多个个变变量量与与多多个个变变量量之之间间即即两两组组变变量量之之间间的的相相关关性性。比比如如工工厂厂管管理理人人员员需需要要了了解解原原料料的的主主要要质质量量指指标标x1,x2,xp 与与产产品品的的主主要要质质量量指指标标Y1,Y2,Yq 之之间间的的相相关关性性,以以便便提提高高产产品品质质量量;医医生生要要根根据据病病人人的的一一组组体体检检化化验验指指标标与与一一些些疾疾病病之之间间的的相相关关性性,以以便便确确定定治治疗疗方方法法等等等等.典典型型相相关关分分析析就就是是测测度度两两组组变变量量之之间间相相关关程程度度的的一一种种多多元元统统计计方方法法,它它是是两两个个随随机机变变量量之之间的相关性在两组变量之下的推广间的相关性在两组变量之下的推广5.3.1典型相关分析的基本原理典型相关分析的基本原理对对于于两两组组随随机机变变量量(X1,X2,Xp)和和(Y1,Y2,Yq),象象主主成成分分分分析析那那样样,考考虑虑(X1,X2,Xp)一一个个线线性性组组合合U及及的的(Y1,Y2,Yq)一一个个线线性性组组合合V,希希望望找找到到的的U和和V之之间间有有最最大大可可能能的的相相关关系系数数,以以充充分分反反映映两两组组变变量量间间的的关关系系。这这样样就就把把研研究究两两组组随随机机变变量量间间相相关关关关系系的的问问题题转转化化为为研研究究两两个个随随机机变变量量间间的的相相关关关关系系。如如果果一一对对变变量量(U,V)还还不不能能完完全全刻刻划划两两组组变变量量间间的的相相关关关关系系时时,可可以以继继续续找找第第二二对对变变量量,希希望望这这对对变变量量在在与与第第一一对对变变量量(U,V)不不相相关关的的情情况况下下也也具具有有尽尽可可能能大大的的相相关关系系数数。直直到到进进行行到到找找不不到到相相关关变变量量对对时时为为止止。这这便便引引导导出出典典型相关变量的概念。型相关变量的概念。1.总体典型相关变量总体典型相关变量设有两组随机变量设有两组随机变量(XT,YT)T=(X1,X2,Xp,Y1,Y2,Yq)T的协方差矩阵的协方差矩阵为为其中,其中,11=cov(X),22=cov(Y),12=T21=cov(X,Y)根据典型相关思想是要寻找根据典型相关思想是要寻找 的线性组合的线性组合(p q),将两组合并成一组向量将两组合并成一组向量(5.3.1)使使U1,V1的相关系数的相关系数(U1,V1)达到最大,这里达到最大,这里由(由(5.3.1)式,)式,所以所以U1,V1的相关系数为的相关系数为(5.3.2)又由于相关系数与量纲无关,因此可设约束条件又由于相关系数与量纲无关,因此可设约束条件(5.3.3)满足约束条件(满足约束条件(5.3.3)的相关系数的最大值称为第)的相关系数的最大值称为第一典型相关系数,一典型相关系数,U1,V1称为第一对典型相关变量称为第一对典型相关变量.典型相关分析在约束条件典型相关分析在约束条件a1T 11a1=b1T 22b1=1下,求下,求a1,b1,使得,使得 u1,v1=a1T 12b1取得最大值取得最大值.如果如果(U1,V1)还不足以反映还不足以反映X,Y之间的相关性,还之间的相关性,还可构造第二对线性组合:可构造第二对线性组合:使得使得(U1,V1)与与(U2,V2)不相关,即不相关,即cov(u1,u2)=cov(u1,v2)=cov(u2,v1)=cov(v1,v2)=0在在约束条件约束条件Var(u1)=Var(v1)=Var(u2)=Var(v2)=1下求下求a2,b2,使得,使得 u2,v2=a2T 12b2取得最大值取得最大值.一般地,若前一般地,若前k-1对典型变量还不足以反映对典型变量还不足以反映X,Y之之间的相关性,还可构造第间的相关性,还可构造第k对线性组合:对线性组合:在约束条件在约束条件 Var(uk)=Var(vk)=1,及及cov(uk,uj)=cov(uk,vj)=cov(vk,uj)=cov(vk,vj)=0,(1 jk)求求ak,bk,使得,使得 uk,vk=akT 12bk取得最大值取得最大值.如此确定的如此确定的(uk,vk)称为称为X,Y的第的第k对典型变量,相对典型变量,相应的应的 uk,vk称为第称为第k个典型相关系数个典型相关系数.2.总体典型变量与典型相关系数的计算总体典型变量与典型相关系数的计算(1)计算矩阵计算矩阵(XT,YT)T的协方差矩阵的协方差矩阵或相关系数矩阵或相关系数矩阵(2)令令或或求求A,B的特征值的特征值 12,22,p2与对应的正交单位特与对应的正交单位特征向量征向量ek,fk,k=1,p(3)X,Y的第的第k对典型相关变量为对典型相关变量为(k=1,2,p)(4)X,Y的第的第k个典型相关系数为:个典型相关系数为:k,k=1,2,pX=data;%输入协方差矩阵输入协方差矩阵Xp=c1;q=c2;%c1,c2分别表示分别表示X,Y向量的维数向量的维数R11=X(1:p,1:p);R12=X(1:p,p+1:p+q);%读取读取 11,12R21=X(p+1:p+q,1:p);R22=X(p+1:p+q,p+1:p+q);%读取读取 21,22 v1,d1=eig(R11);%计算计算R11的特征值与单位正交向量的特征值与单位正交向量v2,d2=eig(R22);%计算计算R22的特征值与单位正交向量的特征值与单位正交向量p1=inv(v1*sqrt(d1)*v1);p2=inv(v2*sqrt(d2)*v2);%p1,p2表示的平方根矩阵的逆表示的平方根矩阵的逆 A=p1*R12*inv(R22)*R21*p1;%计算矩阵计算矩阵AB=p2*R21*inv(R11)*R12*p2;%计算矩阵计算矩阵Bva,da=eig(A),%计算计算A的特征值与特征向量的特征值与特征向量vb,db=eig(B),%计算计算B的特征值与特征向量的特征值与特征向量A1=p1*va,%计算典型相关变量计算典型相关变量U的系数的系数B1=p2*vb,%计算典型相关变量计算典型相关变量V的系数的系数r=sqrt(sum
展开阅读全文
提示  金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:MATLAB数据分析方法_主成分分析
链接地址:https://www.jinchutou.com/shtml/view-341107354.html
关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.