好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

主成分分析理论介绍及举例.ppt

68页
  • 卖家[上传人]:宝路
  • 文档编号:47938261
  • 上传时间:2018-07-06
  • 文档格式:PPT
  • 文档大小:584.48KB
  • / 68 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 吴 海 龙湖南大学化学生物传感与计量学国家重点实 验室E-mail: hlwu@主成分分析 Principal Component AnalysisChemometrics ?nThe chemical discipline that uses mathematical, statistical and other methods employing formal logic (i) to design or select optimal measurement procedures and experiments, and (ii) to provide maximum relevant chemical information by analyzing chemical data. 一次测量得到一个值例如: 温度、压力、pH、单波长的吸光度等单变量数据分析仪器的高性能化 例如: UV-可见分光吸收光谱IR、 NIR、荧光光谱GC、LC、MSNMR、等样品-浓度数据样品-变量-时间等等多变量数据分析过程测定-----得到数据-----数据解析------信息----结论 =====================================单变量(矢量型数据): 平均值、标准差、数据检验、。

      多变量(矩阵型数据):主成分分析(抽象因子分析,数据简约) 、聚类分析、方差分析、变量组合: (矢量-矢量、矢量-矩阵、矩阵-矩阵)多元线性回归、典型相关分析、主成分回归、偏最小二乘回归分析化学中常用方法定性分析:分类、判别定量分析:工作曲线法、多元校正、QSAR、建模: Ys= Xs B+ E, 如: Rs= Cs S’ + Es.已知: Rs、 Cs,求: S.预测: Yu= Xu B+ E, 如: Ru= Cu S’ + Es.已知: Ru、 S,求: Cu.1 Principal Component Analysis (PCA)主成分分析 (PCA)对一个矩阵,利用其变量之间的共线性, 对数据进行简约这样,n 可直观显示(图示)n 可提取抽象因子n 有效克服因严重共线性引起的不稳定 算法带来的计算误差放大,即病态PCA 例子# B T Bmc Tmc 1 48 26 13 12 2 44 20 9 6 3 40 24 5 10 4 38 18 3 4 5 32 9 -3 -5 6 28 6 -7 -8 7 26 5 -9 -9 8 24 4 -11 -10 mean 35 14 0 0B: 苯, T: 二甲苯 ; Bmc和Tmc为减去平均值后的值利用GC得到的8个样品中苯和二甲苯的含量Tmc vs BmcX矩阵中含有8个样品和两个变量 方差协方差阵为: 77.71 76.2976.29 80.86 也即,它使用平均化的X矩阵XTX(列 数-1)特征矢量 # 特征值 B的系数 T的系数 方差百分 数 1 155.59 0.6998 0.7144 98.1­ 2.98 0.7144 -0.6998 1.9方差= /(样品数-1)PCA 方差协方差矩阵n夹角余弦ncos(ij)= ( xik xjk)/(  xik2  xjk2)n相关系数ncos(ij)=[(xik-mi)(xjk-mj)]/( (xik-mi)2  (xjk- mj)2)其中mi和mj分别表示第i和第j个样本的均 值.PCA计算特征矢量 t=x1p1+x2p2 (p12+p22)=1 p=(p1,p2)t约束条件极大极小化,使用Lagrange乘子法, I为2x2的单位阵PCA得到特征值:( 77.71-155.59 )p1 + 76.29p2 =0 76.29p1 + ( 80.86-155.59 )p2 =0p1=0.6998 p2=0.7144 p1=0.7144 p2=-0.6998Lamda:1 2155.5876 2.9838 Eigenvector:0.6998 0.71440.7144 -0.6998特征矢量1和2特征值与特征矢量n特征值与特征矢量相关连,表示方差的程 度n特征矢量是根据方差最大化原理进行原始 数据的变量的线性组合n得到的特征矢量的方差比前一个特征矢量 的更小,也就是依次递减n此时,特征矢量相互正交,也就是无相关 性PCA 的术语n特征矢量又可以叫做 载荷轴、主成分、潜变 量、抽象因子n所谓得分就是原始数据在主成分轴上的投影 ,也就是下一个图中第一主成分上的圈PC1和PC2的表示PCA的优点n它能找到表现原始数据阵最重要的变量的组 合n通过表示最大的方差,能有效的直观反映样 本之间的关系n能从最初的几个主成分的得分来近似反映原 始的数据阵用PC1对X阵近似# Bapprox Tapprox Bmc Tmc Score 1. 12.36 12.62 13 12 17.67 2. 7.41 7.56 9 6 10.58 3. 7.45 7.60 5 10 10.64 4. 3.47 3.54 3 4 4.96 5. -3.97 -4.05 -3 -5 -5.67 6. -7.43 -7.58 -7 -8 -10.61 7. -8.91 -9.09 -9 -9 -12.73 8. -10.39 -10.60 -11 -10 -14.84用PC1对X阵近似 ( 77.71-155.59 )p1 + 76.29p2 =0 76.29p1 + ( 80.86-155.59 )p2 =0 p1=0.6998 p2=0.7144 p1=0.7144 p2=-0.6998 计算得分的方法 例:13 x 0.6998+12 x 0.7144=17.67利用PC1对X做近似 例:17.67 x 0.6998=12.36X残差 例:12.36-13=-0.64X 残差# Bresid Tresid Bmc Tmc 1. -0.64 0.62 13 12 2. -1.59 1.56 9 6 3 2.45 -2.40 5 10 4. 0.47 -0.46 3 4 5. -0.97 0.95 -3 - 5 6. -0.43 0.42 -7 - 8 7. 0.09 0.09 -9 - 9 8. 0.61 -0.60 -11 10PC1对X阵的贡献T (SPC1X0.7144 =)12.62367.56167.60343.5413-4.0516-7.5825-9.0927-10.6030B (SPC1X0.6998=)12.36567.40717.44803.4689-3.9688-7.4275-8.9069-10.3863PC1 的得分Scores17.670210.584610.64304.9570-5.6714-10.6138-12.7278-14.8418PC2对X阵的贡献T (SPC2*(-0.6998)=)-0.6225-1.56112.39750.4591-0.9488-0.41820.09200.6021B (SPC2*0.7144= )0.63551.5937-2.4475-0.46860.96860.4269-0.0939-0.6147PC2 的得分Scores0.88962.2308-3.4260-0.65601.35580.5976-0.1314-0.8604得分的平方和(n-1) x Lamda1= PC1得分的平方和(n-1) x Lamda2= PC2得分的平方和Lamda反映的是相应主成分的方差大小常用的 PCA在该情况下,特征值就是得分的平方和 例: (17.67)2+(10.58)2+。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.