好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于自加权变量组合集群分析法的近红外光谱变量选择方法研究.docx

14页
  • 卖家[上传人]:ji****81
  • 文档编号:233716829
  • 上传时间:2022-01-02
  • 文档格式:DOCX
  • 文档大小:35.22KB
  • / 14 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    •     基于自加权变量组合集群分析法的近红外光谱变量选择方法研究    赵环+宦克为 石晓光+郑峰+刘丽莹+刘微+赵春英摘要变量选择技术是光谱建模的重要环节本研究提出了一种新的变量选择方法——自加权变量组合集群分析法(AWVCPA),首先通过二进制矩阵采样法(BMS)对变量空间进行采样;其次通过对变量出现频率(Fre)和偏最小二乘回归系数(Reg)两种信息向量(IVs)做加权处理, 得到了每个光谱变量的贡献值,进而考虑到了Fre和Reg两类IVs对于光谱建模的影响;最后通过指数衰减函数(EDF)删除贡献小的波长点,进而实现特征变量选取以啤酒和玉米两组近红外光谱数据为例,基于偏最小二乘法(PLS)建立啤酒中酵母濃度预测模型和玉米中油浓度预测模型,对比其它变量选择方法研究表明,在相同条件下,基于AWVCPA变量选择方法建立的预测模型都取得了最优的预测精度,对啤酒中酵母浓度的预测,相比全光谱PLS模型,RMSEP由05348下降到01457,预测精度提高了727%;对玉米含油量的预测,相比全光谱PLS模型,预测均方根误差(RMSEP)由00702下降到了00248,预测精度提高了647%关键词近红外光谱; 化学计量学; 变量选择; 自加权变量组合集群分析法; 信息向量1引 言随着近红外光谱技术和化学计量学的发展,变量选择技术已成为近红外光谱分析高维度数据领域的关键环节,对光谱变量进行变量选择可以提高预测模型的预测能力、降低光谱数据维度和增强预测模型的可解释性。

      同时,变量选择也是一个非确定多项式(Nondeterministic polynomial time, NP)问题,随着变量空间的增大,找到一组最佳的变量组合是一个非常具有挑战性的问题[1~4]常见的变量选择方法有无信息向量删除法(UVE)[3]、相关系数法(CCM)、蒙特卡洛无信息变量删除法(MCUVE)[5]、遗传学算法(GA)[6~9]等随着模型集群分析(MPA)思想的发展,一些新变量选择方法,如随机蛙跳法(RF)[10]、竞争自适应重采样法(CARS)[11,12]、 迭代保留有信息变量法(IRIV)[13]和变量组合集群分析法(VCPA)[14]等被提出然而,对于变量重要性目前常采用信息向量(IVs)[15]判定,常见的信息向量有偏最小二乘回归系数(Reg)、相关系数向量(Cor)、残差向量(Res)、投影变量重要性向量(VIP)、净信号向量(NAS)、信噪比向量(StN)、协方差向量(Cov)、选择比向量(SR)、预测残差向量(Ssr)、变量出现频率(Fre)和协方差选择向量(Covsel)等[16~21]虽已有大量变量选择方法和信息向量,但每种变量选择方法都只采用了这些信息向量中的一种作为变量重要性判断依据,进而忽略了其它信息向量对预测模型的影响,因此易产生预测模型的过拟合现象。

      为了解决此问题,本研究提出了自加权变量组合集群分析法(AWVCPA),将MPA思想与多IVS加权思想结合,采用交互检验均方根误差(RMSECV)最小原则,对Fre和Reg两种信息向量的结果进行归一化加权处理,计算出每个变量在这两种信息向量结果中的最终贡献值,进而考察了这两种信息向量对每个光谱变量的影响,提高了预测模型的稳定性利用此方法分别对啤酒中酵母浓度和玉米中油的浓度进行预测,并对比相同条件下GA、MCUVE、VCPA的建模结果结果表明,AWVCPA可以取得更高的建模精度和预测精度2实验部分21数据来源211啤酒数据本研究应用的啤酒样本近红外光谱数据来源于文献[22], 数据包含60个样本,每个样本的近红外光谱波长分布在1100~2250 nm,光谱间隔为2 nm,运用KennardStone(KS)分类法选取其中的40个样本的近红外光谱数据和化学值数据作为校正集建立啤酒中酵母浓度的预测模型,剩余的20个样本的近红外光谱数据和化学值数据作为预测集检验模型的可行性,啤酒的近红外光谱图如图1所示212玉米数据玉米样本数据来源:http://wwweigenvectorcom/data/Corn/indexhtml。

      玉米近红外光谱数据由3种不同的近红外光谱仪(M5、MP5、MP6)测量得到,由于每种光谱仪的工作原理不同,所以通过不同光谱仪所得到的近红外光谱数据也不同,本研究应用的数据是通过M5近红外光谱仪测量得到的80个玉米近红外光谱数据每个玉米样本的近红外光谱波长分布在1100~2498 nm,运用近红外光谱仪测试每个玉米样本的近红外光谱,并用化学方法测试每个样本中油浓度的化学值运用KS方法选取其中60个样本光谱数据和化学值数据作为校正集建立预测模型,将剩余的20个样本的光谱数据和化学值数据作为预测集检验模型的可行性,玉米近红外光谱图如图2所示22模型评价及光谱预处理221模型评价参数模型评价参数的作用是评价通过校正集样本建立的预测模型可靠性在近红外光谱多元校正建模过程中,经常采用的模型评价参数为预测残差平方和、交互验证均方根误差、预测均方根误差、预测值与实际值之间的相关系数等,本研究采用的模型评价参数分别是建模均方根误差(RMSEC)和预测均方根误差(RMSEP)222光谱预处理对于待测组分的近红外光谱的吸收差异不大的情况,很难直接确定特征波长采集光谱数据时,会伴有基线漂移、样品背景干扰、杂散光等噪声信息,影响近红外光谱与实际化学值之间的相关性,进而影响预测模型的可靠性,所以在光谱建模之前需对原始光谱进行预处理,常见的光谱预处理方法有均值中心化、平滑去噪法、多元散射校正和小波变换等,由于AWVCPA是在VCPA的基础上对VCPA的优化,所以为了在相同的条件下(光谱数据、光谱预处理方法和光谱建模方法全部一致)证明AWVCPA相对VCPA的优越性,本研究应用的预处理方法与VCPA运用的预处理方法[14]相同,均采用均值中心化预处理方法。

      均值中心化算法经常被用于增加样品光谱之间的差异,进而提高预测模型的稳健性和预测能力这种光谱预处理方法是将原始光谱减去校正集的平均光谱endprint首先计算校正集样本的平均光谱:P=ni=1Xi,pn(1)式中, n为校正样品数, p=1,2,3,……m为波长点对未知的样品光谱X(1×m)通过公式(2)求得均值中心化处理后的Xcentered:Xcentered=X-(2)3AWVCPA的原理AWVCPA算法是一种基于MPA思想的变量选择方法AWVCPA和VCPA的建模思路相似,均基于MPA思想的建模思路:样品或变量采样、变量重要性评价和无信息变量、干扰变量删除,AWVCPA和VCPA在变量采样环节都应用二进制矩阵采样(BMS)采样策略,在无信息变量和干扰变量删除环节均应用指数衰减函数(EDF)删除方法,但是在评价变量重要性环节,VCPA只采用了优秀子集中变量出现频率这种信息向量作为变量重要性的评价标准,而AWVCPA采用了优秀子集中变量出现频率和变量偏最小二乘回归系数两种信息向量加权的方式判断变量重要性,所以相比VCPA,AWVCPA多考虑了优秀子集中偏最小二乘回归系数对变量重要性判断的影响(AWVCPA在VCPA的原理上多了下述步骤④、⑤和⑥),因此理论上AWVCPA有更高的稳定性,其步骤如下: ① BMS从变量空间中采样N次,得到N个变量子集,每个变量子集都含有一组随机变量; ②运用偏最小二乘法(PLS)计算每个子集的RMSECV,并选取RMSECV最小的前σ×N个变量子集作为优秀子集; ③统计优秀子集中每个变量出现次数,并进行归一化处理,变量出现频率的大小与变量重要性成正比,进而得到变量重要性判据,称为第一类信息向量; ④计算优秀子集中每个变量在每组变量组合中的偏最小二乘回归系数的绝对值,并进行归一化处理,最后对优秀子集中每个变量在不同组变量组合中的归一化回归系数绝对值求和,变量归一化回归系数绝对值之和与变量的重要性成正比,进而得到又一个变量重要性的判据,称为第二类信息向量。

      ⑤根据每种信息向量的RMSECV设置第一类信息向量和第二类信息向量的权重,权重的计算公式如下:w1=1[](RMSECV1)2×11(RMSECV1)2+1(RMSECV2)2(3)w2=1[](RMSECV2)2×11(RMSECV1)2+1(RMSECV2)2(4)其中, w1为第一类信息向量的权重; w2为第二类信息向量的权重; RMSECV1为第一类信息向量的交互检验均方根误差; RMSECV2为第二类信息向量的交互检验均方根误差;⑥根据第一类信息向量和第二类信息向量的权重,计算出优秀子集中每个变量的贡献值,计算公式如下:Yi=y1i×w1+y2i×w2(5)其中, Yi为第i个变量贡献值,其值越大则该变量越重要; y1i为第i个变量在以第一類信息向量为判定标准下的变量贡献值; y2i为第i个变量在以第二类信息向量为判定标准下的变量贡献值; ⑦运用EDF删除那些贡献值较小的变量,保留其贡献值较大的变量,得到一个新的变量空间R⑧变量空间R中的变量继续通过①~⑦进行变量筛选,此过程迭代K次,最终剩下L个变量,并计算出这L个变量之间所有变量组合的RMSECV,其值最小的变量组合为最终波长筛选结果。

      光谱变量保留率的计算公式如下:rk=eSymbolm@@ θ×k(6)其中, rk为EDF运行k次时变量保留率,例如,当k=0时,全光谱的P个变量均被用于建模,所以变量的保留率r0=1当EDF运行k次后,剩余Pk个变量那么变量的保留率rk=Pk/Pθ为曲线控制参数,它与EDF的执行次数有关,EDF执行的次数越多, θ值越小曲线控制参数的计算公式为:θ=ln(P/L)K(7)其中,K为EDF运行次数,参数设置范围50~200; P为全光谱变量数; L为EDF运行结束之后剩余变量数,参数设置范围13、14、154结果与讨论41控制参数设置由于AWVCPA是通过MPA结合两种IVs加权的思想对VCPA进行的优化,为了更好地体现AWVCPA相比VCPA的优越性,控制参数设置应与VCPA一致,GA、MCUVE、VCPA的控制参数设置见参考文献[12],如表1、表2和表3所示42基于AWVCPA的特征变量提取以啤酒数据为例:运用BMS采样策略从啤酒近红外光谱变量空间中采样1000次,得到1000组不同的变量组合,运用PLS分别对这1000组变量组合进行光谱建模,计算每组变量组合的RMSECV,保留RMSECV最小的前10%组的变量组合,进而得到了100个优秀子集。

      记录这100个优秀子集中每个光谱变量出现的次数并进行归一化处理得到每个光谱变量的Fre记录每个光谱变量在不同组变量组合中的偏最小二乘回归系数并进行归一化处理,最后对优秀子集中相同变量的归一化偏最小二乘回归系数的绝对值进行求和得到每个光谱变量的Reg通过公式(3)和(4)分别设置这两类信息向量的权重,并根据公式(5)计算出优秀子集中每个光谱变量的贡献值运用EDF方法删除那些贡献值较小的光谱变量,并对所保留的变量继续做BMS采样、信息向量加权和EDF删除此过程重复50次,最终只剩下14个光谱变量,运用PLS计算这14个光谱变量之间所有变量组合的RMSECV,其值最小的变量组合为通过AWVCPA方法选取的特征变量为了避免算法运行中算法随机性对变量选择结果的影响,将AWVCPA运行50次,啤酒数据中每个变量被选取的频率如图3A所示,玉米数据中每个变量被选取的频率如图3B所示图3AWVCPA运行50次后,每个啤酒光谱变量被选取的频率(A)和每个玉米光谱变量被选取的频率(B)Fig3Frequency of beer of selected variables (A) and frequency of corn (B) of selected variables within 50 times by a。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.