好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

最常见的近红外光谱的预处理技术的综述.doc

25页
  • 卖家[上传人]:xh****66
  • 文档编号:56724347
  • 上传时间:2018-10-15
  • 文档格式:DOC
  • 文档大小:2.25MB
  • / 25 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 最常见的近红外光谱的预处理技术的综述smund Rinnan, Frans van den Berg, Søren Balling Engelsen摘要:预处理在近红外(NIR)光谱数据处理化学计量学建模中已经成为不可分割的一部分 预处理的目的是消除光谱中物理现象在为了提高后续多元回归、分类模型或探索性分析 最广泛使用的预处理技术可以分为两类:散射校正方法和光谱间隔方法综述和比较了算 法的基础理论和当前的预处理方法以及定性和定量的后果的应用程序其目的是提供更好 的 NIR 最终模型的建立,在此我们通过对光谱的预处理基本知识进行梳理 关键词:乘法散射校正;近红外光谱法;标准化;诺里斯威廉姆斯推导;预处理; Savitzky-Golay 平滑;散射校正;光谱导数;标准正态变量;综述 1.引言 目前为止,没有能够优化数据来进行代替,但是经过适当的数据收集和处理将会起到 优化效果,对光谱数据进行预处理是最重要的一步(例如最优化之前叠层建模),常用的方 法有主成分分析(PCA)和偏最小二乘法(PLS)在大量的文献中,多变量光谱应用食品、饲 料和医药分析,比较不同的预处理的结果研究模型的预测结果是不可分割的组成部分。

      近 红外反射/透射率(NIR / NIT)光谱的光谱技术,到目前为止最多被使用的和最大的多样性在 预处理技术,主要是由于入非线性光散射的光谱可以引起显著影响由于类似规模的波长 的电磁辐射和粒子大小的近红外光谱在生物样品,近红外光谱技术是一种不被广泛使用是 由于存在散射效应(包括基线转变和非线性),这将会影响样品光谱的结果的记录然而, 通过应用合适的预处理,可以很大程度上消除这些影响 在应用研究中,比较了几乎完全不同的定标模型(定量描述符和相应关系)几乎没有 出现评估的差异和相似性的报道替代技术即修正的含义(例如,谱描述符数据)在研究中 很少被讨论本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系,更具体地 说,这些技术都是对应独立的响应变量,所以我们只讨论方法,不需要一个响应值我们 同时关注预处理工艺理论方面的和实际效果,这种方法适用于近红外光谱/ NIT 光谱 对固体样品,干扰系统的差异主要是因为光散射的不同和有效路径长度的不同这些 不受欢迎的变化常常构成了样本集的总变异的主要部分,可以观察到得转变基线(乘法效应)和 其他现象称为非线性一般来说,近红外光谱反射率测量的一个示例将测量普及性的反映 和镜面反射辐射(镜面反射)。

      镜面反射通常由仪表设计和几何的采样最小化,因为它们不 含任何化学信息这个 diffusively 反射的光,这反映在广泛的方向,是信息的主要来源在 近红外光谱然而,diffusively 反射光将包含信息的化学成分不仅示例(吸收)而且结构(散 射)主要的形式的光散射(不包括能量转移与样品)瑞利和洛伦兹米氏两者都是过程中电 磁辐射是分散的(例如,通过小粒子,泡沫,表面粗糙度,水滴,晶体缺陷, microorganelles、细胞、纤维和密度波动) 当粒子尺寸大于波长,因为通常情况下,NIR 光谱,是主要的洛仑兹米氏散射相比 之下,瑞利散射,是各向异性,洛伦兹米氏散射依赖的形状散射粒子和不强烈波长依赖性对生物样品,散射特性是过于复杂,所以软或自适应补偿,光谱预处理技术,正如我 们近红外光谱在本文中进行讨论,要求删除散射从纯粹的、理想的吸收光谱 显然,预处理不能纠正镜面反射率(直接散射),自谱不包含任何精细结构光谱主要 由镜面反射率应该总是被移除之前为离群值多元数据分析,因为他们仍将是局外人,甚至 在预处理图 1 显示了一组 13 好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何(极端)镜 面反射率表现比正常的光谱。

      图 1 还演示了总体布局的大多数数据在本文中上部的图,一个条形图显示了主成分得分值第一主成分(PC)后的样本集数据意味着定心[1]下面部分显示预处理效果的数据集 (或者,在这种情况下,任何预处理)相关系数 r 的平方值之间的酒吧和一个选定的参考变 量包含(在本例中,已知的平均粒径的 13 蔗糖样本)蔗糖的数据集,这种关系应该是低, 例如,当假设散射是一种阻碍粒子始发;尽可能小的信息的粒度应该保持在正确的预处理图 1 近红外光谱的 13 蔗糖和样品不同粒径(最小的粒子在底部,最大的顶部;粒子尺寸范围在20 - 540 lm黑色的光谱显示了一个镜面反射率蔗糖样本酒吧是分数值第一主成分的 13 个蔗糖样品主成分分析模型在完整的光谱一个示例数据的预处理蔗糖中可以看到图 2,其中也包含一个其实的一个示例数据预 处理的蔗糖中可以看到图 2,其中也包含一个其实 从现在起,在这篇文章中,我们将演示效果不同的预处理技术在小果胶数据集只包含 7 个样品有不同程度的酯化(%德;范围在 0 - 93%)[2]这些样品测定近红外光谱反射率模式 在光谱范围 1100 - 2500 海里(收集每 2 海里区间;图 3)。

      我们提供相应的第一因素 PCA 样本 得分后作为一个条形图意味着定心,连同集中吸光度值在波长 2244 纳米我们选择这个峰 值,因为它在理论上应该描述% DE 完美对于本文,我们假设信息在光谱相联系的果胶 粒子大小和形状应该被预处理技术,条形图应该显示一个线性行为与%德 为了说明预处理的影响在量化,我们使用数据取自克里斯腾森 et al他们研究了 一组 32 杏仁蛋白软糖混合物,基于不同的食谱,九个不同的数据都在互联网上可用的 (www模型的生活 ku dk)所有的杏仁蛋白软糖样品测定了六种不同的近红外光谱仪器和 化学参考分析了水分和糖含量在构建一个定量的回归模型,重要的是要打扫预测数据从 非系统性散射变化,因为他们可以产生重大影响的预测模型的性能和模型的复杂性或吝啬 在本文中,我们使用请预测这种定量响应信息[4]2.预处理方法图 2 上图:数据被一个二阶蔗糖乘法散射校正;底:相应的标准差每个波长,虚线是原始/未加工的数据(见图 1),固体是预处理的数据最广泛使用的预处理技术在近红外光谱法(在两个反射和透射模式)可以分为两类: scattercorrection 方法和光谱衍生品 第一群散射校正预处理方法包括乘法散射校正(MSC),逆 MSC,扩展 MSC(EMSC), 扩展逆 MSC,de 趋势,标准正态变量(SNV)和标准化。

      图 3 生/未加工的光谱,7 果胶样本蓝线是一个示例有 0%程度的果胶酯化(DE),红色的线是一个样本 93%德打开条指示主成分分析(PCA)评分值在第一个 PC 为完整的光谱,意味着定心,关闭了酒吧后的光谱值在波长 2244 纳米光谱推导集团是为代表的两种技术在本文中:诺里斯威廉姆斯(NW)衍生品和 Savitzky- Golay(SG)多项式导数过滤器这两种方法都使用一个平滑的光谱导数计算之前,以减少有 害的影响,传统的信噪比有限差分衍生品会 预处理步骤的目标可以三种: 1) 提高后续探索性分析 2) 提高后续叠层校正模型(力数据服从兰伯特啤酒法律);或者, 3) 提高后续的分类模型 朗伯比尔定律(方程(1))是经验对近红外光谱/ NIT 和显示成线性关系,吸收光谱和浓度(s)的 成分(s): (1)10log ( )ATl c    其中作为吸光度,依赖波长的摩尔吸光系数, 代表光通过容器有效的路径长度,是Al成分的浓度朗伯比尔定律严格有效的只有纯透射系统没有散射在反射率测量,方程c (1)是重新定义在类比透射率的测量为:10log ( )ARl c    其中,是反射率。

      R 选择合适的预处理应该总是被认为是相对于连续建模阶段例如,如果数据集的兴趣 不遵守法律,额外因素兰伯特啤酒或组件在请回归通常可以弥补这一理想的行为的光谱预 测[5]的缺点包括额外的因素是提高模型的复杂性,反过来,最有可能减少对未来预测的 模型的鲁棒性所有的预处理技术的目标减少变化降低数据以增强特性寻求在光谱,常常 一个线性(简单的)关系现象(比如,一个成分)的兴趣通过使用一个合适的预处理技术,这 可以实现,但总是有危险的应用了错误的类型或应用太严重的预处理,将移除有价值的信 息正确的选择的预处理是很难评估模型验证之前,但是,一般来说,执行几个预处理步 骤是不可取的,作为最低要求,预处理应保持或降低复杂性的有效模型图 4 样品光谱(蓝色的点)密谋反抗一个选定的参考光谱标量修正条款发现随着拦截和边坡的黑色线条,就是发现从最小二乘回归适合通过所有的点3.散射校正 根据散射校正方法,我们考虑三个预处理的概念:硕士,SNV 和标准化这些技术是 为了减少(物理)可变性样本之间由于散射所有三个也调整基线样本之间的变化 3.1MSC 乘法散射(或者,在一般情况下,信号)校正(MSC)可能是最广泛使用的预处理技术对近 红外光谱(紧随其后 SNV 和派生)。

      MSC 其基本形式是由 Martens 首次引入等人 1983 年[6], 并进一步阐述了通过 Geladi 等人 1985 年[7]MSC 背后的概念是,工件或缺陷(如,不良的散射效应)将被删除的数据矩阵之前,数据建模MSC 包含两个步骤: 1)估计的校正系数(加法和乘法的贡献2)0,1orgrefrefXbbXe2)校正记录的光谱(3)0,1,1org corrref refrefXbeXXbb其中:代表近红外光谱仪器对一个原样品进行光谱测量,代表参考光谱用于预处orgXrefX理的整个数据集,是降低的一部分的 ,代表了修正后的光谱,其中 和eorgXcorrX0b都是标量参数,这在每个样品中具有不同的代表含义,这个在图 4 中进行说明,对每,1refb个标量参数进行了解释 在大多数应用中,平均频谱的校准设置用作参考光谱然而,一个通用参考光谱也可 以应用在最初的论文 Martens et al[6],这是建议只使用那些部分光谱轴,不包括相关 信息(基线)而这使得好的光谱意义上说,很难确定这些地区在实践中,特别是在近红外 光谱测量,信号从不同的化学成分是强烈重叠和相关,很少或根本没有真正的基线是发现。

      这是为什么,在大多数情况下,整个频谱用于查找标量校正参数在 MSC图 5 演示了应用 程序的标准 MSC 对果胶的数据光谱特征的果胶粉是守恒的,而背景偏移和斜坡基本上 是删除(与图 3)的线性关系光谱和%德是不错,但它并不完美图 5 数据预处理的乘法散射校正用一阶校正对平均频谱基本形式的 MSC 已经扩展成更复杂的扩展(8 - 12)通常被称为 EMSC这个扩展包括二阶 多项式拟合参考光谱,拟合的一个基线的波长轴,和利用先验知识从光谱的兴趣或光谱干 扰物在本文中,所有这些替代品被称为 MSC 为简单起见,因为他们可以总结为一个单 一的方程:(4)22 ,1,21,,,,,.orgrefrefknownknownXXXXXbe其中,代表依赖波长轴的修正向量,包含先验知识包括了想要/不必要的光谱信,1knownX息(比如一个已知的光谱干扰的物种) 方程(4)可以轻易地扩大到包括任何其他任何具有适当意义的修正代表了一组标量(校正系数)给出了方程(5)b(5)0,1,2,1,2,1,2,,,,,,.refrefknownknownbb bbbbbb其中:偏差校正0b是根据的修正,1refbthi改正对我,1b是对校正订单波长轴依赖, 是纠正第 i 已知信息吗,1knownbthi,1knownb相比方程(2),它可以观察到方程(4)只是一个高阶扩张之一的想法。

      在本文中将不再做进一步的讨论,因为,在很多实际情况,参考光谱对想要的和不必要的成,1knownX分并没有现成可用的参考校正是最常用的方法只有一个一阶多项式即使没有数学限制 扩大到高阶增加,有通常没有光谱参数这样做(除了也许如果重要的瑞利散射是出。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.