
最常见的近红外光谱的预处理技术的综述.doc
11页最常见的近红外光谱的预处理技术的综述smund Rinnan, Frans van den Berg, Søren Balling Engelsen摘要:预处理在近红外
由于类似规模的波长的电磁辐射和粒子大小的近红外光谱在生物样品,近红外光谱技术是一种不被广泛使用是由于存在散射效应<包括基线转变和非线性>,这将会影响样品光谱的结果的记录然而,通过应用合适的预处理,可以很大程度上消除这些影响在应用研究中,比较了几乎完全不同的定标模型<定量描述符和相应关系>几乎没有出现评估的差异和相似性的报道替代技术即修正的含义<例如,谱描述符数据>在研究中很少被讨论本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系,更具体地说,这些技术都是对应独立的响应变量,所以我们只讨论方法,不需要一个响应值我们同时关注预处理工艺理论方面的和实际效果,这种方法适用于近红外光谱/ NIT光谱对固体样品,干扰系统的差异主要是因为光散射的不同和有效路径长度的不同这些不受欢迎的变化常常构成了样本集的总变异的主要部分,可以观察到得转变基线<乘法效应>和其他现象称为非线性一般来说,近红外光谱反射率测量的一个示例将测量普及性的反映和镜面反射辐射<镜面反射>镜面反射通常由仪表设计和几何的采样最小化,因为它们不含任何化学信息这个diffusively反射的光,这反映在广泛的方向,是信息的主要来源在近红外光谱。
然而,diffusively反射光将包含信息的化学成分不仅示例<吸收>而且结构<散射>主要的形式的光散射<不包括能量转移与样品>瑞利和洛伦兹米氏两者都是过程中电磁辐射是分散的<例如,通过小粒子,泡沫,表面粗糙度,水滴,晶体缺陷,microorganelles、细胞、纤维和密度波动>当粒子尺寸大于波长,因为通常情况下,NIR光谱,是主要的洛仑兹米氏散射相比之下,瑞利散射,是各向异性,洛伦兹米氏散射依赖的形状散射粒子和不强烈波长依赖性对生物样品,散射特性是过于复杂,所以软或自适应补偿,光谱预处理技术,正如我们近红外光谱在本文中进行讨论,要求删除散射从纯粹的、理想的吸收光谱显然,预处理不能纠正镜面反射率<直接散射>,自谱不包含任何精细结构光谱主要由镜面反射率应该总是被移除之前为离群值多元数据分析,因为他们仍将是局外人,甚至在预处理图1显示了一组13好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何<极端>镜面反射率表现比正常的光谱图1还演示了总体布局的大多数数据在本文中上部的图,一个条形图显示了主成分得分值第一主成分
相关系数r的平方值之间的酒吧和一个选定的参考变量包含<在本例中,已知的平均粒径的13蔗糖样本>蔗糖的数据集,这种关系应该是低,例如,当假设散射是一种阻碍粒子始发;尽可能小的信息的粒度应该保持在正确的预处理图 1近红外光谱的13蔗糖和样品不同粒径<最小的粒子在底部,最大的顶部;粒子尺寸范围在20 - 540 lm黑色的光谱显示了一个镜面反射率蔗糖样本酒吧是分数值第一主成分的13个蔗糖样品主成分分析模型在完整的光谱一个示例数据的预处理蔗糖中可以看到图2,其中也包含一个其实的一个示例数据预处理的蔗糖中可以看到图2,其中也包含一个其实从现在起,在这篇文章中,我们将演示效果不同的预处理技术在小果胶数据集只包含7个样品有不同程度的酯化<%德;范围在0 - 93%>[2]这些样品测定近红外光谱反射率模式在光谱范围1100 - 2500海里<收集每2海里区间;图3>我们提供相应的第一因素PCA样本得分后作为一个条形图意味着定心,连同集中吸光度值在波长2244纳米我们选择这个峰值,因为它在理论上应该描述% DE完美对于本文,我们假设信息在光谱相联系的果胶粒子大小和形状应该被预处理技术,条形图应该显示一个线性行为与%德。
为了说明预处理的影响在量化,我们使用数据取自克里斯腾森et al他们研究了一组32杏仁蛋白软糖混合物,基于不同的食谱,九个不同的数据都在互联网上可用的
光谱推导集团是为代表的两种技术在本文中:诺里斯威廉姆斯的成分: <1>其中作为吸光度,依赖波长的摩尔吸光系数,代表光通过容器有效的路径长度,是成分的浓度朗伯比尔定律严格有效的只有纯透射系统没有散射在反射率测量,方程<1>是重新定义在类比透射率的测量为:其中,是反射率选择合适的预处理应该总是被认为是相对于连续建模阶段例如,如果数据集的兴趣不遵守法律,额外因素兰伯特啤酒或组件在请回归通常可以弥补这一理想的行为的光谱预测[5]的缺点包括额外的因素是提高模型的复杂性,反过来,最有可能减少对未来预测的模型的鲁棒性所有的预处理技术的目标减少变化降低数据以增强特性寻求在光谱,常常一个线性<简单的>关系现象<比如,一个成分>的兴趣。
通过使用一个合适的预处理技术,这可以实现,但总是有危险的应用了错误的类型或应用太严重的预处理,将移除有价值的信息正确的选择的预处理是很难评估模型验证之前,但是,一般来说,执行几个预处理步骤是不可取的,作为最低要求,预处理应保持或降低复杂性的有效模型图4 样品光谱<蓝色的点>密谋反抗一个选定的参考光谱标量修正条款发现随着拦截和边坡的黑色线条,就是发现从最小二乘回归适合通过所有的点3. 散射校正根据散射校正方法,我们考虑三个预处理的概念:硕士,SNV和标准化这些技术是为了减少<物理>可变性样本之间由于散射所有三个也调整基线样本之间的变化3.1MSC乘法散射<或者,在一般情况下,信号>校正
在大多数应用中,平均频谱的校准设置用作参考光谱然而,一个通用参考光谱也可以应用在最初的论文Martens et al[6],这是建议只使用那些部分光谱轴,不包括相关信息<基线>而这使得好的光谱意义上说,很难确定这些地区在实践中,特别是在近红外光谱测量,信号从不同的化学成分是强烈重叠和相关,很少或根本没有真正的基线是发现这是为什么,在大多数情况下,整个频谱用于查找标量校正参数在MSC图5演示了应用程序的标准MSC对果胶的数据光谱特征的果胶粉是守恒的,而背景偏移和斜坡基本上是删除<与图3>的线性关系光谱和%德是不错,但它并不完美图5数据预处理的乘法散射校正用一阶校正对平均频谱基本形式的MSC已经扩展成更复杂的扩展<8 - 12>通常被称为EMSC这个扩展包括二阶多项式拟合参考光谱,拟合的一个基线的波长轴,和利用先验知识从光谱的兴趣或光谱干扰物在本文中,所有这些替代品被称为MSC为简单起见,因为他们可以总结为一个单一的方程:〔4其中,代表依赖波长轴的修正向量,包含先验知识包括了想要/不必要的光谱信息〔比如一个已知的光谱干扰的物种方程<4>可以轻易地扩大到包括任何其他任何具有适当意义的修正代表了一组标量<校正系数>给出了方程<5>。
〔5其中:偏差校正是根据的修正改正对我是对校正订单波长轴依赖,是纠正第i已知信息吗相比方程<2>,它可以观察到方程<4>只是一个高阶扩张之一的想法在本文中将不再做进一步的讨论,因为,在很多实际情况,参考光谱对想要的和不必要的成分并没有现成可用的参考校正是最常用的方法只有一个一阶多项式即使没有数学限制扩大到高阶增加,有通常没有光谱参数这样做<除了也许如果重要的瑞利散射是出现在短的波长区域图6显示了结果的一个二阶多项式校正的果胶数据修正条款用于二阶多项式参考校正只是发现了拟合二阶<二次>多项式的点在图4只有边际改进取得了比一阶修正在图5波长轴的依赖是最常包括作为一个二阶多项式拟合的波长轴的光谱当没有参考校正包括在内,这个简单的波长配件也的名义光谱de趋势[13],它可以被视为一个基线校正重要的是要注意,包括波长依赖性在完整的校正方程<4>而不是让它作为一个单独的步骤会导致一个较小的矫正效果这是由于一个矩阵求逆操作同时执行所有的校正参数在MSC,不同的修正会相互影响的最小二乘法拟合准则当一个波长的依赖是独立决定只有波长轴<而不是参考光谱>影响的校正,这将导致一个趋平加工谱这个效果可以看出通过比较无花果。
7和8正如前面提到的,更加复杂的修正<比如,高阶多项式或其他转换的。












