登陆注册
26813400000005

第5章 近红外光谱分析技术原理(2)

傅立叶变换是一种信号处理技术,有效地滤除高频噪声以及由仪器原因或基线偏移等因素引起的低频噪声,该方法对光谱数据进行平滑、差值、滤波等运算增加光谱信噪比。傅立叶变换首先将数据进行快速傅立叶变换(FFT),在频率空间下与高斯窗函数进行运算,然后进行反快速傅立叶变换(IFFT)计算,得到经带通滤波处理后的光谱数据。带通滤波器的中心频率和带宽分别取决于高斯函数的均值与标准差,并且应用数值优化方法来实现滤波的参数,以获得最佳滤波效果。通过对光谱的平滑去噪,数据压缩等一系列处理进一步提高模型对测量条件扰动的稳健性。该方法原理清晰,实现方便,大大缩小运算时间,而且样品光谱质量得到有效改善,校正模型的预测能力和适应能力也得到进一步的增强。

六、正交信号校正(Orthogonal Signal Correction)

利用正交信号校正算法,对原始光谱数据进行预处理,可以有效地取出光谱数据中所包含的各种干扰噪声信号。在实际应用的近红外光谱技术进行分析时,部分系统误差或干扰噪声等与有效信息无关的信息常常会被引入在光谱中,这时,用偏最小二乘法建立的定标模型的前几个主因子数对应的光谱载荷经常不是有用的浓度阵信息,而是与浓度阵无关的噪声信号。因而,在建立定标模型前,通过正交的数学运算,除去与浓度阵无关的噪声,然后,将经过数学运算处理后的光谱矩阵作为新的自变量矩阵,再利用PLS方法建立校正模型。

只要保证除去的部分与预测值矩阵能够正交,则除去部分所含有的信息必然与光谱矩阵没有必然的关系。正是基于这种新颖的思想,SWold等在1998年提出正交信号校正方法。但是这种最初的算法的缺点是每次迭代计算均需要计算一遍PLS,计算时间较长,且内置PLS算法的成分数很难确定[24]。Sjoblom又改进了该算法,其算法与Wold基本一致,只是计算次序略有差别[25]。这种算法在迭代时不用反复计算PLS,其主成分数也容易通过交叉验证的方法确定。但同样该方法的缺点是无法严格证明其剔除的信息与光谱矩阵正交。经过学者们长时间的不断探索和研究,陆续出现了逐渐完善的算法,如Fearn的类PCA算法[26],Andersson的DO算法[27],Westerhuis的DOSC算法[28],Trygg的0-PLS算法[29],Feudale的POSC算法[30]等。这些改良后的预处理方法的基本原理是在建立定标分析模型前,将光谱矩阵与浓度矩阵正交,去掉光谱与浓度阵无关的冗余信号,再进行多元校正,从而使所建立的模型更加简化并且提高模型的稳定性和预测能力。

2.4.3近红外光谱校正模型的建立方法

一、定量分析方法

近红外光谱分析是通过对样品光谱和其特征参数进行关联,即在物质的物化性质与分析仪器响应值之间建立定量关联关系,从而建立定标模型,然后定标模型对预测集样品进行预测。当建立模型后,只要扫描预测集样品的近红外光谱,根据校正模型和未知样品的近红外光谱就可以预测所需要的样品的特征参数。多元校正仍然是目前最为实用的方法,近红外光谱分析中常用的多元校正方法包括:多元线性回归(Multiply Linear Regression, MLR)、主成分回归(Principle Component Regression,PCR)和偏最小二乘法(Partial Leas Squire,PLS)等。

1.多元线性回归(Multiply Linear Regression,MLR)

多元线性回归是一元线性回归的扩展,又称为逆最小二乘法,用于建立自变量和因变量之间的关系。MLR只要求已知定标样品待测特征成分的含量值,选择若干个光谱点的吸光度值与该特征成分含量进行线性回归即可得到定标模型的回归系数。要选择好对应于被测特征成分的数据向量。

MLR的算法如下:

设βi1,βi2,…,βip分别为第i个样品在第1,2,…,p个光谱点的吸光度,其待测组分含量为yi,则如式29所示。yi=β0+β1xi1+…+βpxip+εi,i=1,2,…n(29)其矩阵形式如式210所示。Y=Xβ+ε(210)其中X=1x11x12…x1p

1x21x22…x2p

1xn1xn2…xnp,Y=y1

y2

yn,β=β0

β1

βp,ε=ε1

ε2

εn,其中

Y——待测组分含量矩阵;

X——光谱矩阵;

β——回归系数;

ε——回归误差;

n——定标样品个数;

p——参与回归的光谱点个数。

回归系数β由最小二乘法确定,如式2.11所示。β=XTX-1XTY(2.11)对未知组分含量样品的预测,如式2.12所示。Y未知=X未知β(2.12)MLR算法存在很多的局限性,如波长点数不应该超过校正集的样本数目,这样难免会损失一些有效的光谱信息;吸光度矩阵存在共线性问题,导致其成为病态矩阵;此外,运算过程中没有考虑到存在的噪音,这样同样会导致过拟合情况,从而降低了模型的可靠性。因此,MLR在近红外早期时应用较为广泛,为了建立更为稳健的模型,人们逐渐在此基础上发展出一系列更为有效的算法。

2.主成分回归(Principle Component Regression,PCR)

主成分回归法是采用多元统计中的主成分分析方法,对混合物光谱测量矩阵X进行分解,然后选取其中的主成分来进行多元线性回归分析。其核心是主成分分析,将原始数据降维,通过对原变量进行一系列的变换,使少数几个新变量变成原变量的线性组合,于此同时,这些新变量最大限度地表征了被测样品的组成和结构特性,并且最小限度地包含噪音等干扰因素。经转换得到的新变量是相互彼此正交的,即互不相关,以消除大量信息共存时相互重叠的而掩盖的信息部分。

主成分回归的主要算法如下:

主成分分析通过奇异值分解实现,即将X矩阵分解如式2.13所示。X=USVT(2.13)S——对角矩阵,包含X的奇异值;

U——标准列正交;

VT——标准正交矩阵。

实际上,矩阵U和矩阵S的乘积等于主成分分析中的得分矩阵T,矩阵V等于载荷矩阵P。主成分回归的模型如式214所示。Y=TB+E(2.14)B的最小二乘解如式2.15所示。B=TTT-1TTY(2.15)主成分回归克服了MLR所产生的严重共线性问题,即病态。在最大程度利用光谱信息的同时,通过忽略那些次要成分,起到了抑制噪声对模型的影响,进一步提高了校正模型的稳定性和可靠性。该方法不需要了解干扰组分的存在便可以较为准确地测出待测组分。但其运算速度比MLR慢,且不如MLR方法对模型那么直观。

在主成分回归中,对于模型建立至关重要的便是最佳主成分数的选取。若主成分数过少,将会丢失一定量的有用信息,拟合不充分;若选取的主成分数过多,则会因为包含过多的噪音而出现过度拟合现象,使得模型的预测误差增大。因此,要合理选取最佳主成分数,有效地提高模型的预测性和可靠性。

3最小二乘法(Partial Least Square,PLS)

偏最小二乘法也是一种多元回归算法。类似PCR,对光谱矩阵X进行分解,去除其中无效的噪音干扰。同时,分解浓度矩阵Y,消除其中的无用信息。并且,在分解光谱矩阵X的同时考虑了浓度矩阵Y的影响。其实质是将矩阵分解和回归并为一步。在每计算一个新主成分之前,将X的得分矩阵T与矩阵Y的得分U矩阵进行交换,使得到X主成分直接与Y关联。这样就弥补了PCR方法只针对X进行分解的缺点。

PLS算法如下所示:

PLS首先对光谱矩阵X和浓度矩阵Y进行分解,其模型如式2.16,2.17所示。X=TP+E(2.16)

Y=UQ+F(2.17)其中

T——X矩阵的得分矩阵;

U——Y矩阵的得分矩阵;

P——X矩阵的载荷矩阵;

Q——Y矩阵的载荷矩阵;

E——X矩阵的PLS拟合残差矩阵;

F——Y矩阵的PLS拟合残差矩阵。

PLS第二步是将T和U做线性回归如式2.18,2.19所示。U=TB(2.18)

T=TTT-1TTY(2.19)在预测时,首先根据P求出未知样品光谱矩阵X未知的得分T未知,然后求得浓度预测值如式2.20所示。Y未知=T未知BQ(2.20)PLS在应用中显示出了其独特的优越性:

(1)灵活的使用光谱数据,可以根据需要使用全部或者部分光谱数据而达到很好的建模效果。

(2)将特征向量与被测成分相关,即把数据分解与回归同时进行,有效地融合在一起。

(3)适用于处理样本数量少,但是变量相对较多的问题。

(4)PLS是多元线性回归和主成分分析的完美结合,显著提高了校正模型的预测能力。

正因为PLS的如上优点,在很多领域中,该方法得到了广泛的应用。

二、定性分析方法

近红外光谱的定性分析方法目前广泛应用于质量控制中,如产品生产线上一系列的工序监控,化工生产等的工艺优化,农产品产地、优劣等的分析研究,在制药业、石油化工、环保、轻工业和食品加工等领域也同样日益受到重视。常用的定性分析方法有人工神经网络法、聚类分析法和支持向量机(SVM)等方法。

1.人工神经网络

现代计算机有很强的计算和信息处理能力,但是它对于模式识别、感知和在复杂环境中作决策等问题的处理能力却远远不如人,特别是它只能按人事先编好的程序机械地执行,缺乏向环境学习、适应环境的能力。人们早已知道人脑的工作方式与现在的计算机是不同的,人脑是由极大量基本单元(神经元,见图2.5)经过复杂的互相连接而成的一种高度复杂的、非线性的、并行处理的信息处理系统。单个神经元的反应速度比计算机的基本单元——逻辑门——低5~6个数量级。由于人脑的神经元数量巨大,每个神经元可与几千个其他神经元连接,对许多问题的处理速度比计算机快得多。

图2.5神经元构成示意图

因此,人们利用大脑的组织结构和运行机制的特点,从模仿人脑智能的角度出发,来探寻新的信息表示、存储和处理方式,设计全新的计算机处理结构模型,构造了一种更接近人类智能的信息处理系统,即人们目前正在研究的人工神经网络(Artificial Neural Networks,简称NN)系统。简而言之,所谓NN就是模仿人脑工作方式而设计的一种机器,它可用电子或光电元件实现,也可用软件进行计算机仿真。自从上世纪40年代初,美国McCulloch和Pitts从信息处理的角度,研究神经细胞行为的数学模型表达,提出了二值神经元模型以来,人们对神经网络进行了大量的研究。其中经历了40年代末心理学家Hebb提出著名的Hebb学习规则,50年代Rosenblatt提出的感知机模型(Perceptron),60年代神经网络研究的低潮,80年代提出的一种新的神经网络HNN和Boltzmann机等一系列的过程。目前,神经网络的发展非常迅速,从理论上对它的计算能力、对任意连续函数的逼近能力、学习理论以及动态网络的稳定性分析上都取得了丰硕的成果,特别是在应用上已迅速扩展到许多重要领域。如模式识别与图像处理中的手写体字符识别、语音识别、人脸识别、基因序列分析、医学疾病的识别、油气藏检测、加速器故障检测、电机故障检测、图像压缩和还原;控制及优化方面的化工过程控制、机械手运动控制、运载体轨迹控制等;金融中的股票市场预测、有价证券管理、借贷风险管理、信用卡欺骗检测;通信中的回声抵消、路由选择、自适应均衡、导航等方面。

下面的图2.6表示了作为NN的基本单元的神经元模型,它有三个基本要素:

图2.6基本神经元模型

(1)一组连接,连接强度由各连接上的权值表示,权值为正表示激活,为负表示抑制。

(2)一个求和单元,用于求取名输入信号的加权和(线性组合)。

(3)一个非线性激活函数,起非线性映射作用并将神经元输出幅度限制在一定的范围之内。常见的激活函数φ(·)有阈值函数、分段线性函数和sigmoid函数等。此外还有一个阈值θ(或偏置-θ)。

人工神经网络结构及工作方式如下:

除单元特性外,网络的拓扑结构也是NN的一个重要特性。从连接方式看NN主要有两种。

(1)前馈型网络。各个神经元接受前一层的输入,并输出给下一层,没有反馈。节点分为两类,即输入单元和计算单元,每一计算单元可有任意个输入,但只有一个输出。通常前馈网络可分为不同的层,第i层的输入只与第i-1层的输出相连,输入和输出节点与外界相连,而其他中间层则称为隐层。

(2)反馈型网络。所有节点都是计算单元,同时也可接收输入,并向外界输出,其中每个连接弧都是双向的。若总单元数为n,则每一个节点有n-1个输入和一个输出。

NN的工作过程主要分为两个阶段:第一个阶段是学习期,此时各个计算单元状态不变,各连线上的权值可通过学习来修改;第二个阶段是工作期,此时各连接权固定,计算单元状态变化,以达到某种稳定状态。

从作用效果来看,前馈网络主要是函数映射,可用于模式识别和函数逼近。反馈网络按对能量函数的极小点的利用来分类有两种:第一类是能量函数的所有极小点均起作用,这一类主要用作各种亮相存储器;第二类只利用全局极小点,它主要用于求解最优化问题。

通过向环境学习获取知识并改进自身性能是NN的一个重要特点,在一般情况下,性能的改善是按某种预定的度量通过调节自身参数(如权值)随时间逐步达到的。在本章中我们重点介绍神经网络的学习规则。常见的学习规则算法有如下三种:

(1)误差纠正学习(delta规则)

同类推荐
热门推荐
  • 宠妃攻略:腹黑皇上惹不起

    宠妃攻略:腹黑皇上惹不起

    作为一个胖子,被台风吹跑了,首席记者洛青冉感觉自己很失败。然而,更可怕的是,她居然来到了古代,还绑定了一个‘贤妻良母’系统,为了完成任务费尽心机……“腿疼!”某皇帝悠哉的喝着茶水。洛青冉皮笑肉不笑,耐心揉腿儿。“胳膊疼!”洛青冉继续揉胳膊。
  • 步入你的爱情陷阱

    步入你的爱情陷阱

    女追男的爱情,到底是抛弃尊严的勇敢,还是作茧自缚的愚蠢。—大学时,我曾豁出一切去爱的那个男人,最终选择牵着另一个女人的手走到我的面前。“七月,我们分手吧,你那么坚强,没有了我还能好好活下去,可云媛不能没有我。”我转身决绝离开。原以为自己再也不会像这样去爱一个人了。可三年过后,同学聚会上前男友携现任女友对我百般冷嘲热讽。在我最最窘迫之季,天降高富帅解围。面对沈之初,这个谜一般的男人,一次又一次的救我于困窘。我沉寂多年的心中仿佛有什么在重新破土而出。圣诞夜,清浓时。我呢喃:“我们会分开吗?他贴着我的身躯,耳畔吐气如兰:“只要你不主动说分手,我永远不会离开你。”我点头:“那好,我们约法三章,只要你不负我,我也永远不会离开你。”他轻笑:“那万一负了呢?”我认真的看着他的眼睛:“那我会躲到一个你永远都找不到的地方,从此消失在你的世界里。”四年后,那个女人说:“你知道吗?你只是他死去未婚妻的替代品,活人拿什么和死人争?”我不信。而后,在他生日那天,我被人陷害,误入了藏着他和未婚妻共同回忆的阁楼……我从来都没有看见他这样暴怒过,他根本不听我的解释,在我面前扔下了一叠钞票,将我一个人扔在了异国街头。那一日,北海道惨遭百年一次的大地震,我差点就死了。重获新生后,我看破红尘,心灰意冷。意外重逢,他以爱为名囚禁我,又一次试图逃离后,他将我摁在墙壁上,双眼通红,那是我第一次看见他哭。他说:“洛七月,你可真狠心。”我说:“彼此。”“那好,那就让我们互相折磨一辈子吧。”可直到一次意外……这是一个爱情战胜了时间的故事。--情节虚构,请勿模仿
  • 我的贴身美女教官

    我的贴身美女教官

    放学回家,浴室里竟有陌生美女在洗澡……美女兵王贴身照顾,教我成为全能高手,踏上王者之路!有些头疼的是,美女教官太霸道,惹来的美女太多了……
  • 难忘又一年

    难忘又一年

    2008年是中国改革开放30周年,2009年是共和国建国60周年。在党与共和国的历史上.以十一届三中全会为里程碑的“伟大转折”无疑是最为重大的历史事件。三中全会的胜利召开,从根本上冲破了长期“左”倾错误的严重束缚,端正了党的指导思想,重新确立了党的马克思主义的正确路线。它在拨乱反正,提出改革开放任务,推动农村改革方面起了伟大的历史作用。围绕这一事件,作者在深入研究后发现,邓小平主持的1975年整顿是历史转折的前奏;1976年粉碎“四人帮”的胜利为历史转折创造了前提;此后的两年为历史转折作了准备。
  • 唐月

    唐月

    唐朝裴炎被武则天杀害前后的一个小人物的故事
  • 从天堂到地狱我也抱着你

    从天堂到地狱我也抱着你

    一部讲述心内科教授和女富豪虐恋的悲情故事,一部揭开了心内科医生神秘面纱的纪实文学,一部呼吁改善基层医生悲惨现状的倡议书。。。。。
  • 你在天空,我在海里

    你在天空,我在海里

    有一天,风儿路过你的窗边,来到我的屋里,告诉我一个小秘密,叫我带上春天,一起去拜访你……金蝶庄园的蝶儿们熬过漫长的冬天,迎来了春暖花开的季节。一场春天的盛会,蝶儿们大开眼界,那迷人的醉花池,香甜可口的甘蓝,却令菜粉蝶小黄和小白差点几次丧命。一阵迷人的清香扑鼻而来,清透而缥缈,丝丝幽香还带着些许柑橘的气息,当你闭上眼睛,仿佛在空中飘呀飘……这种感觉,可满足你所有的幻想,十分美妙!对,这就是蓝风铃奇特的花香!蝶儿们怎么也没想到,那遥远的西西岛,飘在云端的蓝风铃城堡,还有大海里一群美丽的鱼儿,都与他们有着千丝万缕的关系呢……
  • 刀剑安山海

    刀剑安山海

    大宥朝积重难返,少年天子欲挽狂澜于既倒,重振大宥;世间礼义崩坏,人心不古,老神仙欲重整风气再俗淳;天下动乱,老翁只想阖家欢乐,不料树欲静而风不止,堂堂君子,却被称作“人屠”;小儿无知,擂台之上结识两义兄,三人同行,对这乱世是好是坏?又能掀起怎样波澜?
  • 大明星的贴身情人

    大明星的贴身情人

    他不过是个新人,还真当自己是大牌明星了?签份常规协议还诸多挑剔,也只有她这个笨笨的经纪人会同意按照他的意愿来修改。有时候,他真的龟毛得连自己都觉得很过分,可只有她能忍受他,像个小保姆从头到尾照顾他。所以,他也愿意报答一下她啦。这不,刚好有了一个机会——她,二十七,个性冷淡,不懂爱情。他,二十七,游戏人间,体验生活。她想知道爱情究竟是什么?他愿意教这个不开窍的学生。然而,在试着交往的过程中,迷失的,不止一个人……
  • 女村长的贴身神医

    女村长的贴身神医

    消失六年的徐方突然回到家乡,没想到家里住着新上任的女村长。徐方决定帮助女村长发展山村,凭借他过人的手段,原本贫困的山村,逐渐变成了女白领、女明星、女大学生、女警花都想来的富饶之地。