Literature
Home药品天地专业药学实验技术色谱技术色谱论文

人工神经网络法预测二维色谱柱效 -(* 我自己在色谱杂志上发的一篇小文章,见笑!)

来源:中国色谱网
摘要:摘要二维柱色谱系统是近年来迅速发展的新型色谱方法,柱效与主要影响因素的关系难以用传统方法建立定量模型。本文采用基于变步长BP算法的人工神经网络,对高效微填充柱──毛细管柱构成的二维柱色谱系统建立了柱效与影响因素的权接拓朴模型,并用于柱效预测和操作条件优化中,取得了较好的效果。1前言现代气相色谱已广......

点击显示 收起

      摘要  二维柱色谱系统是近年来迅速发展的新型色谱方法,柱效与主要影响因素的关系难以用传统方法建立定量模型。本文采用基于变步长BP算法的人工神经网络,对高效微填充柱──毛细管柱构成的二维柱色谱系统建立了柱效与影响因素的权接拓朴模型,并用于柱效预测和操作条件优化中,取得了较好的效果。


1 前言


现代气相色谱已广泛采用了毛细管柱,毛细管柱的分离效能高但柱容量低,直接进样极易造成进样过量,柱管也易被样品中的高沸点组分玷污。因此,比较理想的方法是在毛细和柱前串接一支短填充柱,构成二维柱色谱系统。由于二维柱色谱便于实现中心切割、溶剂切割、反吹等切换操作,有利于痕量杂质的测定、有利于保护主柱,并且可简化样品的预处理过程,故近年来这种新型的色谱方法发展十分迅速[1]。
自八十年代起,中科院大连化物所国家色谱研究分析中心对二维柱色谱进行了大量研究工作,卢佩章院士开创性地提出了微填充柱──毛细管柱直接连接的新型系统。根据这一思想,国振双等以美国PE公司SIGMAI气相色谱仪为基础,在原汽化室中安装了自行研制的高效微填充预柱与石英毛细管柱直接相连接,将一维柱色谱改装为二维柱色谱系统。并以正构烷烃为样品建立了双柱系统的柱效评价实验方法,指出二维柱色谱系统的柱效主要由预柱柱温、主柱柱温、预柱间压差、预柱与主柱间的放空量所决定,但未建立柱效与因素之间的数学关系[2]。实际上,这种关系较为复杂,并不能找到一个简单的函数式来表示,如果用传统的建模方法来研究,通常难以奏效。
人工神经网络(Artificial Neural Network,简称ANN)是近年来迅速发展的研究热点,在生物科学、自动控制、化学工程等领域取得了很大的应用进展。它是一种新型的黑箱方法,不需要了解输入输出之间的相互关系,其自学习功能能够“记忆”样本所含的信息,网络只是根据训练样本的数据来自动寻找相互关系,给所研究的系统以具体的数学表达,从而使系统的定量化优化和预测成为可能;并且由于其并行计算的性质,计算量不会因为维数增加而发生指数“爆炸”。在研究系统内复杂关系的建模问题上,人工神经网络显示出其独特的优越性[3]。


2 变步长BP算法人工神经网络


我们采用的目前应用比较成熟且应用最广泛的三层BP神经网络模型,它能将样本的输入输出问题转化为一个非线性的优化问题,是从大量实验数据中总结规律的有力手段。
BP网络是由输入层、输出层和隐层所组成的前向连接模型,同层各节点互不连接,相邻层的节点通过权连接。输入层各点的输入信号经权重耦合到隐层的各点,由作用函数f(x)转换后再耦合到输出层的各点。将输出信号与学习样本的目标数值进行比较,两者之间的误差利用“反传算法(Backpropagation Learning Algorithm)”沿原连接通道返回,通过修改各层节点的连接权重,使误差达到最小。权重修改公式为:
 
式中:W为权重;t为训练次数;h和α分别为学习步长和记忆常数[4]。
    当所有样本输出值与目标期望值的之间的均方差RMS值满足要求时,停止迭代,网络训练完毕,各节点的连接权值就固定下来,同时也就得到了所研究对象的输入输出之间的拓朴关系,即建立了两者之间的数学定量关系。利用训练好的网络即可方便地进行新样本的预测。
由于经典的BP算法存在着收敛速度慢、有局部最小问题等缺点,人们对其提出了一些改进方法,如添加惯性冲量、批处理学习样本、跳跃学习以及动态调整学习步长和记忆常数等[5]。我们所采用的是变步长BP算法,主要改进之处在于:
(1)引入动态步长技术:根据样本的训练情况动态地增大或减小学习步长h。在样本学习过程中,当RMS减小时自动增大h值(乘以一个大于1的常数因子a);而当RMS增大时自动减小h值(乘以一个小于1的常数因子b)。在一般情况下,常数a和b值的选取应使得(1-b)的值比(a-1)略大一些。
(2)加入偏置以稳定网络;
(3)进行输入输出向量的标准化(归一化)以改善收敛特性。
网络的结构可用图直观地表示,如图1所示:

 

                输出层

                隐  层


                输入层

 1              2                         4                                     input = -1
图1 一个典型的BP网络(4-6-1体系)示意图

3 样本及网络模型参数的选取


3.1 训练样本集及预测集的组织
我们以文献[2]中的实验数据组成训练样本集与预测集。其中训练样本数为22个,预测集样本数为3个。以预柱柱温、主柱柱温、预柱间压差、预柱与主柱间的放空量四个因素为输入向量,作为衡量柱效指标的二维柱色谱系统有效塔板数N为输出向量(教师信号)。这些数据见表1所示。
3.2 变步长BP网络参数
我们所采用的网络为带一个配置节点的4-6-1体系;学习步长h初值为0.2,记忆常数α为0.5;步长调整因子a取1.02,b取0.96;传递作用函数f(x)取Sigmoid函数,即:
 
表1 变步长BP神经网络训练样本及预测样本
序号    类别    输入向量        输出向量
                预柱柱温(℃)  主柱柱温(℃)  预柱间压差(kPa)       柱间放空量(mL/s)      塔板数N
1       训练样本        140     60      8       4       951.1
2               140     80      10      3       171.7
3               140     100     12      2       104.7
4               160     60      10      2       138.5
5               160     80      12      4       1108.7
6               160     100     8       3       2482.8
7               180     60      12      3       838.6
8               180     80      8       2       726.5
9               180     100     10      4       12064.9
10              180     120     10      3.3     15809.1
11              120     120     3       3.3     16162
12              120     120     5       3.3     15284
13              120     120     7       3.3     10978
14              120     120     9       3.3     10498
15              120     120     11      3.3     13150
16              120     120     13      3.3     7562
17              120     120     8       3.3     9349
18              120     120     8       2.5     2896
19              120     120     8       2.0     648
20              120     120     8       1.5     289
21              120     120     8       1.0     108
22              120     120     8       0.5     75
23      预测样本        180     100     10      5       13707.7
24              180     100     10      3.3     13931.2
25              180     120     10      3.3     15809.1
由于研究的样本中最大最小值相差较大,而Sigmoid函数要求输入值范围在-2~+2之间、输出值范围在0~1之间,这样才能保证网络对样本具有足够的敏感性和良好的拟合性。样本训练开始前,先用对数标准化方法将输入向量归一化至-2~+2之间、输出向量归一化至0~+1之间,对数标准化的方程为(设向量为V0,标准化合的向量为V):
 ;(A和B的值由程序根据归一化目标自动求算)
采用随机数矩阵进行权值矩阵的初始化,设置随机数生成器的最大最小输出为-3和+3。
值得注意的是,这里目标误差的设置是对于已标准化的数据而言的,在标准化数据还原时可能会导致误差的放大。
4 人工神经网络的训练和预测
4.1 变步长BP网络的训练
    设置网络的目标误差为0.05(这是通常情况所采用的值),利用Visual Basic编写的程序进行样本的训练,运行平台为Windows 95,机型为Pentium 166、16M内存。经过约230秒的迭代运算,RMS值小于目标误差(注意此时是对已标准化的数据而言),网络训练完毕程序输出各种结果参数。此时对于每一样本,网络的输出值对目标值(实验值)的误差都基本小于目标误差0.05。
训练好的网络中,各节点的连接权值见表2和表3所示:

表2 输入层到隐层的连接权值
输入节点隐层节点        1预柱柱温       2主柱柱温       3预柱间压差     4柱间放空量     5偏置节点
1       3.615831        -0.703066       -0.197795       -1.917820       -1.361141
2       1.509548        3.862814        -0.055421       -1.423490       1.689778
3       -1.974082       -2.633001       2.091919        1.050981        -2.777098
4       -1.190215       3.000683        -2.006828       0.314274        -2.082118
5       0.936242        -0.997915       1.190699        -3.087333       -0.387121
6       -0.278770       -0.305685       1.109523        -2.138355       1.926594

表3 隐层到输出层的连接权值
隐层节点        1       2       3       4       5       6       偏置
权    值        3.517699        1.961201        2.318674        2.398015        -1.834588       -5.325800       -0.949674
    这样,我们就建立了二维柱色谱柱效与其四个影响因素之间的BP神经网络模型,这个模型是一个定量化了的拓朴权接模型,为进一步预测和优化提供了数学依据。
4.2 利用BP神经网络进行柱效预测
利用上面样本学习所得到的神经网络对训练集进行预测,得到的结果见表4所示。

表4 BP网络预测结果与精度
样本号  实验测得塔板数  BP网络预测塔板数        相对误差        标准化向量误差
23      13707.7 11809.850000    -13.8%  0.027736
24      13931.2 11033.090000    -20.8%  0.043409
25      15809.1 13497.950000    -14.6%  0.029416
从表4中的数据可以看出,在进行不同因素条件下的柱效预测时,标准化向量的误差均小于网络训练的目标误差0.05;这说明神经网络较好地记忆了所学习样本中蕴藏的信息,训练完毕的网络较好地反映了二维柱色谱柱效(以有效塔板数来表示)与四个主要影响因素之间的定量关系。另一方面,正如前面第2节所述,在对标准化(归一化)向量作还原时,可能会导致误差的放大,这也正是24号样本相对误差会达20%的原因,对实际的微填充柱──毛细管柱二维色谱系统,由于其本身的柱效很高,这样的误差还是可以接受的。而且,这种误差应该还含有实验本身误差的因素在内。
实际上,预测集中的样本是取自文献[2]中在前期实验基础上进一步寻优实验的数据。文献[2]根据小区间的进一步寻优试验,根据所得的有效塔板数的多少确定了实验所用的二维柱色谱系统其最佳操作条件为25号样本对应的操作条件:预柱温180℃、主柱温为120℃,预柱前压为10kPa,预柱和主柱间的放空量为3.3mL/s。如果我们依据BP神经网络的预测结果,同样可以发现,25号样本的目标输出最大,其对应的操作条件应为最佳操作条件,两者结果完全一致。

5结论


(1)BP算法人工神经网络具有自组织、自学习和自适应能力,具有模拟多种函数的能力,包括非线性函数和分段函数等。在用于预测二维柱色谱系统的柱效时,BP网络对样本元素间的复杂关系用权接拓朴结构进行了较好的摸拟,训练好的网络在预测不同条件下二维柱色谱系统的有效塔板数、优化二维柱色谱系统操作条件时,结果基本与实验值一致,预测精度较高,证明了方法的可行性。
(2)针对经典BP网络收敛速度慢、有局部最小问题的缺点,引入了变步长技术。实践证明这种根据样本学习情况动态地改变学习步长的方法有效地改善了收敛特性和速度。
(3)BP网络的样本组织,并不需要满足某种特定的条件。例如散布于文献中的数据资料、不够系统性的有残缺性的数据等只要准确可靠,都可以作为训练的样本。
(4)当然,BP网络的应用必须基于一定数量准确可靠的输入输出数据对组成的训练样本。这就是说,BP算法作为一种有导师学习算法,适合于应用在有数据资料积累但不易用一般数学方法分析得到定量关系的场合,而不适合于资料严重缺乏的场合。
6参考文献
1 卢佩章,戴朝政,张祥明. 色谱理论基础(第二版). 北京:科学出版社. 1997
2 国振双,周申范,许国旺. 新型微填充柱──毛细管柱双柱系统. 南京理工大学硕士学位论文. 南京. 1994
3 胡守仁. 神经网络导论. 长沙:国防科技大学出版社. 1993
4 史忠植. 神经计算. 北京:电子工业出版社.1992
5 高洪深,陶有德. BP神经网络模型的改进. 系统工程理论与实践. 1996,(1):67-71

Column Efficiency Prediction of Double-dimension
Chromatography by Artificial Neural Network

Huang Jun  Zhou Shenfan  Guo Zhenshuang
(College of Chemical Engineering, Nanjing University of Science and Technology,  Nanjing  210094)
Xu Guowang
(Dalian Chemistry-Physics Institute, China Science Academy Institute  Dalian  116000)

Abstract  Double-dimension column chromatography is a new method developing rapidly in recent. However, it is not easy to establish a quantified model between the column efficiency and its main effecting factors for those traditional methods. This paper used an artificial neural network based on a varied-pace BP (Back-propagation) Learning Algorithm, and established a weight-connected model for a typical dual column system. Then the yield model is used to predict column efficiency (characterized by ‘effective plate number’) under different conditions and to optimize operating condition. The results is quite fine, which shows this novel method is applicable.
Keywords  double-dimension chromatography  artificial neural network(ANN)  BP algorithm  varied-pace

 

作者: 黄俊,周申范,国振双,许国旺 2007-5-18
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具