Literature
Home药品天地专业药学实验技术色谱技术色谱论文

神经网络法在使用裂解气相色谱鉴别中草药中的应用

来源:中国色谱网
摘要:摘要将以误差反向传播为训练算法的前馈式人工神经网络(BP-ANN)首次用于中草药的裂解气相色谱谱图解析。重点考察了如何表征和提取复杂的裂解色谱图中有价值信息,用主成分分析方法处理后输入到参数经优化的神经网络中。1引言裂解气相色谱法(PyGC)是分析研究高分子和非挥发性有机化合物的有效方法,在高分子领域、生物医学......

点击显示 收起

摘 要 将以误差反向传播为训练算法的前馈式人工神经网络(BP-ANN)首次用于中草药的裂解气相色谱谱图解析。重点考察了如何表征和提取复杂的裂解色谱图中有价值信息,用主成分分析方法处理后输入到参数经优化的神经网络中。实验证明,该方法不仅可以正确识别样品所属种类,而且对于不同实验时间、数据残缺等原因造成的噪音具有优异的抗干扰能力。
1 引  言

  裂解气相色谱法(PyGC)是分析研究高分子和非挥发性有机化合物的有效方法,在高分子领域、生物医学、火炸药、石油地质等方面有着广泛的应用。不同的物质具有各自特征的裂解谱图,据此可进行定性鉴定。为克服鉴别裂解色谱谱图过程中存在的难点, Judith〔1〕提出采用以计算机为基础的峰匹配和模式识别技术。自从Rumelhart〔2〕、Lippman〔3〕在后繁殖神经网络方法的研究和评论后,该法在化学、生物化学、化学工程中得到了很好的应用〔4〕。1981年日本首次报道了将PyGC用于中草药鉴定〔5〕。中草药的裂解谱图很复杂,通常的谱图对照法准确度差、效率低。本文将前馈式人工神经网络方法(BP-ANN)用于中草药高分辨裂解气相色谱的谱图解析,为研究我国丰富的天然药物资源提供了一条途径,这方面的工作未见报道。

2 实验部分

2.1 样品
  样品为来源于不同产地的白芍、甘草、黄芩、黄芪、三七、银杏6种中药材(由北京药品生物制品鉴定所车宝泉工程师提供)(见表1)。
2.2 仪器和实验条件
  LJ-01型管炉裂解器(北京分析仪器厂),裂解温度400℃,裂解环境温度220℃,裂解时间20 s,裂解升温速率20℃/ms。HP-5890Ⅱ气相色谱仪,FID检测器,使用30 m×0.22 mm(I.D.)涂渍SE-30的石英毛细管柱,氮气流速为30 mL/min。进样口温度250℃,检测器温度300℃,色谱柱温从50℃(停留12 min)以5℃/min的速率升温至250℃(停留20 min)。样品用量0.2 mg。
  奔腾586微型计算机通过9202N型色谱工作站(北京分析仪器厂)与色谱仪相连,完成数据采集、处理、分析。程序自编。作为例子,图1示出甘草样品(内蒙)的PyGC谱图。

表1 实验用中药材
Table 1 The traditional Chinese medicines used in this work
 

序号
No. 药 名
Name of the samples 样品来源
Origin of the sample 数据文件名
Name of the program 
1 白芍 Paeonia albiflora 浙江盘安(22号) Pan′an, Zhejiang, China (NO.22)
山西凡峙(23号) Fanshi, Shanxi,China (NO.23)
山西(15号) Shanxi, China (NO.15) bs22-2,3,4
bs23-1,2,3
bs15-1,2,3,4、bs-5 
2 甘草 Licorice root 内蒙乌角市(17号) Wujiao, Neimeng, China(NO.17)
呼和浩特市(32号) Huhehaote, China (NO.32) gc17-1,2
gc32-1,2,3 
3 黄芩 Scutellaria
baicalesis 药材中心白色部位the white center of the crude drug
药材周围黄色部位the yellow part around the center of the crude drug hq-1,2
hq-5,6 
4 黄芪 Astragaalus
membranaceus 内蒙(14号) Neimeng, China (NO.14)
山西(24号) Shanxi, China (NO.24) hz14-1,2
hz24-1,2 
5 三七 Pseudo-ginseng 云南燕山县(16号) Yanshan, Yunnan , China(NO.16)
昆明不见山县(21号) Bujianshan, Kunming, China (NO.21)
草药不同部位different part of the crude drug sq16-1,2,3
sq21-1,2,3
sq-1,2,4,6 
6 银杏 Gingko 河南(19号,34号) Henan, China (NO.19, NO.33)
北京(33号) Beijing, China (NO.33) yx19-1,2、yx34-1,2
yx33-1 



 图1 样品甘草(gc17-2)的裂解色谱图
 Fig.1 Pyrochromatogram of licorice root

3 结果与讨论

3.1 数据预处理
  进行数据处理时要考虑三个方面:
  首先是有效表征色谱信息。通常通过计算系统处理后,一个样品的谱图信息可以用一个向量表示,即,Xi=(xi,x2,…,xj,…xn),其中xj表示某一色谱峰的保留时间或峰的相对强度。我们通过在相同条件下裂解高密度聚乙烯,以所得的裂解碎片为参照物,计算每一个色谱峰的相对保留指数(RI):



其中tR(x)表示样品的一个色谱峰的保留时间,而tR(z)和tR(z+1)为聚乙烯裂解后产生碳数为z和(z+1)的正构烷烃的保留时间。杨睿〔6〕考察了在固定相、裂解温度和裂解时间没有很大差别的情况下,这种表征方法不受其它分离和裂解条件的影响。
  其次是特征提取。绝大部分文献是根据色谱峰的强度进行特征提取。本文利用计算机将复杂的PyGC谱图分为若干窗口,提取每个窗口中强度最大的峰作为样品的特征(如果某一间隔无色谱峰出现,则用零表示该间隔)。这样每一个色谱图表示为一个向量xi=(RI1,RI2,…,RIj,…RIn),RIj为样品某一色谱峰的相对保留指数,n为窗口数。为避免输入RI值之间相差过大,做标准化预处理,赋予每个变量相同权重。
  最后是数据降维。Zupan〔7〕等认为较小的BP-ANN具有更好的概括能力。为得到好的结果,不能不加选择和处理地输入全部数据。不少人〔8~10〕采用主成分分析(PCA)做数据降维预处理,这对避免网络局部最小点和过拟合的削减是有利的。实验证明(3.4.2),此法不仅减少了分析时间,且明显改善分析结果。
3.2 网络的拓扑结构
  网络的结构及参数是经过反复调试确定下来的。实验采用有一个输入层、一个隐含层和一个输出层的误差反向传播的前馈式神经网络。增益为2.0,动量因子0.7,学习速率0.9。网络输入层有10个输入单元,对应于经过PCA处理后的前10个主成分;隐含层为13个节点;输出层有4个节点,对应于4种中草药。训练时,输出层采用0.9和0.1表示隶属与否,如设定为(0.1,0.1,0.9,
0.1),则表示该物质属第3种药材。测试时,未知样品属于给出最大输出值的节点所代表的那一种中药材。
3.3 训练与识别
  实验是挑选4种中药(白芍、甘草、三七、黄芩)共39张谱图分为训练集和测试集,随后进行数据的分析处理,结果列于表2。由于本次实验每种中草药的数据文件较少,划分为训练集和测试集后,在训练集中能表征每一种样品特征的数据更为有限,曾将6种样品的数据全部输入,测试结果不理想。此次只随机挑选4种中草材的数据,使网络从足够的样本中形成有关样品特征的信息,不受干扰。另外,使用BP-ANN分析目的和训练集的构成有必然联系,是对不同种类药材的识别还是同一样品不同来源的鉴定?如果本文采用大量不同产地同一种药材的PyGC数据进行训练,则网络就可用于不同产地的识别。

表2 采用不同输入的ANN的识别结果
Table 2 The results of different data representation
 

序号
No. 测试集1
Test 1 样品种类
Class No. 输出(RI)
Output on RI 输 出
(相对强度)
Output on
relative
intensity 测试集2
Test 2 样品种类
Class No. 输出(RI)
Output on RI 输 出
(相对强度)
Output on
relative
intensity 
1 hz14-1 1 0.8963573 0.9010093 bs15-4 1 0.8140853 0.5510961 
2 gc32-3 2 0.8983599 0.9026427 bs15-2 1 0.9037179 0.9002081 
3 sq16-1 4 0.9035612 0.9628927 gc32-1 2 0.6345001 × 
4 gc32-2 2 0.9065757 0.9027693 bs22-4 1 0.4611037 × 
5 hq-1 3 0.8983725 0.9012142 sq21-1 4 0.8696846 × 
6 hq-5 3 0.8991006 0.9029328 sq21-3 4 0.8936088 0.9100508 
7 sq21-1 4 0.935466 0.8207738 gc32-3 2 0.9004161 0.8966033 
8 sq21-3 4 0.9017214 0.9650427 hq-5 3 0.8965553 0.9016448 
  总误差
Output error   2.04×10-5 0.00181 总误差
Output error   0.0339 0.3189 

 “×”表示输出值为最大的节点并不是该测试样品所属类别对应的节点(If one of the outputs giving the biggest values than the other three nodes 

corresponded to the right sorts of the sample, then the value was listed in 

the table, otherwise, we used “×” to express the wrong output)。总误差表示网络的期望输出与实际输出的偏差(output error is the mean square error defined as the deviation of the current network

 output to the given target values (0.9) of the output layer to decide the stop of 

training session)。
  可以看出,网络能识别出测试集1中的全部样品,输出与目标值(0.9)很接近,所以,该网络可以将与训练集中的样品同一种类的未知样品很好地识别出来,无论未知样品是否参与训练。为了进一步考察该网络对数据的噪音是否有抗干扰能力,采用噪音较大的第二个测试集。实验证明神经网络对数据要求并不苛刻,测试集2的样品全部被正确识别出来,虽然结果逊色于测试集1,但样品所属种类所对应的输出节点仍给出相对于其它输出节点的最大值。实验证明,BP-ANN具有强的自学习、概括功能,由于其分布式的处理结构,使其能从表面不相关的数据中提炼有效信息,对系统进行自组织,一旦训练结束,网络具有很强的容错性,这对通过PyGC识别未知样品无疑是一个很大的帮助。BP-ANN具备有很强的内推能力,但其前馈式算法决定了不适于推断超出训练集特性范围以外的样品(外推)。
3.4 输入参数
  如何正确有效地输入信息对网络性能有很大影响,为此,我们对特征的表征、选取方式以及区间的宽度进行了探讨。
3.4.1 谱图表征 我们尝试用两种不同的方式来表征每个RI窗口的色谱峰,从表2可以看出,采用RI的结果大大优于使用峰强度表征的结果。
3.4.2 特征提取 当网络参数一定的情况下,我们对比了不同特征提取方式。使用RI表征谱图,有3种方式构成网络的输入(结果见表3):
  (1)选取样品谱图中前10位强度最大的峰,经标准化预处理赋予每个变量相同权重后,输入网络;(2)选取样品谱图中前20位强度最大的峰,经PCA处理后,将前10位主成分输入网络;(3)以50为一个RI区间单位长度,将裂解色谱图划分一定数目的区间,选每一区间的强度最大峰。PCA处理后,取前10位主成分输入神经网络。

表3 对比不同的采样方法
Table 3 Results of different feather selection as neural network inputs
 

序号
No. 测试集1
Test 1 样品种类
Class No. 方式(1)
Output of
method 1 方式(2)
Output of
method 2 方式(3)
Output of
method 3 测试集2
Test 2 样品种类
Class No. 方式(2)
Output of
method 2 方式(3)
Output of
method 3 
1 hz14-1 1 0.9280512 0.9013705 0.8963573 bs15-4 1 0.4706645 0.8140853 
2 gc32-3 2 0.6474872 × 0.8983599 bs15-2 1 × 0.9037179 
3 sq16-1 4 × 0.9014167 0.9035612 gc32-1 2 0.8546822 0.6345001 
4 gc32-2 2 0.6788757 0.9006227 0.9065757 bs22-4 1 × 0.4611037 
5 hq-1 3 0.8022282 0.8983878 0.8983725 sq21-1 4 0.9841776 0.8696846 
6 hq-5 3 0.9907737 0.8995658 0.8991006 sq21-3 4 0.8997711 0.8936088 
7 sq21-1 4 × 0.9003518 0.935466 gc32-3 2 0.8976599 0.9004161 
8 sq21-3 4 0.7363757 0.9033872 0.9017214 hq-5 3 0.9000604 0.8965553 

  实验证明,方式(1)虽能收敛,运行1000次循环,误差为7.32×10-5,但对样品判别能力差,尤其是对训练集外的样品失去预测能力。进一步实验证明,如果选取样品谱图前20位强度最大峰,经标准化处理后,不经主成分预处理,直接全部输入网络进行训练,虽牺牲运行时间,网络仍根本不收敛。如果进行PCA预处理,从测试集1的测试结果可以看出,方式(2)虽优于方式(1),但是测试集2给出的结果仍不令人满意,只有方式(3)最好。这样,我们不仅证明了使用PCA进行前处理是必要的,而且,按区间进行特征提取神经网络的预测能力强于按强度大小取样。
3.4.3 区间的大小 我们考察了区间宽窄对网络性能的影响(网络结构及参数基本不变)。实验证明,以50为一个区间单位的结果最好。我们也发现这并不是绝对的,依赖于分析的目的(比如是较大范围的分类还是小范围内的鉴别)和谱图的质量。如在差别较大的分类过程中,对于分辨度好的色谱图,采用较大的区间单位是一个较好的选择,不仅可避免过训练现象发生,而且训练时如果将所有信息一味地全部输入,网络将无法应付测试集的微小变化,丧失灵活性和抗干扰能力。
4 结  论

  以裂解气相色谱法为检测手段,对BP-ANN分类鉴别中草药作了成功的应用。实验仅利用4种中草药进行了初步的尝试,尚需要大量的数据以及进行调试等深入和细致工作,才能更好发挥神经网络技术在色谱分析中的应用潜力。

耿利娜(北京理工大学化工与材料学院,北京 100081)(吉林省中医院,长春 130021)
罗爱芹(北京理工大学化工与材料学院,北京 100081)(吉林省中医院,长春 130021)
傅若农(北京理工大学化工与材料学院,北京 100081)(吉林省中医院,长春 130021)
李静(北京理工大学化工与材料学院,北京 100081)(吉林省中医院,长春 130021)

作者: 耿利娜罗爱芹傅若农李静 2007-5-18
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具