点击显示 收起
【摘要】 本文选用氨基酸分子的相对分子量、pI值、疏水性值以及保守性值这四个参数,利用模糊聚类的方法,对20种氨基酸分子进行了分类。通过对分类结果的分析,有助于我们研究蛋白质的相似性问题。
【关键词】 氨基酸;模糊聚类分析
现代生物信息学研究的重点,已经从传统的基因和基因组分析逐渐转向蛋白质和蛋白质组分析。在分析不同蛋白质的组成及其性质中,氨基酸残基的相似性对蛋白质的相似性问题有很重要的意义。因此,我们要对氨基酸分子进行分类,借此发现它们彼此之间的相似性。
传统的分类方法,通常只是根据氨基酸分子的一个性质来进行比较分类[1]。在文献[2]中利用氨基酸分子的分子量和等电点pI值来进行二维分类。本文选用氨基酸分子的相对分子量、pI值、疏水性值以及保守性值这四个参数,利用模糊聚类的方法,对20种氨基酸分子进行了分类。
1 模糊聚类的基本方法
模糊聚类分析方法大致可分为两种:一种基于模糊关系上的模糊聚类分析法,并称为系统聚类分析法;另一种称为非系统聚类分析法,它是先把样本粗略分析一下,然后按其最优先原则进行分类,经过多次迭代直到分类比较合理,这种方法也称为逐步聚类法。本文使用前者。
首先对各样本的统计指标数据进行归一化:Xij=(X′ij-X′min)/(X′jmax-X′jmin)式中X′为原始数据,X′jmin为第j项统计指标最小值,X′jmax为第j项统计指标最大值。然后算出衡量被分类对象间相似程度的统计量rij(i=1,2,……,n;j=1,2,……n)n为被分类对象个数,从而确定论域U上的相似关系R。
计算统计量的方法很多,本文选用的是夹角余弦法:rij=∑m k=1Xik·Xjk ∑m k=1X2ik·∑m k=1X2jk然后利用直接聚类的方法得到聚类的结果。
2 氨基酸分子的模糊聚类分析
我们利用文献[3]给出的氨基酸分子的相对分子量、pI值、疏水性值以及保守性值这四个参数的数据(见表1),利用上面的方法进行分析,得到分类结果见图1。表1 氨基酸分子的相对分子量、pI值、疏水性值以及保守性值(略)
3 讨论
从二十种氨基酸分子的模糊聚类图中,我们很容易地看出各种氨基酸分子之间的相似的程度,从而为我们分析相应蛋白质的相似性提供了一个相应的参考手段。例如对镰刀型贫血症,镰状细胞等位基因与正常基因的差别,是只有一个T代替了一个A。这个基因密码译成血红蛋白时,氨基酸也是只有末端由缬氨酸代替了谷氨酸,而缬氨酸和谷氨酸这两种氨基酸分子显然有很大的差异,这种分子改变使红细胞得到异常的形态和其它性质。
【参考文献】
1 周旭章,魏开华,陈国强,等.化学元素的模糊聚类分析.计算机与应用化学,2000,17(2):167-168.
2 陈志华,陈惟昌,邱红霞,等.氨基酸的分子结构与遗传密码简并及二维集合分类.生物物理学报,2001,17(1):187-194.
3 赵国屏.生物信息学.北京:科学出版社,2002,87.
作者单位:157011 黑龙江牡丹江,牡丹江医学院
(编辑:宋冰)