氨基酸分子的模糊聚类分析 2006年第6卷第2期 | 39康复网

【摘要】本文选用氨基酸分子的相对分子量、pI值、疏水性值以及保守性值这四个参数，利用模糊聚类的方法，对20种氨基酸分子进行了分类。通过对分类结果的分析，有助于我们研究蛋白质的相似性问题。

    【关键词】氨基酸；模糊聚类分析

    现代生物信息学研究的重点，已经从传统的基因和基因组分析逐渐转向蛋白质和蛋白质组分析。在分析不同蛋白质的组成及其性质中，氨基酸残基的相似性对蛋白质的相似性问题有很重要的意义。因此，我们要对氨基酸分子进行分类，借此发现它们彼此之间的相似性。

　　传统的分类方法，通常只是根据氨基酸分子的一个性质来进行比较分类［1］。在文献［2］中利用氨基酸分子的分子量和等电点pI值来进行二维分类。本文选用氨基酸分子的相对分子量、pI值、疏水性值以及保守性值这四个参数，利用模糊聚类的方法，对20种氨基酸分子进行了分类。

　　1 模糊聚类的基本方法

　　模糊聚类分析方法大致可分为两种：一种基于模糊关系上的模糊聚类分析法，并称为系统聚类分析法；另一种称为非系统聚类分析法，它是先把样本粗略分析一下，然后按其最优先原则进行分类，经过多次迭代直到分类比较合理，这种方法也称为逐步聚类法。本文使用前者。

首先对各样本的统计指标数据进行归一化：Xij=(X′ij-X′min)/(X′jmax-X′jmin)式中X′为原始数据，X′jmin为第j项统计指标最小值，X′jmax为第j项统计指标最大值。然后算出衡量被分类对象间相似程度的统计量rij(i=1，2，……，n;j=1，2，……n)n为被分类对象个数，从而确定论域U上的相似关系R。

　　计算统计量的方法很多，本文选用的是夹角余弦法：rij=∑m k=1Xik·Xjk ∑m k=1X2ik·∑m k=1X2jk然后利用直接聚类的方法得到聚类的结果。

　　2 氨基酸分子的模糊聚类分析

　　我们利用文献［3］给出的氨基酸分子的相对分子量、pI值、疏水性值以及保守性值这四个参数的数据(见表1)，利用上面的方法进行分析，得到分类结果见图1。表1 氨基酸分子的相对分子量、pI值、疏水性值以及保守性值（略）

　　3 讨论

　　从二十种氨基酸分子的模糊聚类图中，我们很容易地看出各种氨基酸分子之间的相似的程度，从而为我们分析相应蛋白质的相似性提供了一个相应的参考手段。例如对镰刀型贫血症，镰状细胞等位基因与正常基因的差别，是只有一个T代替了一个A。这个基因密码译成血红蛋白时，氨基酸也是只有末端由缬氨酸代替了谷氨酸，而缬氨酸和谷氨酸这两种氨基酸分子显然有很大的差异，这种分子改变使红细胞得到异常的形态和其它性质。

　　　【参考文献】

　　1 周旭章，魏开华，陈国强，等.化学元素的模糊聚类分析.计算机与应用化学，2000，17(2)：167-168.

　　2 陈志华，陈惟昌，邱红霞，等.氨基酸的分子结构与遗传密码简并及二维集合分类.生物物理学报，2001，17(1)：187-194.

　　3 赵国屏.生物信息学.北京：科学出版社，2002，87.

　　作者单位：157011 黑龙江牡丹江，牡丹江医学院

　　(编辑：宋冰)

作者：陈志国，王立伟 2006-8-19