生物信息学新进展细胞及分子生物学 | 39康复网

　　计算机技术和人类基因组计划的发展，应运而生了一门新兴的学科——生物信息学，该学科包含了两个交叉领域的工作：用于建立现代生物学所需信息系统框架（支持生物学的信息管理系统、分析工具和通讯网络）的研究开发工作，即传统意义上的生物信息学（bioinformatics）；旨在理解基本生物学问题的基于计算的研究工作，即计算生物学（computational biology）。生物信息学和基因组研究（Bioinformatics and Genome Research）系列会议于1990年开始举办，1997年6月11~12日在美国加州旧金山举办了第六届国际生物信息学和基因组研究年会，年会的主要议题包括正在出现的新技术、基因的功能分析、新的数据工具和制药先导的基因和蛋白质发现[1]。现将有关内容简介如下：

　　一、正在出现的技术

　　Klingler(Lncyte pharmaceuticals,PaloAlto,CA,USA)强调基因组学正推动制药业进入信息时代。随着不断增加的序列、表达和作图数据的产生，描述和开发这些数据的信息工具变得对实现基因组研究的任务至关重要。他谈到了Incyte pharmaceuticals对大规模基因组数据和生物信息学的贡献。

　　Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法，其原理是通过更有效有作图、表达检测和多态性筛选方法，可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列，这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析，以获得序列、表达和基因分型信息。Milosavljevic(CuraGen, Branford, CT, USA)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统，以及一种发现基因的系统GeneScape。为了有效地抽样表达，特意制作片段模式以了解特定基因的子序列的发生和冗余程度。他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证，并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。

　　二、基因的功能分析

　　Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB，它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。EpoDB有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶，制药业所感兴趣的是全新的药物靶，EpoDB提供了这样一个机会，这可能是它最令人激动的地方。

　　Sali(Rockefeller university,New York,NY,USA)讨论了同源蛋白质结构模建。比较蛋白质模建（comparative protein modeling）也称为同源模建（homology modeling），即利用实验确定的蛋白质结构为模式（模型）来预测另一种具有相似氨基酸序列的蛋白质（靶）的构象。此方法现在已经具有了足够的精确性，并且被认为效果良好，因为蛋白质序列的一个微小变化通常仅仅导致其三维结构的细微改变。

　　Babbitt(University of California,San Francisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解，要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现，因而区分得分低（low-scoring）但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。Babbit证明了通过使用BLAST检索，可以在数据库搜索所得的低得分区识别远缘关系（distant relationship）。Levitt(Stanford univeersity,Palo Alto,CA,USA)讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。基因功能取决于基因编码的蛋白质的三级结构，但数据库中蛋白质序列的数目每18个月翻一番。为了确定这些序列的功能，结构必须确定。同源模建和从头折叠（ab initio folding）方法是两种现有的互为补充的蛋白质结构预测方法；同源模建是通过片段匹配（segment matching）来完成的，计算机程弃SegMod就是基于同源模建方法的。

　　三、新的数据工具

　　Letovsky(Johns hopkins University,Baltimore,MD,USA)介绍了GDB数据库，它由每条人类染色体的许多不同图谱组成，包括细胞遗传学、遗传学、放射杂交和序列标签位点（STS）的内容，以及由不同研究者用同种方法得到的图谱。就位置查询而言，如果不论其类型（type）和来源（source），或者是否它们正好包含用以批定感兴趣的区域的标志（markers），能够搜索所有图谱是有用的。为此目的，该数据库使用了一种公用坐标系统（common coordinate system）来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。

　　Markowitz(Lawrence berkeley Laboratory,Berkeley,CA,USA)讨论了分布式数据库与局部管理的关系，以及用基于工具的方法开发分子生物学数据库（MDBs）的问题。许多方案当前正在促进搜索多种不同来源MDBs的数据，包括建立数据仓库；这要求对各种MDBs的组合有一种全局观，并从成员MDBs中装填数据入中心数据库。这些方案的主要问题是开发整体视图（global views），构建巨大的数据仓库并使集成的数据库与不断发展中的成员MDBs同步化的复杂性。Markowitz还讨论了对象协议模型（object protocol model,OPM），并介绍了支持以下用途的工具：建立用于文本文件或者关系MDBs的OPM视图；将MDBs作成一个数据库目录，提供MDB名称、定位、主题、获取信息和MDB间链接等信息；说明、处理和解释多数据库查询。Karp(SRI international,Menlo Park,CA,USA)解释了Ocelot,一种能满足管理生物学信息需求的面向对象知识陈述系统（一种面向对象系统的人工智能版）。Ocelot支持略图展开（schema evolution）并采用一种新的最优化并行控制机制（同时进行多项访问数据的过程），其略图驱动图形编辑器提供了交互式浏览和编辑功能，其注释系统支持数据库开发者之间的结构通讯。

作者：李伟 2004-9-27