Literature
首页合作平台医学论文基础医学论文细胞及分子生物学

当前生物信息学的重要研究任务

来源:《生物工程进展》
摘要:近年来,随着人类基因组计划(HGP)在世界范围内的开展,破译人类及多种模式生物的遗传密码已成为生物学领域的重要学科。同时产生了巨量的基因组信息。分析这些信息是人类基因组研究必不可少的重要内容,从而也促成了生物信息学的产生与发展。生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获......

点击显示 收起

  近年来,随着人类基因组计划(HGP)在世界范围内的开展,破译人类及多种模式生物的遗传密码已成为生物学领域的重要学科。同时产生了巨量的基因组信息。分析这些信息是人类基因组研究必不可少的重要内容,从而也促成了生物信息学的产生与发展。生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此在基因组研究时代,基因组信息学、蛋白质的结构模拟以及药物设计必然有机地连接在一起,它们是生物信息学的三个重要组成部分。当前,生物信息学已在理论生物学领域占有了核心的地位,并提出了大量的紧迫任务。

  1 基因组相关信息的收集、储存、管理与提供

  到1998年12月GenBank中收集的核酸序列已达3044000条,它们包含的碱基数目是2162000000个。与此同时有二十个生物体的完整基因组已被破译,约有至少40个完整基因组正在破译当中。大量基因数据的出现促进了数据库、分析工具以及网络连接等的快速发展。

  1.1 生物信息数据库

  建立数据库是存储基因组相关信息的重要步骤,当前在互联网络上可找到与基因组信息相关的大量重要数据库、服务器。其中:GenBank、EMBL、GDB、PDB、PIR等数据库更是频繁地被用户检索。在基因组织关数据库的发展中,以及几方面特别引起人们的重视:

  a)、建立基因组信息的评估与检测系统

  b)、数据标准化

  c)、进行基因组信息的可视化和专家系统的研究

  d)、发展次级与专业数据库

  原始数据是庞大的。在原始数据的基因上,根据不同的特征将其加工,而构建出若干高级数据库,这不仅会给用户带来很多方便,更重要的是专业人员注入的知识会对用户有很大的启发。著名的二级数据库象:蛋白质结构分类数据库(SCoP),受体数据库,克隆载体数据库等……。

  1.2 以因特网(Internet)为基础的基因组信息学传输网络

  用户与数据库间迅速、有效地传递信息是基因组信息的收集、管理与使用的另一要素。目前与基因组信息相关的数据库都有了自己的Internet地址和主页(Homepage),同时在网上还出现了很多相关的在线(online)服务器。

  我国在基因组信息的收集与提供方面也有了一定的工作:北京大学物理化学研究所建立的PDB数据库的中国节点;北京大学生命科学院建立的EMBL数据库的中国节点。中国科学院生物物理所与日本JIPID的合作,收集了我国科学家测定的DNA和蛋白质序列并与国际相应数据库进行交流。中国医学科学院肿瘤研究所建立的MEE-HOW服务器等。在数据库研究中有两点特别重要,一是构建我国自己的数据库;二是与国际常用数据库的有效连接和及时更新。经过努力,相信这一领域在我国会迅速发展。

  2 新基因的发现与鉴定

  发现一个新的基因就能了解与其相关的生理功能或疾病的本质,从而为新药的开发、设计奠定基础。使用基因组信息学的方法是发现新基因的重要手段,比如在啤酒酵母完整基因组(约1200万bp)所包含的5932个基因中,大约60%是通过信息分析得到的。使用EST序列信息寻找新基因是当前国际上基因争夺战的热点。

  2.1 利用EST数据库(dbEST)发现新基因

  eST序列(Expressed sequence Tags)是从基因表达的短c-DNA序列,它们携带着完整基因某些片段的信息。到1998年12月中在GenBank的EST数据库中已收集了EST序列2,020,608条,其中人EST序列为1,201,241条,它大约覆盖了人类基因的80%。由于EST序列中包括了大量未发现的人类基因的信息,因此如何利用这些信息发现新基因成了近几年的重要研究课题。

  2.2 从基因组DNA测序数据中确定编码区

  这一研究已经进行了很多年,并建立了多种方法。这些方法概括说来分为两类,一类是基于编码区所具有的独特信号,比如起始密码子、终止密码子等,另一类是基于编码区的碱基组成不同于非编码区。这是由于蛋白质中20种氨基酸出现的概率不同,每种氨基酸的密码子兼并度不同,同一种氨基酸的兼并密码子使用频率不同等原因造成的。近年来一批新的确定编码区的方法出现了,例如,考虑高维分布的统计方法、神经网络方法、分形方法等。将密码学方法用于识别编码区,也取得了较好的结果。

  3 非编码区信息结构分析

  虽然对约占人类基因组95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域编码特征,信息调节与表达规律是未来相当长时间内的热点课题。

  3.1 非编码区中各种组分的分类与确定

  非编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包含如下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(Microsatellite)DNA、非均一核RNA(简称hmRNA)短散置元(short interspersed elements,简称SINE)、长散置元(long interspersed elements,简称LINE)、伪基因(pseudogenes)等。除此之外顺式调控元件,如启动子、增强子等也属于非编码序列。一些科学家认为应当把染色体称为信息细胞器(information organelle)。了解“JunK”DNA是了解信息细胞器的关键步骤。

  3.2 寻找新的非三联体的编码方式

  是否在基因组中仅存在三联体的编码方式呢?是否传递不同的信息应有不同字长的码呢?人们熟知三联码是用于将4个字符组成的基因中的信息传递给由20个字符组成的蛋白质。只有碱基三联体数(43=64)才是大于20(氨基酸的种类数)且最接近20的碱基组合。所以三联体是DNA与蛋白质间传递信息的最经济编码。按照这样的推理人们可以认为由DNA到结构RNA间的信息传递是单联体码,因为DNA与RNA的结构单元是一一对应的。如果考虑到人类基因的总数约为5万到10万,那么要调节单独的一个基因的调节单元的数目也要与此相应,达到若干万个。此时三联体编码方式的区分度就远为不足。这就是生物信息学家寻找其他非三联体编码方式的原因。

  3.3 编码区和非编码区中信息调节规律的研究

作者: 陈润生 2004-9-24
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具