Literature
Home医药经济生物技术技术要闻

曙光生物基因序列研究解决方案

来源:曙光
摘要:摘要:人类基因组研究已进入一个新时期,2003年4月14日正式发表了人类基因组全图,到2006年初为止,GenBank中的DNA碱基数目已达60亿,DNA序列数目达到5千多万。如何分析这些基因数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。基因组的研究也将全面进入信息提取和数据分析阶段,即基因组信息......

点击显示 收起

  摘要:      

  人类基因组研究已进入一个新时期,2003年4月14日正式发表了人类基因组全图,到2006年初为止,GenBank中的DNA碱基数目已达60亿,DNA序列数目达到5千多万。    

  如何分析这些基因数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。基因组的研究也将全面进入信息提取和数据分析阶段,即基因组信息学发挥重要作用的阶段。    

  基因组信息学是生物信息学的核心。包括基因组信息的获取、处理、存储、分配和解释。包括了两层含义,一是对海量基因数据的收集、整理与服务;二是从数据中发现新的规律,也就是用好这些数据。    

  广泛使用的基因序列比对和搜索软件有Fasta  ,Blast,以及多序列搜索工具Clustalw,Clustalx,这些基因组信息学软件都已经在曙光服务器上得到部署和应用,并有相应的成功案例。  

  曙光公司助力生物信息学的发展,可为基因组信息学研究提供系统的解决方案,包括相应的硬件平台和软件配置。  



  1.生物信息学和基因组信息学              



  生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。而基因组信息学是生物信息学的核心,生物信息学则以基因组信息学为基础。      

        

基因组信息学包括了基因组信息的获取、处理、存储、分配和解释。有两层含义,一是对海量基因数据的收集、整理与服务;二是从数据中发现新的规律,也就是用好这些数据。              



  生物信息学是把基因组  DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和  RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在  DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。            



    生物信息学利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。



  2.生物信息数据库及其查询              



  生物学中最重要的两种物质有:DNA和蛋白质。DNA是一种由碱基按一定规则排列而成的双链结构生物大分子,这种碱基排列顺序就构成了生物的遗传信息。蛋白质是由DNA根据链结构上的某些功能碱基序列复制而成的具有特殊功能的生物大分子。生物基因包括DNA链上的碱基及其排列顺序。虽然碱基的数目只有四种Adenine(A)、Cytosine(C)、Guanine(G)、Thymine(T),而它们在DNA上做各种有序的排列形成了生物的多样性。所以对这种碱基序列进行测序、编码和研究是生物学研究最重要的工作。生物基因序列数据就是对于某一生物基因采用某种编码方式编码产生的数据。              



  近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。                



  这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有GenBank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。  



  3.基因序列比对和数据库搜索  

            

  比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用、最经典的研究手段。  

            

  最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。  

            

  此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。  

            

  比对还是数据库搜索算法的基础,将查询序列与整个数据库的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。  



  4.序列比对软件  

            

  为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和BLAST工具。  

            

  FASTA是第一个被广泛应用的序列比对和搜索工具包,用于序列两两比对,它包含若干个独立的程序,将一条序列与另一条序列进行比较或在数据库中查找同源序列并输出。  

            

  BLAST是现在应用最广泛的序列相似性搜索工具,用于序列两两比对,由NCBI研制。BLAST系统对于生物基因序列数据在计算机中的表达和处理作了许多的研究,建立在严格的统计学基础之上。由于功能强大,检索速度快,  BLAST工具流行于世界上几乎所有的生物信息中心。  

            

  基因序列比对程序需要处理的数据规模不断增大,而且,程序运行时间也不能满足要求,需要采用并行处理的方法。  

            

  Blast在进行检索时采用的方法是循环匹配所有的记录。只需将这种循环匹配平均地分配到并行系统的各个节点上,各个节点分别执行各自的匹配操作,最后将匹配的结果统计起来就可以初步实现Blast程序的并行操作。对Blast实行并行化实际上就是将整个检索空间分解成若干个子空间,为各个子节点分配一个子空间,子节点在各自的子空间进行检索,检索完成后,由主控节点归纳统计各个子节点上的结果,然后生成并打印最后的统计结果。    

          

  mpiBLAST就是对NCBI  BLAST的并行化,基于mpi并行环境,可以免费下载使用。  

            

  使用mpiBLAST,就可以在安装了mpi环境的计算机做并行搜索。  

            

  使用mpiBLAST的原因:  

                  

  1,可以在查询大数据库时实现较好的加速比(线性,甚至超线性加速比);  

                  

  2,在大量的批处理查询请求时,缩短查询时间。  

              

  目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。  

              

  CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。  

                

  CLUSTALW的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单来逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户。



  5.曙光公司基因比对解决方案  

            

  曙光公司专著于为用户提供高性能计算领域的全套解决方案。经过十几年的积累,曙光公司具有独特的优势:  

              

  1,熟悉应用,高性能集群系统针对应用特点而定制;  

              

  2,专业化、高性能的集群中间件;  

              

  3,专业化的各应用领域人才,保障用户应用的顺畅。  

            

  目前,各种基因序列比对软件在曙光的系列高性能集群系统上都得到了部署和应用。  

基因序列比对的对计算资源的要求不断提高,一方面是由于数据库不断增大,另外一个原因是检索时需要进行匹配的序列数据增多。这使得检索速度会变慢,并且随着数据库的进一步膨胀,比对的速度将会使用户不可忍受。  

            

  同时,每一种生物的基因序列数据都是一个极其庞大的数据,必须将它分解成几个基因序列数据库。一般典型的基因序列数据库大小在100MB~500MB之间,需要将数据库序列数据映象到内存中,这将会消耗大量的时间用于数据库数据的I/O操作,并且在运行中消耗大量的内存资源。  

            

  总结来说,基因比对应用有三个特点:  

            

  1)检索速度慢;  

  2)对系统的I/O的要求高;    

  3)程序消耗内存大    

            

  机群系统可以为序列比对提供一个高性价比的应用平台,机群系统的特点非常适合序列比对的应用。  

            

  整个系统包含如下组成部分:  



  计算节点:用于计算,根据用户的实际需要选择配置和数量;  

  管理/登陆节点:用于系统的管理和外部接入;  

  I/O节点:连接磁盘阵列,提供网络共享文件系统;  

  计算网络:连接计算节点,使用高性价比的千兆以太网;  

  数据网络:和计算网络共用一套千兆以太网;  

  管理网络:配合集群中间件,对集群实现统一管理;  

  SKVM网络:大规模视频切换系统,实现本地化管理;  



  







方案拓扑图





  

  曙光高性能机群系统非常适合于基因序列比对的应用:  



  1,曙光机群系统提供了一个高性价比的方案。  

  2,序列比对软件都可以在曙光机群系统上得到无缝部署和应用。  

  3,机群中的各个节点可以同时运行多个串行查询的应用。  

  4,机群系统安装了mpi并行环境,可以运行并行版本的序列比对软件。机群系统很适合并行基因查询,如mpiBLAST的应用。  

  



  6.典型成功案例              



  用户单位:华大基因中心              



  应用:基因测序为主体的生物信息学应用              



  2000年7月,曙光公司与华大基因研究中心共建生物信息学联合实验室,华大向曙光订购了2套天潮2000-Ⅱ超级服务器,采用“全基因组鸟枪法”来进行测序工作。曙光高性能计算机使得华大基因中心的计算能力与测序能力相匹配,在人类基因组计划16个成员单位中位居第7位。              



  2001年,华大又向曙光购买了一套天潮3000服务器,保证了其快速和高质量完成丹麦猪和超级杂交水稻基因图项目。
作者: 2007-8-1
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具