Literature
Home行业资讯临床快报遗传与基因组

迄今最详细的人类基因组分析数据出炉

来源:新华网
摘要:国际科学界5日宣布,“DNA元素百科全书”计划(简称ENCODE)获得了迄今最详细的人类基因组分析数据,其成果由于非常复杂,以30篇论文的形式同时发表在英国《自然》杂志等多份学术刊物上。这是“人类基因组计划”之后国际科学界在基因研究领域取得的又一重大进展。人类基因组计划让......

点击显示 收起


    国际科学界5日宣布,“DNA元素百科全书”计划(简称ENCODE)获得了迄今最详细的人类基因组分析数据,其成果由于非常复杂,以30篇论文的形式同时发表在英国《自然》杂志等多份学术刊物上。

  这是“人类基因组计划”之后国际科学界在基因研究领域取得的又一重大进展。人类基因组计划让我们得到了人类基因组图谱,但其中许多基因过去都不知道有什么功能。研究者最常关注的是与编码蛋白质相关的基因,但它们只占整个基因组的约2%。本次公布的数据显示,人类基因组中约80%的基因都有某种确定的功能。

  参与这项计划的英国桑格研究所研究人员珍妮弗·哈罗说,如果说人类基因组计划提供了一张地图,那么ENCODE计划就在这张地图上标出了各个基因的功能信息。

  这两个计划之间也有承上启下的关系,在人类基因组计划基本完成的2003年,国际科学界创建了ENCODE计划。它也是一个大型国际合作项目,有多个国家和地区的32个研究机构参与。

ENCODE项目(ENCyclopedia Of DNA Elements)研究组上百位研究人员近期公布了百科全书项目的最新成果——人类基因组中被称为“垃圾DNA”实际上是一个庞大的控制面板,能调控数以百万计基因的活性。如果没有这些开关调控,基因将不能正常工作,而这些区域也许会导致人类换上疾病。由ENCODE公布的这一新数据信息非常全面,也很复杂,因此是以一种新型出版模式公布,这一模式中电子文档和数据集是相互关联的。 

正如同人类基因组计划带给生物医学研究领域的革新意义,ENCODE项目也将推动生物医学的前进,开辟研究新道路。这一计划是于2003年启动,主要目的是建立人类基因组中生物功能关键性元素目录。

最新这项由美国国家基因组研究院NHGRI,以及欧洲生物信息学研究所EMBL-EBI的科学家们领导的研究,公布了一份详细的基因组功能图谱,其中包含有四百万基因的“开关”,这一重要的参考数据将有助于研究人员找到与人类疾病密切相关的区域。

目前这一相关研究成果将在Nature, Genome Biology和Genome Research杂志上,共计30篇开放性论文进行公布。

“我们的基因组就是简单地通过无数的开关进行调控,这些上百万的区域能决定基因是开还是关,”ENCODE项目领衔分析员Ewan Birney 说,“人类基因组计划HGP表明,基因组中只有2%包含有基因,也就是说能编码蛋白。从ENCODE项目中,我们可以看到,基因组中剩余的这约80%的区域其实并没有闲着,我们发现基因组这个更大的部分——实际上是一个惊人的数量——调控了蛋白何时和何地生成,而不是简单的其中产生,比简单地作为构建框架”。

“任何疾病的相关研究人员都可以利用ENCODE数据,分析他们可能会感兴趣的相关病理,”重要的分析协调员Ian Dunham 说,“许多情况下,你可能已经想到了哪些基因参与了你正在研究的疾病,但却不知道其中涉及的开关。有时这些开关令人惊讶,因为它们的位置说明它们更有可能与一个完全不同的疾病相关。 ENCODE为我们提供了一组非常有价值的线索,让我们能沿着这些线索,发现与健康和疾病有关的关键机制,这些将能被用来创建全新的药物,或重新利用现有的治疗方法。“

“ENCODE告诉我们,我们需要把眼光放得更远一些,而不是局限于基因组整个网络如何连接的线性结构,”斯坦福大学教授,ENCODE首席科学家Michael Snyder评论道,“我们正开始了解全基因组关联研究中所获取的信息,不仅仅是某个基因定位在哪儿,还有哪些能调控它们。

因为我们的基因组即复杂的,又是三维立体的,这些调控元件有时远离被调节基因,而是通过环绕得以接触到。如果没有ENCODE,我们可能永远也不会看着这些区域,这项研究朝着深入了解人类运转迈进了一大步。ENCODE可以帮助我们更深入探讨监控环路,这些环路能指挥所有的零件组装成一个复杂的个体。” 

近年来,生物医学研究中获取并存储大量的数据成为了一项挑战。现在,随着基因组测序成本的下降和测序能力的提高,重点已转移到分析上来——让这些全基因组关联研究产生的数据变得有意义。 ENCODE 合作伙伴已经着手于利用全球各实验室中相同的计算,网络实验室方法,以及试剂进行人类基因组系统分析。

从该项目的规模意义上来说——ENCODE联合了来自英国,美国,西班牙,新加坡和日本的32个实验室中442名科学家的努力,他们获得并分析了超过15兆兆字节(15万亿字节)的原始数据,目前已经全部公布,并可公开获得。研究花费了约300年的计算机时间,对147个组织类型进行了分析,以确定哪些能打开和关闭特定的基因,以及不同类型细胞之间的“开关”存在什么差异。

9月6日发表的文章有上百页的内容,但Nature数字自然出版集团认识到这是过去的形式,目前所有的在三个杂志上发表的ENCODE内容都是数字化连接的,从而读者可以按照自己的兴趣,追溯到原始数据。

“将具有最好专业知识的专家们聚集在一起,这就是这项研究”,Ewan Birney说,“ENCODE项目表明,领先生命科学家能通过密切合作,进行大规模研究,为整个社会创造出基础性资源。”

“到目前为止,发表的数据都是各自方面,静态刊物的成果,非同一研究团队的人不知道它的存在,如何利用这些知识呢?”西班牙科学家Roderic Guigo说,“现在我们有一个互动的百科全书,大家都可以参考,这与之前极大不同。”

(生物通:张迪)

在2001年,人类基因组计划产生了近乎完整的人类DNA。但是,研究人员还希望了解这些GS,CS,和TS是如何利用,控制或组织,比它们少得多的编码区域,造就活生生的人。 

今天(9月6日),一个聚集了422位科学家的国际团队,在经过十年的努力后,完成了解析基因组剩余部分(非编码区域)的工作,公布在Nature等多份期刊上。

“基因组已不再是一个空壳了,”新加坡基因组研究院Shyam Prabhakar说(未参与这一研究),“这已经是密密麻麻的生物化学活性的各种分布了。”

“几乎每一个核苷酸都与一些这样或那样的功能有关,而我们现在知道它们分布在哪里,如何结合,它们的调控功能是什么,以及更多”,参与这项研究的资深科学家 Tom Gingeras表示。

长期以来,研究人员已经认识到,一些非编码DNA可能具有功能,近期的相关研究也指明了这一点。但同时,人们也相信,这些序列事实上还是垃圾。不过ENCODE项目提出了异议。

研究人员发现,许多人类基因组的非编码部分包含蛋白可以绑定的区域,这将会影响附近和远处的基因表达。其它转录成RNA分子的非编码区从来没有翻译成蛋白。还有一些影响了DNA折叠和包装的方式。总之,这些区域并不是垃圾,据ENCODE的分析,80%的基因组区域具有一定的生化功能。

其余的20%也不是垃圾,该项目的首席分析员Ewan Birney解释说,虽然ENCODE只分析了147种不同类型的细胞,但总数上千。如果还检测其他类型的细胞,功能可能会出现比例分化。“这就像是从80%到100%,”Birney说,“我们真的没有任何多余的大区域DNA。这个‘垃圾’的比喻是没有多大用处。”

这项研究的影响是巨大的,这将重新定义什么是“基因”,也为寻求理解疾病机制,以及基因组是如何在三维空间中工作的,提供了新的线索。“这就是为大家服务的掘金者,” Prabhakar说,“无论是哪个特殊项目,无论研究的哪个基因组片段,都将从ENCODE这个项目中受益。”

当然,还是有很长的路要走,Birney说,“我认为本世纪将会填写清楚所有的细节,”他说,“这种充分集合将是本世纪的科学重点”。

这项研究有几个方面的重要性,它们分别是:

数字说话

研究人员已经知道,基因组只有1.5%编码蛋白。ENCODE发现,除此之外还有8.5%的区域编码结合在DNA上的蛋白,用于调控基因转录。而且,因为ENCODE并没有寻找结合在DNA上的每一个可能类型的细胞或每一个可能的蛋白,因此这一数字可能还是保守的。Birney估计基因组总比例中,包含编码蛋白和结合上的蛋白的比例是20%左右。

ENCODE其余部分的功能元件,涵盖了其它类别的序列,这些序列被认为是基本上无功能的,包括内含子。“认为内含子只是用于载重的观点不正确,”Birney说。即使是一些重复的DNA序列——具有自我复制能力,通常被视为寄生虫带入的小DNA序列,也可能具有功能,它们的序列往往能结合蛋白,影响附近的基因活性。也许这些序列在基因组中的散布,代表的不是一个寄生虫的侵袭,而是一种传播调控。“这些寄生虫有时会被被颠覆,”Birney说。

Birney预期,不少人会对这一精确比例(ENCODE预计80%的基因组具有意义)持怀疑态度,但是,“不管你如何切割,我们已经确认一个事实,那就是基因组有比我们所知的存在更多奥秘。”

作者: 2012-9-7
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具