Literature
Home行业资讯临床快报遗传与基因组

400万基因开关开启医学大突破

来源:纽约时报
摘要:人类基因组携带着至少400万个基因开关,这些基因开关位于曾被认为是垃圾的DNA片段上,但后来发现,它们在控制细胞、器官和其他组织的行为上起着关键作用。这一发现被认为是医学界和科学界的重大突破,对人类健康具有重大意义,因为很多复杂的疾病似乎就是由数百个基因开关的微小变化引起的。这些发现可以直接用于研究DNA......

点击显示 收起

有关人类生物学还有许多未解之谜,其中之一是,为什么很多复杂的疾病,如糖尿病高血压和精神疾病总是难以预先发现,有时也很难治愈。同样令人困惑的还有,为什么同卵双胞胎其中之一患上了像癌症或抑郁症这样的病,而另一个却安然无恙。 

现在,科学家们发现了一个可以解开谜团的重要线索。人类基因组携带着至少400万个基因开关,这些基因开关位于曾被认为是垃圾的DNA片段上,但后来发现,它们在控制细胞、器官和其他组织的行为上起着关键作用。这一发现被认为是医学界和科学界的重大突破,对人类健康具有重大意义,因为很多复杂的疾病似乎就是由数百个基因开关的微小变化引起的。

这些发现是一个大规模美国国家项目的成果。这一项目包括了来自世界上32个实验室的440名科学家。这些发现可以直接用于研究DNA非基因部分的改变如何引起人类疾病,从而促进新药的开发;也可以帮助解释环境如何影响患病风险。在同卵双胞胎一例中,所处环境的微小变化也会轻微地改变基因开关,从而导致双胞胎之一患上某种疾病,而另外一个则不会患病。

这些基因“垃圾”并不是真正的基因,不包含蛋白质指令。但是,当科学家们研究这些“垃圾”的时候,他们发现这部分根本不是“垃圾”,其中至少有80%是有活性和有用的。科学家们研制出了一幅针对这部分DNA的带注解地图,指出其功能和活动方式。地图显示开关系统就如同灯的光线调节开关,能够控制哪些基因被用于细胞以及何时被用,还能决定一个细胞是成长为肝细胞还是神经细胞。

“这就像谷歌地图,”博德研究所(Broad Institute)的所长埃里克·兰德(Eric Lander)说道。该研究所由哈佛大学(Harvard)和麻省理工大学(Massachusetts Institute of Technology)共同成立。相比之下, 该项目的先驱确定了人类DNA序列的人类基因组计划(Human Genome Project)则“更像是从太空中拍摄了地球的图像。那幅画没有告诉你路在哪儿,没有告诉你一天中某个时候的交通如何,没有告诉你好的餐馆在哪儿,也没有告诉你医院、城市或河流在哪儿,”兰德说。

新发现是“惊人的资源”,兰德说。他没有参与该研究,但曾负责人类基因组计划。“看到如此大的数据量,我的头都快爆炸了。”

新发现以六篇论文的形式于周三发表在《自然》杂志(Nature)上,并以24篇论文发表在《基因组研究》(Genome Research)和《基因组生物学》(Genome Biology)上。另外,《生物化学杂志》(The Journal of Biological Chemistry)将会发表六篇评论文章,《科学》也会接着发表一篇文章。

人类DNA“比我们预期的要活跃得多,还有很多是我们之前没有想到的,”来自欧洲分子生物实验室-欧洲生物信息研究所(European Molecular Biology Laboratory-European Bioinformatics Institute)的尤安·伯尼(Ewan Birney)说道,他是该项目的领头研究人员。

在《自然》杂志的一篇论文中,研究人员指出基因开关与一系列人类疾病有关系——多发性硬化症、狼疮、风湿性关节炎、克罗恩病、乳糜泻等,甚至还包括像身高这样的体貌特征。在过去10年的大型研究中,科学家们发现人类DNA序列的微小变化会增加人们患上此类疾病的风险。但这些变化是发生在基因“垃圾”(如今被称为“暗物质”)上,而不是发生在基因上,并且,这些变化究竟有多大意义,也不甚清楚。新的研究表明,很多这类变化会改变基因开关,并且意义重大。 

“影响疾病的大多数变异不在基因本身,而在基因开关上,”项目的研究员之一,斯坦福大学(Stanford University)的迈克尔·斯奈德(Michael Snyder)说道。该项目称为“DNA元件百科全书计划”(Encyclopedia of DNA Elements),简称Encode。

“这是很重要的发现,”Encode研究员、马萨诸塞州综合医院(Massachusetts General Hospital)的布拉德利· 伯恩斯坦博士(Bradley Bernstein)说道。他还补充,“我认为没有人预见到会是这样。” 

这些发现还能揭示,哪些基因变异对癌症比较重要,以及为什么重要。当研究人员开始绘制癌细胞的DNA序列时,他们意识到,癌细胞中的几千个DNA变异中的大多数并不在基因中,而是在暗物质中。困难的是找出这些变异中究竟哪些造成了癌症的生长。

比如,在前列腺癌中已经发现了重要基因上的一些突变,但药物不易对它们起作用。但是,Encode能展示暗物质的哪些具体区域控制着这些基因,从而给出了解决它们的新途径:针对那些控制开关实施治疗。 

伯恩斯坦博士称,“就像人类基因组一样,这是一种会推动科学进步的资源。”

不过,这个系统的复杂性令人咋舌,带有许多冗余。伯恩斯坦博士称,开关数量之多,到了难以想象的程度。

DNA网络系统也错综复杂几乎令人难以置信。

“这就像是打开一个配线室,结果看到一团乱麻,”Encode研究员、耶鲁大学的马克·格斯坦(Mark Gerstein)说道。“我们试图解开这团麻,使之能够被理解。”

Encode计划始于2003年,当时研究人员开始意识到,他们对人类DNA知之甚少。前几年,一些人开始发现人类DNA中99%的非基因部分存在基因开关,但他们未能充分描述或解释其中大部分的功能。

Encode研究员、冷泉港实验室(Cold Spring Harbor Laboratory)的托马斯·金格拉斯(Thomas Gingeras)称,计划开始之前,大家认为,仅有5%到10%的人类DNA真正被用到。

结果却大大出乎预料。不仅几乎全部的DNA都有用,而且其中的大部分是基因开关。

当美国国家国家卫生研究院(National Institutes of Health)的分支机构国家人类基因组研究所(National Human Genome Research Institute)启动Encode计划的时候,DNA测序和计算生物学的重大进展已经使人类DNA暗物质变得比较容易理解了。尽管如此,数据分析仍令人望而却步。研究人员得到的原始数据有15万亿字节之巨。分析这些数据需要相当于一台计算机运算300多年的时间。

仅仅组织这些研究者并协调彼此的工作就是一项巨大的工程。格斯坦博士是项目的负责人之一,他画出了一张论文作者图,标出了他们之间彼此的联系。图的复杂程度,看起来与人类DNA开关网络图差不了多少。

迄今最详细基因功能图谱六大内容

在2001年,人类基因组计划产生了近乎完整的人类DNA。但是,研究人员还希望了解这些GS,CS,和TS是如何利用,控制或组织,比它们少得多的编码区域,造就活生生的人。

今天(9月6日),一个聚集了422位科学家的国际团队,在经过十年的努力后,完成了解析基因组剩余部分(非编码区域)的工作,公布在Nature等多份期刊上。

这项研究有几个方面的重要性,它们分别是:

1.数字说话

十年努力,六篇Nature论文:讲述垃圾DNA的故事

2.基因里有什么?

关于基因,简单来说就是一条能被翻译成蛋白的DNA序列。但从ENCODE的数据来看,这个定义已经不再有意义。存在很多转录,可能比任何人意识到的都要多,其中一些连接了之前认为无关的两个基因。这意味着,这些基因的边界在扩大,它们之间的间隙缩小或消失。

Gingeras说,这个“间隔区”空间已经缩水了四倍。 “曾经一度被称为X基因的,现在与Y基因融合,”他说。随着这样的界限模糊化,Gingeras认为把一个基因看成是基因组中的特定点,或作为其基本单位的观点,已经不再有意义了。相反,这一定义应该属于RNA转录。“基因组的组成成分是转录,”Gingeras说。 “它们是基本单位,受突变和选择的影响。”

3.新的疾病研究观点

在过去的十年中,遗传学家着手于一个看似源源不断的全基因组关联研究(GWAS),并抛出了一个长长的清单,与不同条件下风险有关的单核苷酸多态性(SNP)位点与。ENCODE研究组则绘制出了所有这些GWAS识别出的SNPs。

研究人员发现,只有12%已知单核苷酸多态性位于蛋白编码区域内。他们还发现,相比于随机SNPs,疾病相关的SNPs有60%以上,可能定位于非编码区域,这些区域经ENCODE识别出功能,尤其是那些启动子和增强子。这表明,许多这些突变都受到不同基因活性的调控,这为了解它们是如何影响我们的疾病风险,提供了许多新鲜的线索。“这是一个虽然不好,但真实的情况,”Birney说。

ENCODE研究人员还发现了疾病相关的SNP位点和特殊DNA分子之间的新关联。例如,他们发现了5个SNPs会增加Crohn病的风险,这能通过一组称为GATA2的转录因子识别,“这不是Crohn病生物学家通过他们的方法发现的,”Birney说。““突然间,我们得到一种疾病和基础生物学之间的一个无偏倚的关联。”

“我们现在正在与许多不同的疾病生物学家,在他们的数据库中寻找”,他补充说,“从某种意义上说,ENCODE是从基因组入手,而GWAS研究工作则是从疾病入手”,到目前为止,该小组已确定了400个这样值得研究的的热点。

4.三维基因组

将基因组描述成一串字母会导致一个常见的误区:这是一个两维的线性实体。实际上,DNA就像一串珍珠,缠绕在称为组蛋白的蛋白上,然后这些复合物以一种精巧的三维方式扭曲,折叠和成环。这样相隔甚远的基因组元件,其实从物理位置来说,是邻居,并可以影响彼此的活动。

Job Dekker,麻省大学医学院一名生物信息学家,利用ENCODE的数据,绘制了三种不同类型细胞中仅仅百分一的基因组这种长距离相互作用,发现超过1000个这样的关联,“我想说,在基因组中,只有三维空间才能令其有意义”Dekker说。能获取ENCODE这些新数据“确实是未来基因组科学家们的难题,”他补充说。

5.数据分享

这些新公布的ENCODE数据庞大,分别在Nature, Genome Biology, 和Genome Research上以30篇中心论文的形式公布,除此之外,Science,Cell也会公布一些二级文章,所有数据都是免费提供的。

印刷版杂志无法承载如此巨大的数据,因此ENCODE研究小组设计了一种新的出版模式。在ENCODE门户网(http://www.encodeproject.org/),读者可以选择13个兴趣项之一,如增强子序列,并按照页面上的指示获得30篇主要论文中的相关内容,“无需把30篇文章全部读完,这样能找到想要读的,”Birney说。

这一研究小组还建立了他们称之为的Virtual Machine,这是一个一个可下载的程序,包括所有ENCODE科学家用以分析数据时的编码。任何研究人员可以下载几乎原始的数据,并在自己的论文中复制任何的分析。这是最根本的透明度。

“为了这些非常集约性的科学项目,必须有一个庞大的数据师来做正确的分析,”Birney说,利用Virtual Machine,“你完全可以一步步重复我们得到的数据。我认为这应该称为未来的标准。”

Nature新文章:人类的基因组乱而有序

9月5日揭幕的宏大的ENCODE(ENCODE(DNA元件百科全书,Encyclopedia of DNA Elements)显示人类的基因组远比10年前人们预想更为的丰富和复杂。在发表于《自然》(Nature)杂志上的一篇关键性的支持论文中,来自耶鲁大学的生物医学信息学教授Mark Gerstein发现了看似混乱的上万亿的潜在分子相互作用中存在的秩序。

科学家们证明不仅仅是基因,这一网络使得人类基因组处于动态之中。

Gerstein说:“我们现在获得了部分的名单,是什么使得我们成为了人类,我们现在所做的就是弄清楚其整体如何运作的接线图。”

Gerstein说他发现的调控网络与一家财富500强公司的社会网络或组织机构中的联系具有一些相似的特性。利用复杂的数学建模,他的研究小组追踪了由119种转录因子触发的连串的50万个分子相互作用。该模型显示这些转录因子以一种分级的方式连接在一起,一些因子像高层管理人员一样运作,一些像中层管理人员或车间工长。它们一起调控了人类基因组中2万个左右的基因。

根据需要,这种分级的结构会在“中层管理人员”水平上构建出信息流瓶颈,Gerstein研究小组显示协同作用更有效地调控了靶基因以及放宽瓶颈。Gerstein说这意味着相比所说的自上而下的军队指挥系统,人类基因组的组织更为的民主。

然而,“行政水平”的转录因子往往在诸如驱动基因表达等关键功能中最具影响,同时更好地连接了不同分子网络中的其他基因。这些“主管“往往在种群间更为的保守,证明了它们对于生存的重要性。

Gerstein指出人类基因组的大小和灵活性使得它不同于迄今为止研究的许多其他生物体。如线虫或果蝇等模式生物具有更为简单的图谱——一种靠近基因的开关样的启动子负责了所有的调控。但是ENCODE计划明显地显示存在几十万称作增强子的更遥远的元件,可以影响远处人类基因的作用。Gerstein的研究小组发现增强子调控的网络相比于哪些受到附近启动子调控的网络在连线上有所不同。

“这一连线图为我们提供了框架来解释并不直接影响基因的许多个体基因组变异,”Gerstein说。

基因组内,性别的重要性

正在研究人类基因组的耶鲁大学的研究人员说他们现在能够说出多少的“母亲”序列和“父亲”序列在我们每个人中处于遗传活性状态。

这些性别特异性的标志物也许不能确定后代的成就或缺陷能够归功于或问责于父母哪一方;然而,他们有可能帮助人群中的差异。

“我们现在可以追踪父母的相对遗传贡献,”Gerstein说。

所有人类生来就有两个拷贝的基因组,一个来自母亲,一个来自父亲。然而,有时候一个特异的基因只有一个拷贝或等位基因最终具有生物活性。以ENCODE计划生成的大量数据分析为基础,耶鲁大学的研究人员发现这发生于10-20%时间内。研究人员并没有分析这些母系和父系特异基因及调控网络的功能。但是,他们注意到这些“性别特异”网络往往比其他的网络进化更迅速。

“也许,它们导致了我们在个体间看到的差异,”Gerstein说。

化石DNA在当代人类基因组中被重新利用

在探究人类基因组中的过程中出现的怪事是假基因(pseudogene)——化石DNA序列,活性生物过往的进化残留物。耶鲁大学的研究人员采用先进的殊绝挖掘和统计模型发现其中许多的基因也许根本就不是完全无活力的,这一点他们报告在了《Genome Biology》杂志上。

这些远古的基因不再编码生成携带生命功能的蛋白质。然而,耶鲁大学的研究小组证实其中的许多被重新利用生成了非编码的RNAs,科学家们现在知道这些RNA对于整个基因组的蛋白质编码基因的激活与沉默至关重要。

“这是自然从不浪费资源的另一个例子,我们在整个30亿碱基的基因组一次有一次重复看到的故事,”Gerstein说。

假基因的存在说明了人类进化有可能如何起作用。这些假基因遗传自功能性的祖先,然而通过各种不同的遗传机制致使被废弃。这是一个持续不断的过程,Gerstein小组发现一些假基因最近在人类历史上相对“死亡”。而同时,一些假基因有可能被重新利用,怀有生成微小RNAs的恩呢管理,其中的一些RNAs有可能以有利的方式具有调控活性。因此,它们仍然保留在基因组中。

(生物通:何嫱)

J Biol Chem:ENCODE计划揭示人类基因组调节和结构组织上的重大研究进展 近日,国家人类基因组研究所公布了一项长达5年的关于人类基因组调节和结构组成的研究报告,这项计划名为ENCODE,其代表的意思是DNA元件百科全书(Encyclopedia of DNA Elements),刊登在近期国际杂志Journal of Biological Chemistry上的研究论文报告了研究发现的其中一些内容。

“ENCODE计划不仅仅产生了大量机体的基因组数据,而且其也分析了很多组织的信息以便我们更好地理解不同类型细胞中的基因组功能。这些综合型分析的结果揭示了机体的分子机器如何进行反应,以及解释了DNA如何工作产生蛋白质,以及RNAs为什么对于机体非常重要,”来自宾夕法尼亚大学的研究者Ross Hardison这样说,该研究者是该文章的第一作者。

人类基因组包括了30亿个DNA碱基对,但是仅仅有很小一部分DNA来负责编码产生蛋白质。剩余的遗传信息的角色和功能目前并不清楚,这些剩余的DNA序列被称为无用的DNA序列。但是ENCODE研究计划的结果填补了这一信息空缺,这个计划的研究结果揭示了超过80%的人类基因组都和生物学功能直接相关。

本文的研究主要阐述了调节基因开关表达的蛋白质的相关信息,这些蛋白质可以在离目的基因一定的距离处对目的基因进行调节,而且其在与之反应的染色体上也确定了具体的位点,在特定位点上对DNA的修饰可以影响基因的表达,而且RNA的这种功能形式可以调节遗传信息的相关表达。

研究者Hardison表示,来自这项计划中关于基因调节的深入只是将会对未来医疗科学有正促进的影响,比如近日的遗传研究揭示了许多基因组位点,其可以影响一个人对于普通疾病的敏感性。这项计划也解释了涉及基因调节的许多区域,而且这些数据为理解这些区域的突变如何影响疾病的敏感性提供了相应的假设。

这项计划背后,研究者付出的努力非常之大,其中包括了美国、英国、西班牙、新加坡和日本的32个实验室超过440个科学家的努力,研究者在147个不同类型的组织中进行了超过1600次单独试验,研究结果于近日刊登在了国际主流杂志上,5篇刊登于Nature上,18篇刊登于Genome Research上,以及6篇刊登于Genome Biology上。(生物谷Bioon.com)

作者: 2012-9-9
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具