WorldCommunityGrid和Decrypthon支持的研究人员合作研究4万多种结构已知的蛋白质分子之间的相互作用,特别关注在神经肌肉疾病方面起作用的蛋白质,Decrypthon是AFM(FrenchMuscularDystrophyAssociation)、CNRS(FrenchNationalCenterforScientificResearch)和IBM进行的一项合作研究。
这个项目所产生的信息数据库将帮助研究人员设计分子以抑制或增强特定高分子的结合,希望能发现治疗肌肉萎缩症及其他神经肌肉疾病的更好方法。
什么是神经肌肉疾病和肌肉萎缩症?
神经肌肉疾病是一组机能紊乱疾病(总数超过200种)的通用术语,这些疾病直接通过肌肉病理学因素(肌肉萎缩症)或间接通过神经病理学因素损害肌肉功能。其中的大多数疾病都具有以下特点:比较罕见(概率小于两千分之一)、源于基因(80%)并同时影响儿童和成人。
这些慢性疾病会逐步降低肌肉力量,最终导致严重的运动机能(移动、呼吸等)残疾。这些疾病的表现形式各不相同,有些会越来越严重,而有些会稳定好几年,并且同一种疾病在不同人身上也会表现出不同的症状。
尽管治疗方法在不断进步,但到目前为止,医学界仍未找到治疗神经肌肉疾病的有效方法。
项目介绍
从基因到发病机理
1986 年,科学家们发现了第一种与杜兴氏肌肉萎缩症(Duchenne dystrophy,最常见的肌肉萎缩症形式)有关的基因 - 肌营养不良基因(dystrophin gene)。从那时起,我们通过基因分析方法发现了 200 多种引起神经肌肉疾病的基因。然而,对于由这些基因编码的相应蛋白质的功能和相互作用,我们基本上仍然是一无所知。尽管我们的知识水平在不断提高,但已发现基因的数量也表明这些疾病发病机理的整体复杂性。
一个生物体的所有细胞都包含相同的
遗传信息,这些信息以 DNA 的形式存在并构成基因组。基因组所包含基因(已发现超过 2 万种人类基因)的表现形式会产生蛋白质(已经发现了约 4.5 万种蛋白质,平均每个基因为 1.6 种蛋白质编码),而这些蛋白质又根据器官(如肌肉)特异性确保细胞的功能。
其中有些蛋白质是酶,有些是信号分子,有些是感受器(它们与其他具有高度亲合性和特异性、称为配体的分子结合,就像钥匙和锁的关系),还有些是结构蛋白质。蛋白质的空间构造(3 维结构)决定了它们的相互作用及功能。
肌肉的功能取决于无数的蛋白质。这些蛋白质在不同的细胞和级别发挥作用,有的位于肌肉细胞本身(细胞体),有的位于运动神经轴突(用于刺激肌肉),有的则位于神经和肌肉之间的连接细胞中。
大部分神经肌肉疾病都是由基因突变引起的,某些基因的突变会引起相应蛋白质发生变异,从而导致蛋白质失去功能、功能受损或蛋白质完全被破坏。神经肌肉疾病因变异所影响的蛋白质及其部位而异。
研究人员要能够理解神经肌肉疾病如何阻止蛋白质执行保持肌肉和神经健康所需的功能,就必须更好更详细地理解每种肌肉萎缩症发病机理中所涉及的蛋白质的功能及其相互作用。
了解蛋白质的功能及其相互作用对于帮助研究人员制定治疗策略同样非常关键。没有这些重要的知识,科学家们就无法开发创新的疗法,从而也无法攻克绝大多数的神经肌肉疾病。
World Community Grid 与“Decrypthon 分子对接”项目
利用World Community Grid提供的强大计算力量,治疗肌肉萎缩症项目得以确定超过2200种已知的不同蛋白质结构之间的相互作用机制,这些结构信息取自于Protein Data Bank。这些被分析的蛋白质中就包含有诱发神经肌肉紊乱的突变种类。
这样会产生一个新的数据库,其中存储有关在功能上相互作用的蛋白质的信息。该项目的进一步扩展将包括对与 DNA 配体的相互作用(比如药物)所涉及的蛋白质结合部位的研究。这将引起医学界极大的兴趣,因为这样可以设计一个小分子以抑制或增强特定分子与其配对伙伴的结合,但要理解同一个小分子如何直接或间接影响其他现有的相互作用还是非常困难的。
该项目中建议的方法是将进化信息(进化如何改变蛋白质以增强其功能)和分子建模(通过计算确定两个相互作用的配对蛋白质的相对位置)结合起来,以便发现潜在的相互作用。
分子建模是指对分子的行为进行建模或模拟的理论方法和计算方法。这些方法用于研究生物系统的结构,比如蛋白质折叠或蛋白质配体结合的分子识别,这些系统的范围从小型的化学系统到大型的生物分子以及物质组合(蛋白质复合体),涉及面极广。
蛋白质配体对接是一种分子建模技术,用于预测与配体(另一种蛋白质、DNA、药物等等)有关的蛋白质的位置和方向(3 维结构)。对接方法完全基于物理原理,因此即使是功能未知的蛋白质(或研究相对较少的蛋白质)也可能进行对接。唯一的先决条件是这些蛋白质的 3 维结构已通过实验方法确定或通过理论方法估计。
对接方法通常从已知分子的数据库开始,然后尝试寻找具有相互结合亲缘性的分子对。亲缘性是用所谓的评分功能估计的。最后,该方法会返回目标蛋白质最佳结合分子的列表。结合程度具有几何与化学因素。 几何因素衡量表面形状(3 维结构)互补的程度,这就像手和手套的关系。化学因素衡量配对分子之间原子相互作用的质量(即相互作用的强弱程度)。
由于蛋白质具有复杂的结构(即便是最小的蛋白质都由上百个原子构成),确定恰当蛋白质相互作用的结合程度需要花费惊人的计算时间。如果没有 Word Community Grid ,对接过程所需要的计算量是如此之大,以至于研究将会完全无法进行。在项目第一阶段中,我们选择了 168 种蛋白质实施对接,在 WCG 项目上花费的总 CPU 时间约达 8000 年。项目的第二阶段将处理2,246种蛋白质结构,而预计的时间花费将达到 11.46x8000 = 91,680 年。
解决这种计算障碍的方法是利用进化信息来预测潜在的结合部位并在最可能发生相互作用的表面实现定位对接。基于蛋白质进化的初步分析使计算时间缩短了 100 倍,这样就使我们有可能利用 World Community Grid 的关键帮助大规模地扩展分析。如果没有 World Community Grid,那么进行大规模(定位)对接所需的计算将会花费惊人的时间。
志愿者向 World Community Grid 贡献出自己的计算机时间,用以搜索最佳的蛋白质配对。他们的参与会显著增加 AFM、CNRS、INSERM 及其他科学参与者进行的工作,从而为科学工具的发展做出贡献,使对于罕见疾病的新疗法开发至关重要的知识不断增加。
作者:
2010-9-22