Literature
Home医药经济生物技术技术要闻

王俊:基因大数据的分析者

来源:人物周刊
摘要:3年前,考察过这个地方后,《经济学人》在报道中写下:“基因组学的下一个进步将发生在中国。王俊穿件个印有“华大”字样的紫红色Polo衫,平头,高个,语速快,精力充沛,篮球场上,这是个得分型选手。根据这位37岁的华大基因研究院院长的微博,这些日子,他先是在旧金山跟人讨论“预测天气与预测乳腺癌患者存活时间哪一......

点击显示 收起

  深圳华大距机场60公里,那是由旧鞋厂改造的一座小楼,小楼里的条幅说“数据才是硬道理”,小楼后面的山上,这群建筑的二期工程正在施工。3年前,考察过这个地方后,《经济学人》在报道中写下:“基因组学的下一个进步将发生在中国。”不过,直到今天,出租车司机们大多还不认识这个地方。

  访谈在论文墙(张贴了六十几篇顶尖杂志的学术论文)背后的会客室进行论文墙上多是顶尖学术杂志的封面,这是从这里曾发表过的五百多篇论文中精选出来的。王俊穿件个印有“华大”字样的紫红色Polo衫,平头,高个,语速快,精力充沛,篮球场上,这是个得分型选手。根据这位37岁的华大基因研究院院长的微博,这些日子,他先是在旧金山跟人讨论“预测天气与预测乳腺癌患者存活时间哪一个更准”,然后在网上提醒到四川地震灾区参与救助的华大技术人员“警觉任何可能发生的疫情,也要注意水源、食物的监控”,之后上飞机回国,一早到深圳,把行李丢在自己的卡座,去开院务会议,中午接受采访,下午先处理文件,然后飞杭州,去机场的路上参加一场电话会议,飞机上修改PPT,第二天在一场关于流行病学的杭州Workshop上讲课。

  这位生物信息学家认为,基因组学研究其实只有3件事:读、懂、应用。对于测序,他说:“这本身只是个技术,这个技术希望达到的目的是对人类自身和我们身边的世界在基因水平上的认识”。这种基于基因序列的认识与过去如此不同,“如果说传统育种技术是在鱼塘里钓到了鱼,或是拉网捕鱼;我们则是把水放干,让大家看到所有的鱼。”

  去年12月,王俊入选《自然》杂志评出的“2012世界科学界年度十大人物”,他是惟一的华人。《自然》把相关报道文章定名为:“Genome Juggernaut”,旁白说:“中国测序研究重地的领导者,展示了华大基因在基因组研究方面的雄心抱负。”如何翻译“Genome Juggernaut”?王俊自己认可的译法有点奇怪:“基因组剑圣。”

  既有经济意义,又有科学价值

  王俊与基因组学研究结缘,是个无心插柳的故事。

  时光回到1999年,像往常一样,王俊在操场上打篮球,一个名叫杨焕明的人来到北大进行讲座。讲座结束,杨焕明和北大生科院博导李松岗教授进行交流,并希望有既懂计算机又懂生物的年轻学生参与到自己的项目中来。李松岗教授想到了自己的学生王俊,这位读研究生二年级学生基础课已修完,正要选择研究题目。

  杨焕明准备加入人类基因组计划。那是与曼哈顿原子弹计划和阿波罗计划并列的三大科学计划之一,该项目计划花30亿美元、十多年时间测出人类的所有基因,像医学里画解剖图一样,画出人类的基因地图,以有助于我们认识疾病、长寿、衰老等生命现象的机制,为疾病治疗提供科学依据。同年,北京华大基因研究中心成立并代表中国参加人类基因组计划。

  当李教授找到王俊的时候,这个年轻人仍在球场上。据王俊回忆,最初他对去遗传所人类基因组中心并没有显示出特别的兴趣,后来,“李老师激将,你想去人家还不一定要呢”,就去了。

  “我这人,请将不如激将。”王俊说。在这个大项目中,既有生物背景又有计算机和数学能力的王俊迅速找到了自己的位置,这个20岁刚出头的研究生成了这里生物信息平台的主力。

  到了2001年,华大所承担的人类基因组任务已进入尾声,目光移向了水稻。水稻是最重要的粮食作物之一,它的基因组是禾本科粮食作物中最小的,易于进行遗传操作,是禾本科植物基因组研究中最常用的“小白鼠”。对这个作物的测序,既有经济意义,又有科学价值。

  当时的不利条件之一是,日本牵头的“国际水稻协作组织”刚刚宣布年底将完成水稻基因组草图。在这个发展飞快、竞争激烈的基因研究领域,比对手晚一步,“价值就会大打折扣。”根据《科学》杂志的报道,“用74天的时间,华大完成了水稻的测序,数据迅速送往信息分析团队……”最终,比对手提前了约一个月,华大发表了自己的结果。

  在对这个团队的特写中,《科学》提到了实验室中那些“年轻而不知疲倦”的面孔,那些写着“速度、速度、速度”的横幅,以及杭州华大计算机室一角的一把锄头,意思是“数据挖掘”。

  中国的实验室令来自西方的记者吃惊,他写道,“这里的实验室氛围更像大赛前的美国中学。”在那篇报道中,一位普度大学的教授评价:“中国人展示了人类能做到多快”,几乎负责筹建了杭州华大的王俊形容:“像投入战斗一样。”

  在《水稻基因组序列草图》近百位作者中,王俊是第三位并列第一作者,这个尚未毕业的学生第一次显露了他在基因研究领域的潜质根据当时的测序方法,整条的基因被随机地切成数百个碱基的片段,只要片段的数目足够多,切得足够随机,就可以借助片段头尾的相互覆盖把它们拼接起来当然,这只是理想的情况,实际情况是,大量的重复序列会导致错拼。而王俊所负责的生物信息部门,就是主要负责这些片段的拼接和分析。为了解决这些重复序列,这个团队想了很多办法,使得拼接接近了理想状态。

  为什么王俊会脱颖而出?王俊的导师李松岗讲了个故事。刚进华大的时候,王俊被分配去完成一个任务,去四川康定采集虫草。“当时几乎过了采集的季节,同去的另一个人觉得反正采不着了,就放弃了。王俊认为,还没有到过那个地方,没有尽到自己最大的努力,不能就此放弃。”长途跋涉后,他采回了可用的样本。

  一位在华大工作过的研究人员告诉本刊:事实上,正是像王俊这样的年轻人百折不挠、不达目的不罢休的个性在华大的成长中起到了重要作用。

  华大的未来

  之后进行测序的,包括SARS病毒、家蚕基因组、第一个东亚人基因图谱、大熊猫基因组,海量的数据涌来,用生物信息室的“锄头”进行“数据挖掘”,寻找它们的生物学意义和价值就成了最重要的事情。

  对于这些完全不同于我们过去认知的基因信息,要寻找数据中能用的知识并不是件易事。把基因信息看作一种语言,你就会发现其中的难处,就像你被空投到了另一个世界,这里的人在说话,你知道那些话对你很重要,却听不懂。惟一的办法是听、观察、筛选哪些是常用词,哪些是特别的词,哪些词意味着疾病与死亡,哪些词可以逆袭。

  这就是不断需要进行基因测序的原因,王俊说:“要在很大数据样本的基础上,才会出现一些规律性的东西。”“比如我们做的水稻的项目,先是水稻的基因测序,然后是水稻的表型和基因的关系,再然后,水稻未来的育种……事实上,这是一个很大的科学设想,就像从人类基因组计划走到基因和疾病,往往当你看一个片段时,总觉得这只是个简单的片段,但长远来看,每一步都在一个大的设想之中。”

  依靠国家开发银行的一笔10年15亿美元的贷款,2010年1月华大基因订购了每台单价数十万美元的128台高通量测序仪HiSeq2000,这是有史以来对测序仪所下的最大的一笔订单。到今天,华大已经拥有137台高通量测序仪,测序能力是全球总测序能力的一半以上。而这种“神机”的速度,一位工作人员介绍:“测一个人的基因组,人类基因组计划用了13年,用升级后的新测序仪只需27小时。”

  对购买这些测序仪的理由,在办公的那个临窗卡座上在这个平均年龄只有23岁的研究院,院长并没有专门的办公室,只有一个杂志和资料堆成山的卡座王俊解释:“我们只是顺势而为,并没有刻意要成为全球最大或什么的。想做的事情,倒推过来需要这样一种测序能力和分析能力,最终规模就变成了今天的样子。”

  当时的一篇报道中,曾是人类基因组计划奠基人之一的华盛顿大学教授Maynard Olson对这个机构评价道:“这是应对基因科技这样极速发展的科学领域的中国式的解决办法,时间会证明(它的效果)。”而“底线是华大必须给科学界带来真正令人兴奋的东西”。

  这一年1月,华大启动了“1000种动植基因组计划”,开始从科学界征集测序物种提案;3月,《自然》杂志以封面故事着重介绍了由中国深圳华大基因研究院主要承担的“人体肠道菌群元基因组参考基因集的构建工作” ……这个机构开始逐渐把研究方向集中于与农业和健康相关的基因科学上,并开始迈向社会化。

  测序工作的外包是否会成为相关科研领域的趋势?王俊的答案是:会两级分化。一方面,测序仪会越来越容易操作和“用户友好”,一些实验室的测序工作可以很容易自己来做;另一方面,对于另外一些数据量巨大的测序工作,大型测序中心有存在的必要性。就在今年,华大完成了对生产测序仪的CG公司(Complete Genomics)的收购。

  在健康领域,华大能做什么?一位华大员工举了几个例子。正如世界上没有完全相同的两片树叶,每个人在基因组上都是存在差异的,在给病人制定治疗方案时,不同的基因型对于治疗方案、药物的效果是不一样的,我们可以通过对病人基因型的检测来指导治疗方案的制定,以达到更好的治疗效果,同时把副作用减到最小,这也是最近大热的量基因型给药的“个性化医疗”。另一个公众认知度更高的例子是对遗传疾病的“产前筛查”,很多已知的疾病是由基因直接决定的,很多发育缺陷的婴儿,如唐氏综合症,原因就是21号染色体多出了一条,在受孕初期就可以通过检测孕妇血液中的游离胎儿的基因片断,从而通过干预措施避免发育缺陷患儿的出生。

  在水木社区的生物信息学版块,一群学生正在讨论是否要在毕业后选择华大,一位过来人评价:“华大最大的优势并不是提出问题,而是解决问题。但面对大规模测序技术,有很多问题都是自然浮现的。”谈话者举了个例子,从人群间基因组差异这个出发点开始,把焦点集中在“如何分类人群”这一点上,很容易提出非常多的问题,例如人种间差异,运动能力差异等。这场讨论,最终的结论是:在这个领域,还有很多事情可以做。

  人物周刊:你对自己的现状满意吗?

  王俊:我没考虑过这个问题……不过,对于我们想做的事情来说,今天(的成绩)还远远不够,从这个角度来讲,华大距离希望成就的那份事业,还有一定距离。

  人物周刊:你今天取得的成就,有什么心得可以与他人分享?

  王俊:我对现状还不那么满意,还谈不上成就。如果你想做的事情只是发表一篇高水平的论文,论文发表了,你就很有成就感;但如果想做的事情有点大有点远,现在就还处于一种奋进的过程中。

  人物周刊:对你父母和他们成长的年代,你怎么看?你理解他们吗?

  王俊:我们所做的工作,我父母应该知道吧。我们做的这些项目,如果普通人完全不知道,不能服务于这些人,那也做得太阳春白雪了。我们希望我们所做的东西能对他们有用,我父母也知道我在做一件伟大的事情。

  人物周刊:你对这个时代有什么话不吐不快?

  王俊:中国一直在谈战略转型,生命科学领域应该是个机会。中国在这个领域有很多方向都是一流的水平,国际上看,这个领域的很多新的发现都是由华人来做的。而这方面也有民生需求的带动,如果从政府到各个机构共同努力,在生命科学相关的领域上,是有些路子可以走出来的。

  人物周刊:你觉得你同龄人最大的问题是什么?

  王俊:我觉得年轻人有年轻人的优势,不说问题吧。我们华大的年轻人平均年龄不到二十六岁,科学部分的平均年龄不到二十三岁。这些年轻人是些非常有创造力的个体。给他们机会、好的平台和充分的信任,他们能够出一些非常好的成果。

  人物周刊:你认为什么样的人称得上有领袖气质,在当下的人中,你最钦佩的是谁?你的同龄人中够得上青年领袖的还有谁?

  王俊:从来没想过。有远大目标的年轻人,愿意为了这个目标去持之以恒地努力奋斗,更愿意团结一批人为这个目标而努力奋斗,团结的人多了,就是领袖了。事业和目标本身够远大,团结的人多,这种气质就自然形成了。周围,有领袖气质的人很多。

  人物周刊:权利、责任和个人自由,你最看重哪一个?

  王俊:对我来说,肯定是责任更重要。想做的事情这么大,管着这么大的团队,要排序的话,肯定是责任第一位。

  人物周刊:对你影响最大的一本书、或者一部电影?

  王俊:我在不同时间段会受不同的书和电影的影响,你要问我在过去37年受了哪一本书或者一部电影的影响,我还真举不出来。如果一定要说,某一类书吧,我比较喜欢人物传记。电影,我更喜欢那种引人思考的电影。

  人物周刊:对你来说,什么是最重要的?

  王俊:重要的是利用基因科技造福人类。不管是谁最终引领,生命科学这个浪潮都会往前走,我更希望我们能够在其中起到引领作用。

  人物周刊:你幸福吗?有没有什么不安?现在最大的担忧是什么?

  王俊:警觉是随时会有,但还谈不上恐惧和担忧。

  几天前,安吉丽娜·朱莉的手术也许是基因诊断时代的一个里程碑,而王俊所从事的就是与基因有关的研究。1999年,23岁的王俊参与了人类基因组测序,之后是水稻、家蚕以及炎黄基因,去年, 作为中国测序研究重地的领导者,他被选为《自然》的“世界科学界年度十大人物”。他说:“不管是谁最终引领,生命科学这个浪潮都会往前走,我更希望我们能够在其中起到引领作用。”

作者: 2013-5-29
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具