摘要 比较基因组学是基因组研究的重要内容。林木比较基因组学研究发现林木基因组中存在广泛的共线性或同线性及微共线性,在进化过程中呈现高度保守性。本文概述了林木比较基因组学研究的进展状况,探讨了该领域的发展趋势,以期为我国林木基因组学研究提供有益的参考。
关键词 林木 比较基因组学 共线性或同线性 微共线性
林木占陆地生态系统生物量的90%以上, 林业和木材加工业对全球经济的贡献重大, 因此林木基因组学研究受到了相当的重视。从1993年开始, 全球“植物和动物基因组年会”设立林木组(The Forest Tree Workshop); 2002年开始, 该会议成为国际林联(International Union of Forestry Research Organizations, FUFRO)“林木基因组工作组”的年会(
http://www.iufro.org/ science /divesion-2/); 另外, 基因组学研究也是国际林联林木生物技术研讨会中的重要内容(
http://www.iufro.up.ac.za/)[1]。
随着基因组学研究的不断深入, 相关信息出现了爆炸性增长, 迫切需要对大量基因组数据进行处理, 比较基因组学作为一门重要的工具学科孕育而生。比较基因组学(comparative genomics)是基于基因组图谱或基因组部分(或全部)区域测序基础之上, 比较不同物种基因组间的相似性和差异性, 进而阐述其内在的分子机制, 以了解基因的功能、表达机理和物种进化的一门新兴学科[2~5]。比较基因组学研究已经成为基因组学研究中的重点领域。
比较基因组学的研究结果表明, 有可能将近缘种统一起来建立超越物种界限的大
遗传系统, 将近缘种作为一个大遗传系统进行研究, 这正是遗传学家感兴趣的方面[2]。对于林木而言, 比较基因组学研究具有更重要的意义。由于林木大都为异交物种, 遗传背景复杂, 遗传负荷大, 而且大多数林木物种世代周期较长, 这给林木基因组学研究带来较大的困难[3]; 比较基因组学研究开辟了林木基因组学研究的新途径, 理论上, 不同物种间的基因组比较研究可以为探索相关物种或类群的染色体/基因组结构和进化机理提供有效的手段[4]。林木比较基因组学研究起步较晚, 但发展迅速。目前, 林木比较基因组学研究主要集中于杨柳科(Salicaceae)、松科(Pinaceae)、蔷薇科(Rosaceae)、壳斗科(Fagaceae)和金缕梅科(Hamamelidaceae)的一些树种中。本文概述了林木比较基因组学研究的最新进展, 探讨了该领域的发展趋势, 以期为我国林木基因组学研究提供有益的参考。
1 比较基因组学研究方法
比较基因组学研究方法主要包括3个方面:
一是基因组比较作图(Comparative mapping), 即利用共同的遗传标记(主要是分子标记、基因的cDNA克隆以及基因克隆)对相关物种进行遗传或物理作图, 比较这些标记在不同物种基因组中的分布情况, 揭示物种间DNA或DNA片段上的同线性(synteny)和共线性(collinearity)及微共线性(microsynteny)[3], 从而对不同物种的基因组结构及基因组进化历程进行精确分析。目前该方法在松科的比较基因组学研究中应用较多。所谓同线性是指一个物种某染色体或染色体片段上的两个或多个标记被定位于另一个物种的同源染色体上, 但这些标记间的相对顺序有时有变化, 而共线性则指同源染色体或染色体片段不仅其标记, 而且其标记间排列顺序都是保守的。所谓微共线性是指在一个小的基因组区域内(一段特定的DNA序列)存在共线性的情形, 可通过对YAC或BAC克隆的限制性图谱或直接对DNA区段进行测序并进行比较分析发现基因组的微共线性[6,7]。
二是基于基因组全序列进行比较基因组学的研究, 即对一物种全基因组进行测序, 针对全基因组序列进行比较分析, 可以分辨小到一个单碱基置换的差异[5]。虽然现在已经有一些物种通过测序得到了全基因组序列, 如拟南芥、水稻、杨树等, 并且进行了一系列的比较研究, 获得了一些令人振奋的成果, 但是就目前来说, 对一物种进行全基因组测序还是一个十分浩大的研究工程, 投入的人力和财力巨大, 因此, 不可能对所有研究的物种采用这种方式进行比较基因组研究。
三是基于DNA芯片技术的比较基因组学研究, 以已完成全测序的基因组为参考, 采用DNA芯片技术, 进行未测序基因组与参考基因组间的比较基因组杂交分析, 检测待比较基因组中对应DNA区域的缺失和存在与否[5]。该技术相对成本较低, 研究结果可靠性较高, 因此具有广阔的应用前景。
2 遗传图谱的比较研究
基因组比较作图是比较基因组学的重要研究领域。目前林木的比较基因组学研究主要集中在利用分子标记进行比较遗传作图。基因组比较作图的分子基础是物种间DNA序列尤其是编码序列的保守性。可利用保守性高的分子标记构建不同近缘树种的遗传图谱, 比较这些标记在不同基因组中的染色体来源及其排列顺序, 获得染色体重排信息, 揭示染色体或染色体片段上同线性或共线性的存在, 从而阐述各物种间染色体进化历史、古老物种的基因组结构及系统发育关系[8,9], 与传统的细胞遗传学手段相比可提供丰富的基因组结构和进化历程信息, 从而更好地了解基因组结构和进化历程。
遗传图谱的比较研究需要有质量较好、密度较高的遗传图谱作为参照图谱。一张质量好、密度高的参照遗传图谱可为多个种比较所用, 建立它们之间的联系框架和系统; 例如李树(Prunus)图谱, 密度较高(平均每个标记间距0.92 cM), 所含有的标记大都是共显性标记, 通用性效果较好; 该图谱共含有562个通用性标记, 包括185个SSRs、361个RFLPs、11个同工酶和5个STS标记等[10], 蔷薇科基因组比较研究大都以它为参照图。
另外, 遗传图谱的比较研究还需要大量通用性好的分子标记, 通用性好的分子标记构建的图谱才具有可比性。理想的用于比较作图的分子标记应具有以下特点为: (1)直接来自于基因表达序列; (2)不同遗传背景(如杂交组合)下可进行信息传输; (3)共显性。目前用于基因组比较作图的标记主要有RFLP、SSR和EST等。RFLP标记为共显性遗传标记, 可用于比较作图, 但由于标记数目和群体大小的限制而分辨率不高, 而共线性区段往往在5~10 cM之内, 这样就会错过分析缺失、重复和倒位的情况[7], 因此RFLP标记只在比较基因组研究初期被使用。SSR标记在群体中常存在大量复等位基因, 引物在种内或种间具有保守性, 因此可以利用一套通用的SSR标记构建不同种或群体的遗传图谱, 进行比较研究。EST来自于基因表达序列或直接来自候选基因(candidate genes), 如果用于构建图谱, 可直接将相同的与目标性状基因相关的EST标记或候选基因定位在不同的遗传图谱上, 从而进行图谱比较研究。可见直系同源(orthologus)的SSR标记或EST标记可作为锚定位点(anchored loci)构建同属近缘树种的一致性图谱(consensus map), 对于不同树种的比较基因组研究更有意义[11]。
以模式植物基因组信息作为依据可以对不同物种基因组进行比较研究, 有助于保守性较强的遗传信息的转译, 最终建立具有广泛联系并适应多种植物的遗传骨架[12]。如模式树种杨树基因组信息: 高分辨率的参照图谱、全基因组序列、大量通用性较好的分子标记和巨大的EST数据库, 为杨柳科基因组比较研究提供了保障[13,14]。Hanley 等[15]就根据杨树全基因组序列和EST数据库设计了SNP标记, 利用这些SNP标记同SSR和AFLP标记一起构建了一份柳树遗传连锁图谱, 并与杨树全基因组进行了比较, 发现杨树与柳树基因组具有高度的标记共线性。
林木基因组比较作图研究发现, 种间、属间及科间基因组均存在大量的同线性和共线性及微共线性, 这说明在林木基因组进化过程中, 种间、属间及科间的基因组存在一定程度的保守性。在林木比较基因组研究中, 松科比较基因组学研究起步相对较早。针叶树种基因组比较大, 如火炬松(Pinus taeda)等松属植物单倍体DNA含量平均达15 500 Mb [16], 是拟南芥的120倍, 是杨树的近30倍, 不适合作为模式树种进行研究, 因此比较基因组学研究对这些物种来说具有更重要的意义。针叶树比较基因组计划(Conifer Comparative Genome Project, CCGP,
http://dendrome.ucdavis.edu/Synteny/)的启动为不同林木遗传学研究机构提供了同源分子标记和生物信息学工具, 有利于构建重要针叶树种的一致性遗传图谱[3]。由于火炬松基因组研究在松科中处于领先地位, 具有密度较高的遗传图谱和QTL图谱及巨大的EST数据库[11], 故松科比较基因组学研究一般选择火炬松(2n=2x=24)作为参照树种, 利用一套ESTP标记所构建的不同树种的遗传连锁图与火炬松的参照图进行比较, 发现火炬松(P. radiata)与辐射松 (D. Don)、湿地松(P. elliotii)、欧洲赤松(P. sylvestris)、海岸松(P. pinaster Ait.)、日本柳杉(Cryptomeria japonica)、黄杉属的花旗松 (Pseudotsuga menziesii, 2n=2x=26)、和云杉属(Picea)的挪威云杉(P. abies)白云杉(P. glauca)、黑云杉(P. mariana)、红云杉 (P. rubens)的遗传图谱都存在高度的同线性和共线性(图1), 这说明松科基因组保守性较高, 基因组进化缓慢, 遗传信息可以在亲缘关系比较近的树种间转移[3,11,17~22]。通过研究已经建立起松科比较基因组的框架图, 这有利于将松科植物作为一个大遗传系统进行研究, 对针叶树基因组研究具有重要意义。
以李树图谱为参照图, 蔷薇科的比较基因组研究也发现了广泛的标记共线性和同线性, 推测科内基因组的进化包含染色体有限数量的重组, 由于插入和易位的发生, 可能导致一系列物种基因组中大染色体片段的保守, 这与在茄科(Solanaceae)、禾本科(Poaceae)和十字花科(Brassicaeae)三科研究中得到的结果基本一致。例如, Dirlewanger等[10]利用李树参照图与李属7个物种(杏(P. dulcis)、桃(P. persica)、苦杏( P. armeniaca)、樱桃(P. avium)、新疆桃(P. ferganensis)、 山桃(P. davidiana)和樱桃李(P. cerasifera)的13张图谱进行了基因组比较研究, 发现了蔷薇科基因组存在广泛的标记同线性和共线性, 研究表明蔷薇科的染色体在进化过程中曾发生过重要的重组事件; 但在他们所研究的6个李属树种中却没有发现任何重要的染色体重组, 说明该属拥有一套共同的原始基因组, 属内不同树种之间的遗传关系很近。同时他们首次进行了四倍体的苹果(Malus pumila Mill.)和李树图谱比较研究, 发现, 李树图谱上共有30个位点(24个相同探针的RFLPs和6个同工酶基因)在苹果图谱上存在同源区域; 李树的一个连锁群对应苹果的两个同源连锁群, 这说明李树基因组和苹果的两部分基因组存在高度的同线性。同时发现在李树的第一连锁群较大, 而且连锁群上大约有一半多的区域, 在苹果基因组中的两个连锁群上有同源区域, 而剩余部分却在苹果另一个连锁群上有同源区域, 在苹果基因组中也不存在这么大的连锁群。因此根据结果推测: 苹果属和李属的原始基因组相似, 可能在苹果进化历史上发生过长染色体断裂成两条染色体现象, 或者在苹果属和李属分化时曾出现李属两古老染色体融合现象。
模式树种杨树(Populus)的基因组构成精简〔单倍体(n=19)约含(500+20 Mbp)〕, 且已构建相对饱和的各种连锁图, 获得大量与目标性状相关的QTLs [13]。杨树近缘树种的遗传作图比较研究发现, 不同树种的基因组存在良好的标记共线性。Cervera等[23]将自己实验室构建的两张美洲黑杨(P. deltoidscv)的遗传图谱进行了比较, 发现2张美洲黑杨遗传连锁图的各连锁群上的标记排列顺序基本一致, 占96%, 并获得一份综合图谱。张博[24]利用所构建美洲黑杨×欧美杨(P. deltoids × P. euramericana)遗传连锁图谱, 与来自美国国立橡树岭实验室(
http://www.ornl.gov/sci/ipgc/ssr_resource.htm)的毛果杨×美洲黑杨(P. trichocarpa×P. deltoides)图谱进行比较分析, 获得了19个同源连锁群, 各同源连锁群间存在良好的共线性关系。
此外, 在壳斗科和金缕梅科一些树种中, 比较基因组研究也发现了广泛的同线性和共线性[25~28]。Barrenche等[25]对壳斗科的栎属(Quercus)和栗属(Castanea)中各自开发的SSR标记在两属间进行了初步的基因组比较作图, 认为, 壳斗科内比较基因组研究中, 通用的SSR标记可作为锚定位点。Brondani等利用现有桉树基因组研究结果, 构建了含230个SSR标记的多种桉树的一致性连锁图谱, 该连锁图表明, 桉树种间具高度的同线性和共线性; 该图谱的构建, 为桉树比较基因组学、进化研究及分子育种的运用迈出了重要一步。
3 局部或全基因组序列的比较研究
拟南芥、水稻和杨树是目前仅有的3种有全基因组数据的高等植物。在系统分类学中杨树属于Rosids(蔷薇)分支中的EurosidⅠ(真蔷薇Ⅰ)单元; 杨树在系统分类学的位置有利于与其它分类单元的物种进行比较生物学分析。拟南芥属于Rosids分支中EurosidⅡ(真蔷薇Ⅱ)单元, 在进化过程中与杨树距离较近[14, 29~31]。拟南芥属于双子叶植物中草本植物, 杨树属于木本植物, 杨树与拟南芥的比较基因组研究再加上详细的序列注解将有助于我们理解高等植物的进化与发育[13], 因此拟南芥是进行杨树基因组比较研究的主要对象。尽管杨树和拟南芥在进化上已经分开了一亿到一亿两千万年, 两基因组大小差别也很大, 杨树基因组(410 Mb)是拟南芥(125 Mb)的3倍多, 然而在杨树基因组所预测的45 555个编码蛋白基因当中, 只有大约12% (5 248)的基因不与拟南芥同源, 在拟南芥中, 也只有9% (2 321)的基因与杨树没有同源性。通过BLAST双向比对发现: 杨树和拟南芥基因组中有13 019对同源基因的序列一致性平均达93%, 其中11 654对同源基因的序列一致性超过基因长度的90%。由于杨树是异交物种, 高度杂合, 因此其基因组与拟南芥基因组相比, 存在更高水平的等位基因(allele)多态性。在杨树基因组中发现了1 241 251个SNPs (Single-nucleotide Polymorphisms)位点或小的INDLELs (Insertion/Deletion Polymorphisms), 每1 000个碱基就有2.6个多态位点, 其中83%的多态位点存在基因组的非编码区。杨树比拟南芥拥有更多相似的编码蛋白基因, 如果在拟南芥中有一个某种编码蛋白基因, 那么相应的在杨树基因组中就有1.4~1.8个同源基因, 当然也有例外, 如F-box 编码蛋白基因家族, 在拟南芥中拥有的基因数是杨树中同源基因的两倍(624 对 303)[30,32]。
随着杨树全基因组序列的公布, 也同时开展了其它树种的部分基因组序列直接与杨树全基因组序列比较研究, 研究结果表明林木基因组中存在广泛的同源性, 这有助于探讨林木基因组的进化历程[13,33]。Hanley等利用柳树微卫星富集文库中的DNA序列与杨树全基因组序列进行比较, 发现柳树遗传连锁图谱上的微卫星标记相对应的柳树DNA序列当中, 绝大多数(97.2%)与杨树基因组的具有同源性, 其中一些(76.4%)还具有高度同源性; 同时根据杨树全基因组序列和EST数据库设计了SNP标记, 有79个标记连锁到柳树遗传图谱上, 其中有76个扩增的柳树DNA序列与杨树基因组靶序列具有高度同源性, 3个标记产生的DNA序列与靶序列没有同源性, 但与杨树基因组其他序列具有高度同源性。同时他们利用1 825条柳树EST与杨树基因组进行比较研究, 也发现柳树与杨树基因组存在微共线性, 并推测杨树和柳树在进化过程中可能共同经历相同的基因组复制事件[30]。
4 QTL的比较分析
林木的重要性状如生长量、材性以及抗逆性等均属于数量性状, 分子标记技术的发展使得把 QTL 定位在染色体上变为现实。利用同一套通用分子标记对同一或相似表型性状在不同物种中进行QTL比较作图, 寻找QTL在基因组中的共线性, 这为比较基因组研究提供了一种思路, 也可以使我们对复杂性状遗传有更深层次的认识。林木在QTL的比较作图方面已取得了一定进展。Chagné等[3]利用ESTP标记技术对海岸松和火炬松进行基因组比较作图研究, 对定位的QTL位点进行对比, 发现控制木材密度和细胞壁成分的两个QTLs在两树种遗传图谱上的位置也是相对保守的; 该研究是首次在林木中进行QTL的比较研究, 体现了基因组比较作图在应用上的意义, 即可以利用基因组比较图谱鉴定不同树种的一些重要性状的QTLs, 从而可以发现一些‘通用’QTLs用于标记辅助选择。Dirlewanger等[10]利用李树参照图谱锚定不同树种遗传连锁图谱, 发现了影响重要农艺性状的28个相对保守的QTLs。
5 林木比较基因组学研究的应用
比较基因组学研究可以将不同的生物种类联系在一起, 架起基础研究与应用研究的桥梁, 跨种、跨属、甚至跨界的基因组比较研究对于人们了解基因组的结构和进化机理、基因的结构和功能以及基因组的变化如何导致生物多样性都具有重要意义; 可为系统发育(phylogeny)及进化等研究提供直接信息, 而且使基因组研究不再是有一个个主要依据各物种的经济价值而确定的、局限于各个物种的分散系统, 不同领域的研究可有机结合, 建立超越物种界限的大遗传系统[9,34]。
(1) 根据属内不同种的基因及其排列顺序高度保守性的特点, 可探索相关物种或类群的染色体/基因组结构和进化机理; 利用保守性高的分子标记构建图谱, 可以比较这些标记在种内不同杂交组合甚至林木不同种的基因组中染色体来源及其排列顺序, 与传统的细胞遗传学手段相比可提供基因组结构和进化历程的精细信息。开展这方面的研究可以大大加速林木基因组研究进程, 提供全新的林木基因组结构及进化知识[21,22]。
(2) 通过同源性比较来推测未知基因的功能或解读基因组序列。基因组研究中最系统化的是获取生物体的全基因组序列, 但这项工程浩大; 现在已经获得了一些模式植物的全基因组序列, 而且一些基因的功能已被注释, 如拟南芥、水稻等。通过与模式植物基因组的同源性比较, 可以获得未知基因的功能并可查找到其基因序列。林木可与拟南芥和毛果杨等功能基因组研究较深入的物种进行比较基因组学研究, 这将为林木上相关基因功能的研究提供便利, 毛果杨与拟南芥基因组比较的结果也表明这是可行的[29,30]。
(3) 比较基因组学研究对林木遗传研究和林木育种具有重要启发意义, 可使遗传研究和林木改良的思路和策略发生改变。通过比较作图研究, 可以验证QTLs在不同杂交组合中的稳定性。由于基因本身的保守性, 利用控制性状的基因本身作为标记, 就有可能发现适合于不同杂交组合的“通用”QTLs, 并减小在群体水平上由于连锁不平衡对标记辅助选择带来的不利影响, 从而真正实现标记辅助选择在林木育种上的应用。例如蔷薇科不同属基因组间具有高度共线性, 通过研究已有28个基因位点综合到一张图谱上; 有些与主要性状(抗病/虫、果实质量、自交不亲合等等)表达基因紧密连锁的标记已经找到, 相信很快将被用于标记辅助选择 [10]。由于林木世代周期长, 遗传谱系的建立费时费力, 而比较基因组作图有助于建立不同系统关系的物种的核心图谱, 使不同谱系、不同环境和不同系统关系的物种间的QTL合并研究成为可能[35,36]。
6 林木比较基因组学研究存在的问题及前景
林木遗传学研究已进入基因组时代, 比较基因组学这一工具学科必将发挥越来越重要的作用。目前林木比较基因组研究虽然存在诸多不足但有广阔的发展前景。
一方面比较基因组作图缺乏质量好、密度高的参照遗传图谱和通用性好的分子标记, 不能进行精细的基因组比较。一张近缘种的质量好、密度高的遗传图谱是进行基因组比较作图的基础。本文所介绍的蔷薇科基因组比较作图研究状况中, 李树的参照图谱的密度较高, 但标记分布不均匀, 仍存在达7 cM的较大空隙(gap), 给图谱比较带来较大缺憾。目前所构建的遗传连锁图谱应用的分子标记大都属于随机标记, 如RAPD、AFLP等。在随机标记构建的图谱上发现的标记间和标记与基因间的关联是一种随机关联, 存在杂交组合特异性, 无法延伸到群体水平, 而且作为显性遗传的标记同源性也无法判断, 因此在不同物种、群体或杂交组合之间缺乏同线性和共线性, 无法进行比较图谱分析[37,38]。林木遗传学家们正致力于开发理想的用于图谱比较的分子标记系统, 有些已经应用到研究当中, 如在松科和杨柳科的比较基因组研究中, EST标记的应用越来越广泛[39]。相信随着越来越多的通用性标记的出现, 林木基因组比较作图研究将会得到迅速发展。同时, 随着分子标记的开发和利用, 遗传图谱将进一步饱和, QTL定位将进一步精细, 开展QTL的比较研究, 将有助于我们研究同一性状在不同树种中的遗传学基础和选择真实、准确的QTL及其连锁分子标记进行林木的分子育种。
另一方面, 杨树与拟南芥的全基因组序列比对的研究, 不仅对于研究杨树基因组中的功能单位十分重要, 而且对两基因组间差异的研究还能为我们探索不同生物体的独特表型特征提供线索, 能帮助我们探讨物种形成的遗传基础[40]。目前, 在这方面已取得了一定进展, 但研究有待深入。通过比较研究, 寻找杨树基因组所特有的基因, 对于林木基因组的结构、功能及和进化等方面的研究将更具有意义。其次, 杨树作为林木基因组研究的模式树种, 又是第一个具有全基因组序列的树种, 其它树种与杨树基因组的比较研究, 有利于我们寻找不同树种基因组的差异, 不过这方面的研究相对较少。相信随着杨树全基因组信息的不断丰富, 其它树种(特别是一些已经具有大量基因组信息树种, 如松树、桉树)与杨树的基因组比较研究将会不断涌现, 对研究和理解木本植物的进化将大有裨益。
林木比较基因组学正逐步成为林木基因组学研究的活跃领域, 但要在较短的时间内取得重要的研究成果, 必须与其他学科如功能基因组学、生物信息学等相结合。只有这样, 比较基因组学才能发挥更强有力的作用, 推动林木基因组研究更快发展。
作者: