二、比较基因组学
比较基因组学是基因组学的重要分支,它是随着生物基因组的大规模测序发展起来的新科学,现已成为研究生物基因组最重要的策略与手段。与比较解剖学、比较组织学等一样,比较基因组学使用的是遗传学的重要方法——异同的比较,但该学科的特点是在整个基因组的层次上比较,如基因组的大小、基因数量的多少、特定基因的存在或缺失、基因(或标记序列片段)的位置及排列顺序、特定基因或片段的组织等。而最重要、最能体现比较基因组学学科特点的是全基因组的核苷酸序列的整体比较。随着世界各国基因组计划的实施,除了人类基因组,许多模式生物基因组也已完成测序或正在进行测序,如大肠杆菌、酵母、果蝇、线虫、小鼠、鱼、拟南芥等。同时,美国的“食物基因组计划”几乎涵盖了所有重要农作物:小麦、玉米、大豆、马铃薯、南瓜、棉花。这些基因组全序列数据将成为比较基因组最基本的研究对象。
认同所有生物的基因组都有共同的进化史,即进化上的共性是比较基因组学的理论依据,可以说,没有进化上的关系,就没有比较基因组学。进化是基因组比较最重要的主题,所以目前基因组比较的生物信息学方法主要是来自系统进化分析的一些方法,例如系统进化树的构建方法等(相关内容请参见第五章)。故基因组比较急需发展针对整个基因组的专用算法。基因组是一种具有大尺度、巨量特点的研究对象,它具有自身特性,必须用特定的算法才能充分挖掘和利用基因组信息。
下面对基因组学分析中经常涉及的四个最基本概念进行介绍。
1.相似性
相似性就是简单比较得出的两者之间的相同程度。相似性本身并不要求与进化起源是否同一,与亲缘关系的远近,甚至于结构与功能有什么联系。核苷酸与氨基酸序列的测定,使原先“模糊”的描述有了定量的指标——百分比。不同基因组之间、不同基因或不同物种的“同一”基因之间,都可以用百分比来表示异同程度。
2.同源性
同源性是具有严格定义的进化学词语:在进化上起源同一。同源性可以用来描述染色体——“同源染色体”、基因——“同源基因”和基因组的一个片段——“同源片段”。
在进化上起源同一的两段核苷酸序列,特别是功能较重要的保守区段或基因,一般表现为相似。迄今有证据表明,同源基因的的确确在核苷酸(或氨基酸)序列上具有较高程度的相似,这就带来了词语之间的混用,如我们有时把“相似搜索”说成“同源搜索”。在比较两段序列时,正常的描述应该是:这两个片段可能同源(或这两个基因有可能为同源基因),因为它们的核苷酸(或氨基酸)的相似程度为80%。“80%的同源”的说法是不正确的(还有20%的不同源?),也是不符合事实与定义的。
相似性与同源性是两个不同的概念,相互之间并没有直接的等同关系。相似的不一定同源,因为在进化的过程中,来源不同的基因或序列由于不同的独立突变而“趋同”并不罕见;同源一般表现为相似,但同源并不一定比非同源的相似程度高。我们只是在进化过程的一个时间点上加以观察而已。功能相似或相同也不一定必然同源。非同源基因的代谢功能替换已有不少证据,其他表型相似也不一定反映了同源,不同基因的不同突变就有可能产生“表型模拟”。而同源又有两种不同的情况即垂直方向的与水平方向的。
3.直系同源
直系同源是比较基因组学中最重要的定义。直系同源的定义是:
①在进化上起源于一个始祖基因并垂直传递的同源基因;
②分布于两种或两种以上物种的基因组;
③功能高度保守乃至于近乎相同,甚至于近缘物种可以相互替换;
④结构相似;
⑤组织特异性与亚细胞分布相似。
在这些条件中,垂直传递和功能相同是最重要的。如多种抗药性基因,在细菌、果蝇、河豚、小鼠、人类的基因组中都存在,其结构相似,功能都与多种药物的抗性有关。直系同源基因的鉴定是比较基因组的研究线索和内容,直系同源的存在是基因组进化的重要证据,因此对直系同源的定义与条件的把握甚为严格。鉴定直系同源的实际操作标准如下:
若基因组Ⅰ中的A基因与基因组Ⅱ中的A′基因被认为是直系同源,则要求:
①A′的产物比任何在基因组Ⅱ中所发现的其他基因产物都更相似于A产物;
②A′与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高;
③A编码的蛋白与A′编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序。
4.旁系同源
旁系同源基因是指在同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因。
直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能没有严格要求,可能相似,也可能不相似(尽管结构上具一定程度的相似),甚至没有要求(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关,或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种中具有相似的功能。在真细菌与古细菌的基因组中,30%~50%的基因属旁系同源,而旁系同源在真核基因组中的比例更高。
相似与同源,直系与旁系需要在定义上加以明确区分,但实际应用中很难截然分开。与别的常用术语也很难明确界定。但基因家族或多基因家族原来的定义较侧重于结构,因而一个直系基因可以与几个旁系基因同属于一个基因家族。在这一定义上,旁系同源可以说是一个基因家族中的其他成员。
随着不同物种全基因组序列的阐明,上述概念愈加重要并更加明确。从已知的7个物种的全基因组序列比较,如所有的保守基因都据同源关系加以分类,可归纳出720个直系同源簇(clusters of orthologous groups,COG),每一COG由直系同源蛋白或存在于至少3个种系的直系的旁系同源组组成。而基因家族又因大批基因及产物序列而被赋予新的内容,这对扩大对生物过程的认识与提升基因操作的能力具有重要意义。