具有特殊结构与功能的基因

五、具有特殊结构与功能的基因

1.转座基因

转座基因也称转座因子,是指可以从染色体基因组上的一个位置转移到另一个位置,甚至在不同的染色体之间跃迁的基因成分,因此有些文献形象地称之为跳跃基因。转座基因最早由美国冷泉港实验室的女科学家B.McClintock于20世纪40年代晚期在玉米中发现,但直到60年代末,基因转座现象在原核生物中再次被证实后才被学术界公认。因在转座基因研究上的超时代发现和卓越贡献,B.McClintock于81岁高龄时荣获了1983年诺贝尔生理学或医学奖。

原核生物的转座因子可以分成三种不同的类型:插入序列IS(insertion sequence,分子小于2 000 bp)、转座子Tn(transposon,分子大于2 000 bp,并具有较为完备的转座调节系统)、可转座噬菌体(包括噬菌体Mu和D108)。

转座(位)作用的机制有两种,即简单转座(又称单纯转座)和复制型转座。简单转座时,在转座酶的作用下,转座因子从原来的位置转座插入新的位置,结果是在原来的位置上丢失了转座因子序列,而在插入位置上增加了转座因子序列,这种方式也称为剪-贴式转座。复制型转座则是在转座酶和解离酶的参与下,转座因子在复制和交换的过程中,将一份转座因子拷贝转座到新的位置,在原先的位置上仍然保留一份转座因子序列。但两种转座类型均要求转座因子的两端必须具有一段能被转座酶识别和切割的反向重复序列(IR),尽管不同转座因子的IR序列的长短和组成不尽相同。

2.假基因

1977年,G.Jacq等根据对非洲爪蟾5S rRNA基因簇的研究,首次提出了假基因(pseudo gene)概念。现已在大多数真核生物中发现了假基因,它约占整个基因组的1/4。假基因是多基因家族中的成员,因其碱基顺序发生缺失、倒位或点突变等失去活性,成为无功能基因,它们或者不能转录,或者转录后合成无功能的异常多肽。这类假基因与原有功能的“真基因”具有较高的同源性。假基因在哺乳动物中是一种普遍现象,成了基因进化的轨迹。表示假基因的DNA顺序可在相应基因名称之前加“φ”。如α-珠蛋白基因家族中φξ1与功能性ξ2基因同源,φξ1有3个碱基被取代,其中密码子6由GAG突变为TAG,发生了无义突变。

实际上,在断裂基因概念提出后,对假基因的结构序列进行比较研究发现,在真核生物的基因家族中,除了功能基因累积突变型的假基因外,还广泛存在一种“加工假基因”。它具有4个显著的特点:①没有启动子,没有内含子;②具有与成熟mRNA相同的poly(A)尾序列;③两侧具有DNA插入后形成的“足迹”顺向重复序列DR;④随机出现在非正常的位置上。故有人据此提出假基因并非来自真基因的突变,很可能与反转录病毒的感染有关。当真基因的mRNA经剪接去除内含子,并加上poly(A)尾后,再反转录为cDNA,进而以一种类似转座的方式插入染色体中,成为假基因。如果此过程发生于性细胞中,则可遗传至下一代。

3.重叠基因

长期以来,人们一直认为,在一段具有编码信息的DNA序列内,读码框架是唯一的,遗传密码不存在重叠性。如果在这段编码DNA序列中存在2种或3种读码框架,就意味着这段DNA序列可能编码2个或3个基因信息,它们彼此重叠,当一个核苷酸发生突变,就可能会形成2个或3个突变基因。

随着DNA核苷酸序列测定技术的发展,人们已经在一些噬菌体和动物病毒中发现不同基因的核苷酸序列有时是可以共用的。也就是说,它们的核苷酸序列是彼此重叠的。分子生物学称这样的2个基因为重叠基因,或嵌套基因。

已知大肠杆菌ØX174噬菌体单链DNA共有5 387个脱氧核苷酸。如果使用单一的读码框架,它最多只能编码1 795个氨基酸。按每个氨基酸的平均相对分子质量为110计算,该噬菌体所合成的全部蛋白质的总相对分子质量最多为197 450。可实际测定发现,ØX174噬菌体所编码的11种蛋白质的总相对分子质量竟是262 000。1977年,英国分子生物学家F.Sanger领导的研究小组在测定ØX174噬菌体DNA的脱氧核苷酸序列时发现,它的同一部分DNA能够编码两种不同的蛋白质,从而解释了上述矛盾现象。

就现在所知,不仅在细菌、噬菌体及病毒等低等生物基因组中存在重叠基因,而且在一些真核生物中也发现了不同于原核生物的其他类型的重叠基因。这是基因结构与功能研究上的又一个有意义的发现。

4.基因家族

真核生物的基因数量巨大,结构和功能复杂。但这众多的基因实际上是由数量有限的原始基因经过逐步扩增、突变进化而来的,因而许多基因在核苷酸序列或编码产物的结构上具有不同程度的同源性。基因家族就是指核苷酸序列或编码产物的结构具有一定程度同源性的一组基因。同一个家族的基因成员是由同一祖先基因进化而来的,同源性最高可达100%,即多拷贝基因,也称为重复基因,当然同源性也可以很低。在多基因家族中的基因,其编码产物常常具有相似的功能,而在基因超家族中,可能有些基因的编码产物在功能上毫无相同之处,或某些成员并不能表达出有功能的产物,成为假基因。根据家族内各成员同源性的程度,基因家族主要有以下几种类型。

(1)核酸序列相同 这实际上是多拷贝基因。在真核基因组中,有些基因的拷贝数不止一个,可以有几个、几十个甚至几百个,被称为单纯多基因家族,如rRNA基因家族、tRNA基因家族等。一般真核生物细胞都有成百上千个tRNA基因,人类基因组约有1 300个tRNA基因。每种tRNA基因可有10个到几百个拷贝。每一拷贝往往串联排列在一起,但由非转录间隔区间隔形成基因簇,因此,常常比结构基因长近10倍。

组蛋白基因家族在染色体上的排列则是另一种形式。5种组蛋白基因串联成一个单元,再由许多单元串联成一个大簇,这种形式的基因家族也称为复合多基因家族,组蛋白基因的串联排列与DNA复制时需要成比例地大量合成各种组蛋白有关。

(2)核酸序列高度同源 如人类生长激素基因家族,包括3种激素的基因,即人生长激素(hGH)、人胎盘促乳素(hCS)和催乳素。它们之间同源性很高,尤其是hGH和hCS之间,蛋白质氨基酸序列有85%的同源性,mRNA序列上有92%的同源性,说明它们是来自一个共同祖先的基因。hGH和hCS基因在17号染色体上的排列次序是:(hGH-N)—(hCS-L)—(hCS-A)—(hGH-V)—(hCS-B)—。其中,hGH基因有2个,一个是正常表达(hGH-N),另一个至今未发现表达产物(hGH-V);hCS基因中有2个正常表达基因(hCS-A,hCS-B)和一个假基因(hCS-L)。

(3)编码产物具有同源功能区 在某些基因家族成员之间,基因全长序列的相似性可能较低,但基因编码的产物却具有高度保守的功能区。如src癌基因家族,各成员基因结构并无明显的同源性,但每个基因产物都含有250个氨基酸顺序的同源蛋白激酶结构域。一些结构类似、功能相关的受体也可依此划分成一个个家族。

(4)编码产物具有小段保守基序 在有些基因家族中,各成员的DNA序列可能并不明显相关,而基因编码的产物却具有共同的功能特征,存在小段保守的氨基酸序列。例如DEAD盒基因家族含有几个不同的基因,它们的产物都具有解旋酶的功能,其结构特征是8个氨基酸序列,内含DEAD序列:Asp—Glu—Ala—Asp。

(5)基因超家族 基因超家族是指一组由多基因家族及单基因组成的更大的基因家族。它们的结构有程度不等的同源性,它们可能都起源于相同的祖先基因,但它们的功能并不一定相同——这一点正是与多基因家族的区别所在。这些基因在进化上虽也有一定的亲缘关系,但亲缘关系较远,故将其称为基因超家族。

在基因超家族中,免疫球蛋白基因家族是最早被发现,也是最经典的基因超家族。这一家族的各成员都具有共同的免疫球蛋白样的结构域,因而也将其命名为免疫球蛋白基因超家族。