7.3.2 避免使用稀有密码子
遗传密码有64种,多数密码子具有简并性,而不同密码子使用的频率不相同。但是绝大多数生物倾向于对某些密码子的使用表现了较高的偏好性。其中,那些被最频繁利用的称为主密码子或最佳密码子,那些不被经常利用的称为稀有密码子或罕用密码子。实际上用作基因表达的宿主细胞都表现出某种程度的密码子利用的差异或偏好。因此,不同来源的重组蛋白表达可能深受密码子利用的影响(尤其在异源表达系统中)。此时,利用偏好密码子,并避免用利用率低的或稀有的密码子合成基因,可使基因的表达水平大幅度地提高。基因的这种重新设计称为密码子最佳化。
1.影响遗传密码子偏好性的原因
(1)基因序列碱基组成的偏好性:在不存在自然选择压力的情况下,一定方向的突变压力会影响序列本身的碱基组成,而这一效应同时也会反映在同义密码子的第3位上,如细菌基因组中,核苷酸GC含量变化范围较广(25%~75%),这种变异主要是GC至AT的正向和回复突变压力差异造成的。这样的偏好性仅仅反映了序列组成的特征,而与蛋白质功能或表达水平无关。
(2)弱的自然选择效应:对于所有密码子家族来讲,即使存在密码子偏好性,由于同义密码子并不改变最终的蛋白质产物,因此对于那些频繁被使用的密码子的选择性是很弱的。但是这种弱的选择性会体现在基因表达水平上,在高表达的基因中,密码子使用偏好性要强过一般表达的基因。即密码子偏好性与表达水平之间呈相关性,通常情况下,高表达水平的基因或基因组密码子偏好性高。但在哺乳动物和人类的基因组中,低表达水平的蛋白质也可表现较高的密码子偏好性。前者提高了翻译的速度、准确率以及蛋白质产量等,而后者对实现基因的组织特异性表达等具有重要意义,体现了生命体对自然选择的一种适应性。
(3)tRNA丰度:密码子在蛋白质翻译过程中需要和携带对应反密码子的tRNA相互识别,才能把游离的氨基酸残基转移到多肽链上,因此,这些对应的tRNA的丰度就决定了蛋白质合成的资源。在高表达水平的基因中,那些具有偏好性的密码子对应的tRNA含量也较高,这些密码子称为最优密码子,它们通过减少与对应的tRNA匹配时间而加快翻译速度。另外一个能加快翻译速度的因素在于,非最优密码子由于对应的tRNA含量相对较低,往往易形成错配,而加大了基因纠错的时间和能量成本。因而,密码子使用的偏好性与细胞内tRNA的含量呈正相关。
(4)基因长度:基因越长,能够容纳的密码子越多,在没有其他压力的情况下,则同义密码子被选择的概率不会受样本容量限制而出现统计上的误差;相反,基因越短,可以编码的密码子数量和种类越少,甚至有的密码子根本不会出现,这种使用偏好性和其他进化压力无关。有研究报道,大肠杆菌的密码子偏好性和基因的长度成正比,而果蝇和酵母菌则相反。翻译选择可以解释上面的两种结果:大肠杆菌通过选择来避免翻译时出现氨基酸的错误整合;而果蝇在自然选择的压力下缩短表达量高的基因的长度,对生物体本身是有利的,因为较长的蛋白质编码基因翻译时需要消耗更多的能量,这种作用在真核生物中是很明显的。
(5)蛋白质的结构功能基因:密码子的使用与基因编码的蛋白质的结构和功能有关。蛋白质的折叠方式与mRNA序列之间存在一定的相关性,蛋白质的三级结构与密码子使用概率有密切的关系;在不同物种中,类型相同的基因具有相近的密码子使用模式,对于同一类型的基因由物种引起的同义密码子使用偏好性的差异较小。
(6)氨基酸保守性:在由某些特定基因组编码的蛋白质序列中,各种氨基酸含量差异很大,一些稀有氨基酸的存在,导致了某些特定同义密码子频繁使用,而其他的很少被用到;同样,对于保守性较高的氨基酸,因为其发生突变的可能性很小,所以密码子的使用模式往往较为固定,从而合成生物体中的特定蛋白质,实现蛋白质特定功能的发挥。
(7)蛋白质编码基因在DNA双链上的位置:脊椎动物线粒体DNA在复制期处于单链状态的H链,易于积累A到G和C到U的突变,并且富含GT,导致新合成的L链富含AC,进而影响密码子的使用模式。脱卤厌氧黏菌和立克次氏体基因组中分别有17%和21%的密码对在DNA双链上的使用偏好性正好相反,即在前导链上偏好的密码对在滞后链上却不偏好,反之亦然,表明DNA的前导链与滞后链上密码对的使用偏好性存在差异。
(8)密码子碱基组成的上下文关系:如果密码子第1、2位是A、U,那么其第3位倾向于使用G或C,反之亦然。这种前、后碱基之间的相互作用,对密码子偏好性的形成具有一定影响。假如密码子3个位置上都是A、U或G、C,密码子和反密码子的配对就容易出现位置差错,或影响配对速度,造成其结合困难、分离容易,进而降低基因的表达效率。
2.密码子偏好性在基因表达中的应用
(1)外源基因稀有密码子的替换:通过分析密码子使用模式,预测目的基因的最佳宿主,或者应用基因工程手段,为目的基因表达提供最优的密码子使用模式。利用密码子偏好性来提高异源基因的表达。同义密码子使用的频率与细胞内相应的tRNA的丰度呈正相关,稀有密码子的tRNA在细胞内的丰度很低。在mRNA的翻译过程中,往往由于外源基因中含有过多的稀有密码子而使细胞内稀有密码子的tRNA供不应求,最终使翻译过程终止或发生移码突变。此时可通过点突变等方法将外源基因中的稀有密码子转换为在受体细胞中高频出现的同义密码子。
(2)宿主细胞的选择:除了改变外源基因以外,还可以在表达系统中共表达稀有密码子tRNA基因,以提高宿主细胞内的稀有密码子tRNA的丰度,从而提高外源基因的表达效率。
(3)翻译起始效应:mRNA浓度是翻译起始速率的主要影响因素之一,密码子直接影响转录效率,决定mRNA浓度。如单子叶植物在“翻译起始区”的密码子偏好性大于“翻译终止区”,暗示“翻译起始区”的密码子使用对提高蛋白翻译的效率和精确性更为重要,因此,通过修饰编码区5'端的DNA序列,来提高蛋白质的表达水平有可能实现。
(4)影响蛋白质的结构与功能基因的密码子:偏好性与所编码蛋白质结构域的连接区和二级结构单元的连接区有关,翻译速率在连接区会降低。哺乳动物MHC基因的密码子偏好性与所编码蛋白质的三级结构密切相关,并可通过影响mRNA不同区域的翻译速度,来改变编码蛋白质的空间构象。其研究所选取的蛋白质结构单位是蛋白质指纹,它在很大程度上也是一种蛋白质功能单位,表明密码子偏好性与蛋白质的功能密切相关。改变密码子使用模式可有目的地改变特定蛋白质的结构与功能。
综上所述,为了使外源基因在受体细胞中高效、忠实地表达,要充分注意外源基因的密码子的组成、氨基酸的组成以及受体菌本身的遗传背景等多方面的因素。