结构基因的基本结构
原核生物的单个基因平均为1 000 bp左右,而真核生物的单个基因平均由7 000~8 000 bp组成。一条DNA分子可以包含多至几千个基因。基因由多个不同的区域组成。无论是原核生物基因还是真核生物基因,都可划分为转录区和调控区两个基本组成部分。转录区为转录起始点至转录终止点的区域,其中,从5′端至3′端顺序排列依次为:5′端非翻译区(5′UTR)、翻译起始密码(通常是AUG)、连续排列的密码子区(真核生物基因的这个区域为可翻译的外显子和不可翻译的内含子间隔排列)、终止密码(UAA或UAG或UGA)、3′端非翻译区(3′UTR)。转录的调控区位于转录起始位点5′上游,包含核心启动子、上游启动元件以及增强子等序列。
启动子(promoter)有时也称为核心启动子,是位于基因5′端非翻译区与转录起点上游紧邻的一段非转录序列,其功能是募集RNA聚合酶并令其识别和结合转录起点,启动基因的转录。一般而言,原核生物基因的核心启动子比较简单,位于转录起点上游约-10 bp和-40 bp之间,含有RNA聚合酶对转录模板链的识别序列(-10—-17 bp)和结合序列(-35—-40 bp);上游启动元件一般位于-40 bp和-60 bp之间,通常是促进转录的正控制蛋白结合位点。而真核基因的启动子较大,一般而言,核心启动子位于-30 bp和-40 bp之间,上游启动元件位于上游-70 bp的较大区域,存在众多与各类转录因子结合的顺式作用元件。
终止子(terminator)是位于基因3′端非翻译区(3′UTR)与转录终点下游紧邻的一段非转录核苷酸短序列,具有终止转录的功能,即一旦RNA聚合酶完全通过了基因的转录序列,终止子就可阻止RNA聚合酶继续向前移动并促使RNA聚合酶、DNA、RNA复合体的解体,释放出mRNA,使转录活动终止。典型的原核生物基因与真核生物基因的基本结构如图2-2和图2-3所示。
图2-2 典型的编码蛋白质的原核基因结构示意图
图2-3 典型的编码蛋白质的真核基因结构示意图
如图2-2和图2-3所示,原核基因与真核基因的结构组成大体相似,它们的转录都开始于启动子,终止于终止子。但是真核生物基因结构更复杂一些,其编码序列往往是不连续排列的,由外显子和内含子间隔排列,因此真核生物的基因有时也被称为间隔基因(splitting gene)或断裂基因(interrupted gene)。其中,外显子是指基因内编码蛋白质的DNA序列或可被翻译的序列或与成熟mRNA对应的序列。内含子是指基因内不编码蛋白质的DNA序列或可转录但不被翻译的序列或与成熟mRNA不对应的序列。不同的基因中内含子数目不等。第一个外显子紧邻5′UTR下游,最后一个外显子紧邻3′UTR上游。