最长ORF法等:基于编码区特性

二、最长ORF法等:基于编码区特性

基因区域或蛋白质编码区的识别,特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。将每条链按6个阅读框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现。预测基因组的全部编码区(或称开放阅读框)的方法概括起来也可以分为三类:①基于编码区所具有的独特信号,如起始密码子、终止密码子等;②基于编码区的碱基组成不同于非编码区的碱基组成,这是蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的;③通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。前两类方法主要是利用编码区的特性来寻找,本小节对这两类方法做简单描述。

最长ORF法:

在细菌基因组中,蛋白质编码基因从起始密码ATG到终止密码平均有100 bp,而300 bp长度以上的ORF平均每36 kb才出现一次,所以只要找出序列中最长的ORF(>300 bp)就能相当准确地预测出基因。

在真核生物中,全长cDNA的编码区一般也可以用最长ORF法,如水稻的3万多条全长cDNA的编码区预测(见KOME DATABASE)。但是,要十分小心的是,这一预测有时也会出错。例如,以下全长cDNA的编码蛋白序列应为4-029B,而非最长的4-029A。

利用编码区与非编码区密码子选用频率的差异进行编码区统计学鉴别的方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group研制的一种通用核酸、蛋白质分析软件包)的TestCode、美国波士顿大学的GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。具体方法描述可参阅相关程序说明。

CpG岛一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计中发现,几乎所有的管家基因及约占40%的组织特异性基因的5′末端都含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示此处可能存在基因。另外,AT含量也可作为编码区的批示指标之一。