序列相似性比较法

三、序列相似性比较法

近年来相似性比较算法也被用于预测可能存在的基因。这一方法之所以可以预测新基因,主要有以下几个原因:

①大约已有50%的基因有了对应的EST,已知的蛋白质序列也越来越多。

②不少原核生物和酵母的全序列已经测定。研究表明:有将近一半的脊椎动物基因可通过BLAST在酵母、细菌和线虫的序列数据库中找到相似性相当高的序列。

③大多数EST都采用每个克隆分别从5′和3′测序的方法,克服了早期EST只代表3′外显子的缺点。

许多基因预测程序都已经整合了同源比较算法。下面举例说明如何通过人类EST数据库搜索和拼接与已知基因高度同源的人类新基因:

①以已知基因cDNA序列对EST数据库进行BLAST分析,找出与已知基因cDNA序列高度相似的EST。

②用Seqlab的Fragment Assembly软件构建重叠群,并找出重叠群的一致序列。

③比较各重叠群的一致序列与已知基因的关系(图3-8)。通常有两种情况,一种是EST足够多,可形成一个覆盖全长的重叠群,并以此拼接基因全长序列;另一种则是EST形成几个重叠群,可以拼接基因的几段序列。

④对编码区蛋白质序列进行比较,并与已知基因蛋白质的功能域进行分析比较,推测新基因的功能。

⑤用新基因序列或EST序列对STS数据库进行BLAST分析,如果某一EST(非重复序列)与另一STS有重叠,那么,STS的位置即明确了新基因的定位。

图3-8 应用已知基因对EST数据库进行同源性比较构建的两种EST重叠群情况