序列相似性比较法

2026年01月14日

版权

三、序列相似性比较法

近年来相似性比较算法也被用于预测可能存在的基因。这一方法之所以可以预测新基因，主要有以下几个原因：

①大约已有50%的基因有了对应的EST，已知的蛋白质序列也越来越多。

②不少原核生物和酵母的全序列已经测定。研究表明：有将近一半的脊椎动物基因可通过BLAST在酵母、细菌和线虫的序列数据库中找到相似性相当高的序列。

③大多数EST都采用每个克隆分别从5′和3′测序的方法，克服了早期EST只代表3′外显子的缺点。

许多基因预测程序都已经整合了同源比较算法。下面举例说明如何通过人类EST数据库搜索和拼接与已知基因高度同源的人类新基因：

①以已知基因cDNA序列对EST数据库进行BLAST分析，找出与已知基因cDNA序列高度相似的EST。(https://www.daowen.com)

②用Seqlab的Fragment Assembly软件构建重叠群，并找出重叠群的一致序列。

③比较各重叠群的一致序列与已知基因的关系（图3-8）。通常有两种情况，一种是EST足够多，可形成一个覆盖全长的重叠群，并以此拼接基因全长序列；另一种则是EST形成几个重叠群，可以拼接基因的几段序列。

④对编码区蛋白质序列进行比较，并与已知基因蛋白质的功能域进行分析比较，推测新基因的功能。

⑤用新基因序列或EST序列对STS数据库进行BLAST分析，如果某一EST（非重复序列）与另一STS有重叠，那么，STS的位置即明确了新基因的定位。

图3-8　应用已知基因对EST数据库进行同源性比较构建的两种EST重叠群情况