序列片段的拼接方法

四、序列片段的拼接方法

无论是逐步克隆测序还是全基因组鸟枪法测序,都存在DNA片段拼接组装的难题。目前DNA自动测序仪每个反应只能测序500 bp左右,如何将这些片段拼接成完整的DNA序列呢?Lander和Waterman(1988)提出利用“指纹”随机克隆进行基因组作图,它为用计算机对鸟枪法大量随机测序DNA片段进行自动拼接提供了可能。这种技术不仅避免了传统的亚克隆策略的大量烦琐工作,还使测序具有一定的冗余性(即一定数量的重复),保证了测序中每个碱基的准确性。

目前DNA序列拼接应用的主要软件是由美国华盛顿大学Phil Green实验室开发的Phred-Phrap-Consed系统。Green也因研制该系统而在人类基因组研究史上占有一席之地。Phred(测序器)是一种碱基识别系统,它根据自动测序仪信号按顺序识别碱基,估计测序错误率等。Phrap(组装器)是根据Phred的结果从头组装由鸟枪法产生的不同短序列。Consed(校对器)与Phrep组成一个有机整体,利用Phrap组装的序列由Consed编辑、整合人工校对结果等。目前有36个国家900多个实验室在使用上述系统。非营利研究机构或个人可申请免费利用该系统。

Phrap拼接鸟枪法序列的方法也是通过列线查找匹配序列。其列线算法采用的是Smith-Waterman算法和Needleman-Wunsch算法(可选择),替换矩阵(缺省为BLOSUM 50)、空位设置罚值和空位扩展罚值(缺省值分别为-12和-2)、E值(缺省值1.0)等都在列线比对中被应用。Phrap的算法中使用了一个新参数值(Z-score)。当数据库序列长度变化很大时(实际情况往往如此),理论分析和经验研究都表明列线值敏感性下降,即判别由随机性产生匹配的能力下降。Z值的引入便是为了解决这一问题。Z值定义如下:

其中s和n为原始列线值和数据库序列长度,f(n)和g(n)分别是序列长度为n的序列列线值平均数和变异度。由此,Z值的平均数为零,标准差为1,与序列长度n无关。相对而言,Z值与数据库大小无关,这一特性与原始列线值s相似,但与E值不同,所以,Z值是一个比s值更合理的指标尺度。