4.5.4 DNA序列的生物信息学分析

4.5.4 DNA序列的生物信息学分析

在DNA序列测定完成后,下一步的工作就是对所获得的DNA序列进行生物信息学分析。DNA序列的生物信息学分析一般包括DNA序列的检索、DNA序列的基本分析、限制酶切位点分析、测序结果分析、引物设计、序列比对、质粒作图、结构域(motif)查找等方面的内容。要求软件的算法简洁、效率高和可移植性好。目前Web站点可以对基因序列提供计算前的分析,并且这些站点允许使用者下载到客户机上分析自己的序列。

1.DNA序列的检索

DNA序列的检索有两种基本方式:一种是基于文本的查询,如将基因的数据库收录号、标识符、名称、功能等作为关键词,提交给检索系统进行匹配查找;另一种是基于序列的搜索,即用一条核酸序列在数据库中进行相似性检索,找出核酸序列数据库中与检测序列具有一定程度相似性的序列。现在以上两种数据库搜索方式都被生物学研究人员普遍采用,但它们具有完全不同的概念,所要解决的问题、所采用的方法和得到的结果均不相同。因此,很多研究者将第一种方式称为数据库检索或数据库查询,而将第二种方式称为数据库搜索。目前常用于检索的核酸序列数据库是国际上三大主要核酸序列数据库GenBank(http://ncbi.nlm.nih.gov)、EMBL(http://www.embl.org/)和DDBJ(http://www.nig.ac.jp)。GenBank是美国国家健康研究所于20世纪80年代初委托Los Alamos国家实验室建立,后交给美国国立生物技术信息中心(NCBI)。EMBL数据库是欧洲分子生物学实验室(Europe Molecular Biology Laboratory)于1982年创建,现由欧洲生物信息学研究所负责管理。DDBJ(DNA Data Base of Japan)创建于1986年,由日本国立遗传研究所负责管理。1988年,GenBank、EMBL和DDBJ共同成立国际核酸序列联合数据中心,建立了合作关系,三者每天相互交换数据,使三个数据库的数据同步更新。

2.DNA序列的基本信息分析

核酸序列的相对分子质量、碱基组成与分布等分析可通过DNAMAN、DNAstar、BioEdit等软件进行。

3.限制酶切位点分析

DNAssist 1.0是一款能进行限制酶切位点分析的软件,它不但可以对线状序列进行分析,对环状的序列也可以找出酶切位点。DNAssist在输出上非常完美,除了图形显示外,还有列表方式,列出有酶切位点和没有酶切位点的序列。同类软件还有Primer Premier 5.0、Vector NTI Suite 6.0、DNAMAN等多种软件。

4.测序结果分析

送交专业公司进行测序的结果返回后,需要对所测序列进行一系列后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。如常使用BioEdit和DNAMAN等软件直接打开测序结果文件进行观看,并将序列以文本或fasta格式输出。在对测序结果进行进一步分析之前,可使用NCBI的VecScreen系统(http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)确定载体序列,并将载体序列去除。

5.序列比对

序列比对包括部分完全相同序列查找和序列相似性排列两类。具有这一功能的软件或软件包很多。Gene Doc能用亮丽的色彩来区分相互间序列的同源性,输出的格式一目了然,而且可以报告为进化树的格式。选择项多,可以达到所需的要求,功能多而强。同类的有著名的序列比对软件MACAW。另外一款完全免费的可以运行在PC机上的多序列比较软件是Clustal X,它是用来对核酸与蛋白序列进行多序列比较(multiple sequence alignment)的软件。多序列比较在分子生物学中是一种基本方法,用来发现特征序列,进行蛋白质分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,进行分子进化分析,Clustal X可达到这些方面的要求。