5.5.4 电子克隆获取目的基因
表达序列标签(expressed sequence tag,EST)是从cDNA克隆中随机挑选出来进行一次性测序的结果,一般长200~600 bp。由于基因表达调控作用不同,同一个基因的mRNA剪接位点和方式不同,因此同一个基因的全长cDNA可能包含多个EST。EST既代表了基因cDNA的某一区段,也表征了成熟mRNA可能的剪接方式。基于EST的电子克隆策略,是近年来发展起来的一种快速克隆基因的新技术。随着EST数据库的进一步完善,电子克隆策略已成为克隆新基因的重要方法,并成功地应用于人类基因组的研究。
1.电子克隆的基本原理
相近的物种在核酸序列上有相似性,相近物种中的同源基因序列在一定程度上可以代表目的基因的序列。可代表程度与两序列的相似度直接相关,加上遗传密码的简并性,这种混同在理论上是可行的,但需要做同源性检验以克服主观因素的影响。
利用计算机来协助克隆基因,称为电子克隆(in silicon cloning)。即采用生物信息学技术组装延伸EST序列,获得基因的部分乃至全长cDNA序列,进一步利用RT-PCR的方法进行克隆分析、验证。
2.电子克隆过程
电子克隆技术是对生物学数据库中EST数据库、核酸序列数据库、基因组数据库,采用同源性序列比对和归类分析、重叠区域组装和拼接等方法延长EST序列,直至没有与之同源的序列可供拼接为止,所得到的序列可以认为是相对应基因的全长cDNA,根据所得的cDNA序列设计包括开放阅读框两端的引物,进行RT-PCR克隆出相应基因的方法。
1)EST序列的获取
电子克隆的第一步是获得感兴趣的EST,有以下三种方法。
(1)大规模测序大量EST。
(2)从EST库中发现感兴趣的EST,在dbEST数据库中找出EST的最有效途径是寻找同源序列,标准:长度不小于100 bp,同源性在50%~85%。可通过使用BLAST检索实现,其中最常用的如NCBI(National Center for Biotechnology Information)的GenBank。
(3)通过实验获得与某一性状相关的EST。
2)同源序列比对组装重叠群
将检出序列组装为重叠群(contig),以此重叠群为被检序列,重复进行BLAST检索与序列组装,延伸重叠群系列,重复以上过程,直到没有更多的重叠EST检出或者说重叠群序列不能继续延伸,有时可能获得全长的基因编码序列。
3)获得基因序列
获得这些EST序列数据后,再与GenBank核酸数据库进行相似性检测,假如有精确匹配基因,将EST序列数据按EST六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分析。基因分析的结果大致有三种:第一是已知基因,是研究对象为人类已鉴定和了解的基因;第二是未经鉴定的新基因;第三是未知基因,这部分基因之间无同种或异种基因的匹配。
4)RT-PCR分析验证
将拼接出的cDNA即新基因和未知基因进行可能的开放阅读框分析,设计包括开放阅读框两端的引物,通过RT-PCR扩增候选基因进行分析和验证,然后进行进一步的生物学研究。
5)电子克隆与传统克隆的比较
传统的基因克隆方法是利用基因特异性引物大量扩增cDNA末端或构建cDNA文库,采用原位杂交进行筛选,实验进程长、成本高、得率低;运用电子克隆的方法延伸得到的cDNA几乎包括了所有疑似为目的基因的cDNA序列,具有快捷、成本低、针对性强等特点。传统的方法如同小规模地捕捞一条或几条鱼,电子克隆与之相比就如同集约化地捕捞一群鱼。
近年来EST数据库容量扩增迅速,基于EST数据库由一个已知的基因利用生物信息学的方法进行功能基因的电子克隆已经成为目前最常用的基因克隆手段,许多新基因就是通过EST序列的拼接发现的。利用EST资料的电子克隆是克隆功能基因的新途径,但也受到dbEST的EST数量和质量的限制,因此在EST资料非常丰富的模式物种(如人、鼠等)中应用较多。EST数据库的迅速扩张,已经并将继续导致识别与克隆新基因策略发生革命性变化。
3.电子克隆的应用
电子克隆是基于EST和基因组数据库发展起来的基因克隆新技术,利用生物信息学计算机技术对EST或基因组数据库进行同源性比较分析,整理拼接出新基因的编码序列,确认完整后根据序列设计引物进行RT-PCR验证获得全长基因。
1)利用EST数据库进行电子克隆
利用EST序列检索同源性序列,并由此拼接cDNA序列以期挖掘新基因。基于EST数据库进行电子克隆的步骤如下:
(1)选择其他物种尤其是亲缘关系较近的物种的某基因全长cDNA序列或EST序列为查询探针,或者以该物种某基因EST为查询探针,搜索EST数据库进行BLAST比对,得到许多EST序列,从中寻找感兴趣的EST。
(2)把感兴趣的EST基于GenBank中的非冗余数据库进行BLAST分析,判断是否是已知基因的一部分,筛选出新颖的EST。
(3)将筛选出的EST在该物种的EST数据库中进行搜索,找到部分重叠的EST进行拼接,经严格聚类分析,尽量避免含有旁系同源基因,拼接后产生序列重叠群,相当于实验中的一部分cDNA步移工作。
(4)以新获得的重叠群为新的查询探针,继续搜索EST数据库,直到没有新的EST可供拼接为止。将拼接得到的序列对非冗余数据库进行搜索,以证明是一个全新的序列。这种策略也存在一定的局限性,许多拷贝数较低的基因很难被涵盖在EST数据库中,这些基因只能通过分析基因组序列才能被发现。
EST序列的拼接是电子克隆中非常重要的环节,用于EST序列的拼接软件有很多。另外,还可以将序列提交到NCBI的Unigene数据库。数据库中除包含已确定的基因以外,还包括数以万计的EST,每个簇包含唯一的非冗余的基因序列、表达的组织类型和基因图谱位点。现在数据库中已经包括大量模式或重要生物的EST序列,其中人类、老鼠和水稻的序列最多。通过Unigene系统可以很方便地进行序列的拼接得到新基因。
2)利用基因组数据库进行电子克隆
目前,已完成人类基因组及其他许多模式物种、重要物种基因组测序工作。在全基因组已经测序的物种中,基于基因组序列的新基因预测软件的开发,为利用生物信息学的方法克隆新基因带来了新的策略,即研究整个基因组序列以推测其中可能尚未发现的基因。基于基因组数据库的电子克隆大致步骤如下。
(1)选择亲缘关系较近物种的某基因全长cDNA序列或EST序列为查询探针,进行BLAST分析,筛选出同源性较高含外显子的该物种基因组重叠群或BAC克隆,并获得基因组序列,同时根据比对结果对基因组序列可能造成的移码测序错误进行修正。
(2)将这些外序列根据内含子和外显子的剪接特征“GU…AG”,通过人工拼接或通过基因预测软件如GenScan、GeneFinder和FGENESH等进行预测,得到可能的新基因序列。
(3)将可能的新基因序列进行BLAST分析,检验其新颖性。
(4)将新基因序列提交到dbEST数据库进行BLAST分析并延伸,确认真实度。
4.全长cDNA的判断
需要对所获得的cDNA序列进行判断,确定其是否为全长的cDNA序列。
1)从5'端序列上进行判断
(1)对于同源全长基因的比较,通过与其他生物已有的对应基因末端进行BLAST来判断。
(2)对于无同源基因的新基因,一方面判断编码框架是否完整,无终止密码的则考虑有保守的Kozak序列;另一方面判断是否有转录起始位点,一般在5'帽结构后有一段富含嘧啶的区域。另外,如果cDNA5'序列与基因组序列中经S1酶切保护的部分相同,则可以确定获得的cDNA是全长的。
2)从3'端序列上进行判断
(1)对于同源全长基因的比较,方法同5'端。
(2)编码框架的下游有终止密码。
(3)有一个以上的poly(A)加尾信号。
(4)无明显加尾信号的则也有poly(A)尾。
同源全长基因的比较可以用BLAST比对或多重序列比对软件来实现,ClustalW是目前使用最广泛的多重比对软件,使用者可以将序列提交到http://www.ebi.ac.uk/clustalw/进行在线分析。如果确定得到的cDNA序列为全长的cDNA序列,这还只是在计算机上的“虚拟克隆”,最终还必须通过RT-RCR、序列测定和Northern印迹杂交等方法进行实验验证,以保证序列的准确性。但是,这种分析方法为实验研究提供了重要的线索,让随后的研究起到“事半功倍”的作用,极大地提高了工作效率。