新一代分子标记
第三代分子标记是基于基因组DNA、cDNA 序列的新型分子标记,不仅具有数目多、适于高通量检测的优点,而且能够找到稳定可靠的基于表达基因的特定分子标记,可以更好地对基因功能的多样性进行更直接的评估,极大地方便了对目标基因的分子标记辅助选择。
表达序列标签(Expressed Sequence Tags,EST)是长150~500 bp 的基因表达序列片段。EST 技术是将mRNA 反转录成cDNA 并克隆到质粒或噬菌体载体构建成cDNA 文库后,大规模随机挑选cDNA 克隆,对其5′或3′端进行一步法测序,所获序列与基因数据库中已知序列进行比较,从而获得对生物体生长、发育、代谢、繁殖、衰老死亡等一系列生理生化过程认识的技术。EST 序列对发现、克隆和定位新基因有重要的作用,而且为以PCR技术为基础开发各种新型功能分子标记提供了重要的资源。
EST 标记是根据EST 特征序列的差异而建立的分子标记,存在多种类型(赵雪等,2014;李小白,2006):
(1)EST-PCR 和EST-SSR,这一类标记以PCR 技术为核心,操作简便、经济,是目前研究和应用最多的一类;
(2)EST-SNP (单核苷酸多态性),它是以特定EST 区段内单个核苷酸差异为基础的标记,可依托杂交、PCR等多种手段进行检测;
(3)EST-AFLP,它是以限制性内切酶技术和PCR相结合为基础的标记;
(4)EST-RFLP,它是以限制性内切酶和分子杂交为依托,以EST 本身作为探针,与经过不同限制性内切酶消化后的基因组DNA 杂交而产生的。其中,开发最多、应用最广的标记类型有EST-SSR、SNP等。
1.EST-SSR标记
采用传统方法开发SSR 标记的过程中,要求的技术平台比较高,需要经过文库的构建、含有SSR 克隆的识别和筛选、序列测序并分析、引物设计、PCR 引物检测、应用SSR标记六步,步骤烦琐而且还需要投入大量的人力物力。目前,公共数据库中的EST数量呈指数级的速度增长,美国国立生物技术信息中心(National Coalition Building Institute,NCBI)、欧洲分子生物学实验室(European Molecular Biology Laboratory,EMBL)和日本DNA数据库(DNA Data Bank of Japan,DDBJ)三大公共数据库存储了不同物种的大量EST序列,这些快速增长的EST数据为分子标记的开发提供了丰富的序列资源。通过利用计算机软件,可以从GenBank 等数据库中将这些序列下载并识别出其中的SSR、SNP 等潜在的多态性位点。
(1)EST-SSR标记的开发策略
①EST数据的获得与前期处理
从数据库中直接获取的EST中包含一些低质量片段(<100 bp),同时包含着带有少量载体序列及末端存在polyA/T“尾巴”的序列,影响相关信息的分析,所以在开发标记之前应去除这些DNA 片段。现在有很多软件可以用来去除“尾巴”和屏蔽载体序列,如EST-trimmer、DNAstar、cross-mateh (www.phrap.org)等(陈全求等,2008)。
②EST序列的拼接和聚类
EST 是随机选取测序的,因此不可避免地导致同一基因重复测序的冗余现象。因此,在鉴别和利用EST-SSR 标记时,使用无冗余的EST 数据库的SSR 标记才能更真实地反映SSR 在基因组转录部分的密度。因此,挖掘EST-SSR 序列之前,需要对EST序列进行聚类分析(EST clustering),将来源于同一基因的EST 序列合并成单一序列簇。一个有效的EST 聚类方法能够大大减少EST 数据的冗余程度,并且通过序列拼接产生EST 一致序列(con-sensus),从而有效提高EST 数据的准确性。目前通常用TigAssembler、stadenPackage和Phrap 等软件进行拼接和聚类来去除冗余的EST 序列,从而获得高质量的EST 数据。在EST 筛选分析中,根据实际情况选择适当严谨程度的软件,如果严谨程度太高就会产生大量漏拼,反之,则会导致大量的错拼。
③SSR位点的搜索
在经过前期处理后对序列进行组装,去除冗余序列和延长转录片段的长度,利用软件根据一定的鉴定标准搜索SSR,根据返回结果分析EST 中SSR 的频率、特点和分布。搜索SSR 的软件有很多,表6-1 中归纳了SSR 位点搜寻专用软件。因此,在研究中将不同的软件结合起来使用,相互验证,可以获得更可靠的结果。不同软件所采用的算法标准和严谨程度并不统一(如搜索的重复单元长度不同或SSR 位点判别标准不同等),搜索到的结果也不尽相同。在应用中可根据实际情况选取合适的搜索软件或几个软件联合使用发掘EST-SSR位点。
表6-1 主要SSR位点搜索软件及其特点(张利达等,2010)

④EST-SSR标记的引物设计
根据搜索到的EST-SSR 位点的侧翼序列设计引物,应尽量选择重复次数较多的SSR,从而提高检测的效率。此外,由于编码区碱基序列较为保守,应尽量使用在不同材料间变异较大的3′或5′端非编码区段,因为这些区域变异性较高(Scott et al,2000)。现在最常用的引物设计软件有Primer3、Primers、OLIGO。在设计引物时,要严格遵守引物设计原则,对GC 含量、退火温度、引物长度、产物长度这些重要的参数要限定标准,最终使设计的每对引物都能够和目标区域特异性地结合。
⑤PCR检测EST-SSR引物的有效性
引物设计好后,通常是通过PCR来检验其有效性,分析SSR位点在不同品种中是否存在长度多态性。利用EST数据库序列信息开发SSR 为当前的成熟方法,但同时也存在一定局限。由于EST-SSR 较基因组序列保守性高,意味着相应的EST-SSR 序列的多态性较低,此方法需要用试验手段分析大量的SSR位点才能筛选到具有多态性的EST-SSR标记。
(2)EST-SSR标记的特点
基于EST 序列开发的SSR 标记同基于基因组文库开发的SSR 标记相比有很多内在的优点:
①由于利用的是公共序列,省去了SSR 引物开发过程中的克隆和测序步骤,EST-SSR标记的开发过程简单,成本低;
②EST-SSR标记来自比较保守的转录区,因此其在相关物种之间具有很高的可转移性和通用性,使之在比较基因组学研究、合并不同遗传图谱、定位候选基因等研究中比基因组SSR更有价值;
③EST-SSR反映了基因的编码部分,可以直接获得基因表达的信息,为功能基因提供可靠的标记,这有可能对决定重要表型性状的等位基因进行直接鉴定;
④EST-SSR标记通常都代表着某种功能,这种功能可以通过序列同源性比对获得;
⑤EST-SSR高质量标记的比率要比基因组SSR高。
(3)EST-SSR标记的应用
采用EST 分子标记作为分析手段对相关物种基因组进行比较分析,为发掘同源基因,研究复杂的生理和病理过程,从而认识生物学机制的普遍性以及分析种内遗传背景的差异和物种间进化关系、比较作图等方面的研究,都具有重要的应用价值。
①遗传图谱构建
随着植物基因组学研究的不断深入,构建功能基因图谱已成为植物基因组学的研究热点。由于EST-SSR 标记来源于基因组编码区,可能与基因的功能密切相关。与基因组SSR标记相比,EST-SSR标记并不集中于染色体着丝粒附近,而是分布于基因组的基因富集区域,遗传图谱中EST-SSR标记的分布可以反映出基因在基因组的实际分布情况。
②比较作图
比较基因组学是通过对一种生物相关基因组的研究来理解、诠释另一种生物的基因组。基因组比较作图是利用共同的遗传标记对相关物种进行物理或遗传作图,并比较这些标记在不同物种基因组中的分布。由于EST-SSR标记物种间的良好通用性,为此其在比较作图方面具有独特优势。通过比较不同物种间对应EST-SSR引物扩增产物的相似性及标记在基因组中的位置可以进行基因组共线性分析。用EST-SSR标记进行比较作图揭示染色体或染色体片段上的基因及其排列方式的相同或相似性,有助于在不同物种间互相利用遗传信息,从而研究不同物种的基因组结构和功能,解释物种演化的相关性。
③物种遗传多样性研究
遗传多样性是生物多样性的基础和重要组成部分,EST-SSR标记为物种遗传多样性的分析研究提供了一条新途径。生物多样性分析的核心就是遗传多样性,即基因多样性,而EST-SSR正好显示的是基因转录部分,通过EST-SSR位点的多态性分析可揭示不同品种或材料间的遗传差异。当EST-SSR用于物种资源评价时,它表现的是转录区的差异,因而能够反映出“真实的遗传多样性”。(https://www.daowen.com)
④分子标记辅助选择
在应用于分子标记辅助选择时,当EST-SSR位于控制目标性状的基因内部时,可以进行直接的等位基因选择。
⑤分子标记开发
EST-SSR作为基因的一部分,其侧翼序列保守程度较高,在不同物种间具有良好的通用性,从一种物种开发的EST-SSR标记往往可用于其他物种的相关研究。因此,对于尚未进行EST测序的物种,利用其近缘物种已有的EST-SSR标记或EST序列已成为开发目标物种SSR标记的有效途径(Sim et al,2009)。
(4)EST-SSR的不足之处
EST-SSR作为一种新型的分子标记,尽管在相关研究中具有多方面的利用价值,但同时也存在一定的缺陷:目前注册的EST 为一次性测序,其中存在着一定的错误信息;mRNA 存在选择性剪接,事实上利用软件进行序列拼接时错拼是很难避免的;EST 研究中有相当一部分为未知基因,利用这些EST开发的分子标记,不易很快与功能建立联系;由于生物信息学的有关软件的不同算法以及设置的参数严谨度不同,得出的结果不尽相同,如SSR出现的频率等;基于PCR 的EST分子标记是以长度多态性为基础的,其分辨取决于高分辨率的凝胶,然而由于高频率非长度变异的等位基因的存在,这些信息检测存在一定难度(Decroocq et al,2003),EST的保守性在一定程度上也限制了EST 标记的多态性。
2.SNP标记
(1)SNP标记的定义与分类
单核苷酸多态性(single nucleotide polymorphisms,SNP)是指由单个核苷酸的变异而引起基因组水平上的DNA 序列多态性,是由单碱基的转换、颠换、插入和缺失等现象引起的。主要以两种形式出现:一种形式是单个同类碱基间的转换(胞嘧啶和胸腺嘧啶之间的转换或腺嘌呤与鸟嘌呤之间的转化);另一种形式是颠换,即嘌呤与嘧啶之间的互换。从原理上分析,突变处的碱基可以是C、G、A、T,而实际上大约2/3的SNP标记是由单个同类碱基的转换引起的,多发生在T和C之间(杜玮南等,2000)。1996年,SNP作为新一代分子标记被美国学者Lander提出。
在基因组的所有遗传变异中,SNP多态性占了很大的比例,其中任意一种等位基因在群体中出现的频率不少于1%(Alain et al,2002),占所有已知多态性的90%以上。根据SNP 在基因组分布的位置可分为基因编码区SNP(cSNP)、基因间SNP (iSNP)和基因周边SNP(pSNP)等三类。由于cSNP在外显子内的变异率仅为周围序列的1/5,因此数量相对比较少,但它在生物育种和医学遗传疾病的研究中具有重要意义。
(2)SNP标记的特点
与前几代分子标记相比,SNP标记是直接对单核苷酸的差异进行检测,而不是以DNA片段的长度变化来区分个体间遗传物质的差异。除此之外,SNP还具有以下几个特征(唐立群等,2012;李兆波,2010):
①高密度性:SNP标记广泛分布在动植物的基因组中。在人类基因组中,大约每1 000 bp就有1 个SNP;在大豆基因组中,大约每272 bp 就有1 个SNP;玉米SNP 频率更高,大约每57 bp就有1个SNP。
②高分辨率:检测可以达到单个碱基,更适合精确的遗传多样性分析和高密度的遗传连锁图谱构建。
③二态性:理论上,在1 个二倍体生物中,每个SNP 位点都应该有2、3、4 个碱基,但是实际上后两种情况非常少见,甚至可以忽略,即SNP通常都是二等位基因的,因此在检测时只需做一个“+/-”或“全或无”的分析方式,有利于SNP 的检测分析方法实现自动化。
④富有代表性:某些位于基因内部的SNP有可能影响蛋白的结构和表达水平,说明它们有可能代表基本遗传机理中的某些作用因素。
⑤遗传稳定性好:SNP 具有高遗传稳定性,尤其是处在编码区的SNP,遵循孟德尔遗传规律,与传统标记相比准确度及重复性均较高,更适合进行大样本检测分析。SNP标记技术,主要包括SNP的开发和SNP基因检测分型两个方面。
(3)SNP标记的开发
SNP标记的开发主要有两种途径:第一种是采用试验技术开发SNP标记,主要指DNA扩增片段直接进行测序的方法,这是最简单的开发SNP标记的方法,这种方法的检出率可达99.99%(Shendure et al,2008),主要根据EST 序列或单拷贝基因组序列设计引物,将扩增产物进行测序,然后直接进行序列比对,这个方法假阳性率较低,但是工作量很大,成本相当高,所以目前只用于特定SNP标记的开发;第二种方法是利用数据库和生物信息学开发SNP标记,现今主要从核酸数据库(基因组文库和EST文库)中筛选SNP标记,利用生物信息学软件自动识别多态性位点,这种方法成本相对较低,而且十分有效。
(4)SNP检测分型技术
基因分型(Genotyping)是利用生物学检测方法测定个体基因型(Genotype)的技术,又称为基因型分析(Genotypic assay)。经典SNP 检测方法分为两大类:一类是以传统凝胶电泳为基础的检测方法,包括限制性酶切片段长度多态性法(PCR-RFLP)、单链构象多态性法(SSCP)、变性梯度凝胶电泳(DGGE)、等位基因特异性PCR(AS-PCR);另一类检测方法是近年来发展起来的,高通量、自动化程度较高的检测SNP 的方法,包括DNA 测序法、DNA 芯片技术、飞行质谱仪(MALDI-TOFMS)、变性高效液相色谱(DHPLC)等(Fan et al,2006;刘颖等,2011;徐梦琦,2015)。下面介绍几种常用技术。
①DNA测序法
DNA测序法是对SNP进行分型的最直观有效的方法,其准确程度高达95%以上。DNA测序法就是直接对不同个体的基因或基因片段进行测序,根据测序结果比较各个序列中存在的碱基差异,从而确定SNP位点而达到分型的目的。这种方法可以直观地得到SNP位点的位置和突变的类型,是最有效的SNP分型方法。直接测序法还可以对已经定位的序列标签位点进行再次检测,从而进一步确定SNP位点。直到现在,直接测序法仍是对SNP进行检测和分型的最佳判定方法(许阳等,2004)。直接测序法的流程主要包括PCR 扩增、目的片段回收纯化、测序分析三个步骤。它的缺点主要是成本较高,工作量大,而且杂合子不易进行分型。然而随着测序技术的自动化进程越来越快,测序成本在不断地降低,直接测序法将会更多地应用于SNP的分型中。
②基因芯片技术
基因芯片(Gene chip)又称DNA 微阵列(DNA Microarray),其测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定。基因芯片是在基因探针的基础上研制出来的,通过应用平面微细加工技术和超分子自组装技术,把大量分子检测单元集成在一个微小的固体基片表面,用荧光标记正常DNA 与突变DNA,分别与两个基因芯片杂交,它们将产生不同的杂交图谱,然后用激光共聚焦显微镜扫描载体基片,由计算机收集荧光信号,然后对每个荧光强度数字化后进行分析,从而用于SNP的鉴定(周海飞等,2001)。在基因芯片的研究中,美国Nanogene 公司研制了Nanochip 电子微阵列,使数小时的杂交反应缩短到20~30 s。基因芯片技术可同时对大量的核酸和蛋白质等生物分子实现高效、快速、低成本的检测和分析。
③Taqman技术
TaqMan技术的理论基础是荧光共振能量传递(FRET),FRET是指一对称为供者—受者的染料,在相互接近时供者的荧光会因接近受者而被淬灭,相互分离时则能检测到供者的荧光。TaqMan 探针是在两端分别结合上荧光发光基团——荧光吸收基团的一种探针,这种探针在正常状态下不会发出荧光,当探针与目的片段结合时,会激发TaqMan DNA 聚合酶的3′外切酶活性,切下5′端的荧光发光基团,从而检测到荧光。如果目的片段中存在碱基突变,探针与目的片段的结合程度就会下降,从而影响外切酶活性,最终导致检测到的荧光量降低,TaqMan 探针法就是利用这一点来检测SNP 位点(Kim et al,2007)。结合PCR 技术的TaqMan 探针法简单快速,能够用于SNP 位点的快速分型,但是探针的设计成本较高,而且受Taq酶活性的影响较大。
④变性高效液相色谱技术
变性高效液相色谱(DHPLC)是一项在单链构象多态性(SSCP)和变性梯度凝胶电泳(DGGE)基础上发展起来的新的杂合双链突变检测技术,可自动检测单碱基替代及小片段核苷酸的插入或缺失。DHPLC 检测变异的基本原理如下:把未知的DNA 与双链DNA混合,将工作温度(柱温)升高,使DNA 片段开始变性,部分变性的DNA 可被较低浓度的乙腈洗脱下来;退火后形成同源双链和异源双链,由于异源双链DNA 的结合能力低,与同源双链DNA 的解链特征不同,在相同的部分变性条件下,异源双链因有错配区的存在而更易变性,会先形成单螺旋DNA 从色谱柱流出,从而在色谱图上出现两个保留时间较短的色谱峰,表现为双峰或多峰的洗脱曲线,依据此现象很容易从色谱图中判断突变碱基(欧阳建华,2003)。DHPLC 的优点在于能够检测未知突变,而且成本较低,适用于大批量样本的自动化筛选,但是这种方法不能确定SNP位点的位置和突变类型。
一个理想的检测SNP的方法必须具备以下优点:适合自动化操作,简便快速;分析费用低,特殊试剂少;反应要紧密,不纯的样品也可以分析;数据分析简单,易于自动化;反应的通量大而灵活。每种检测方法各有所长,现在为止还没有出现一个符合上述全部条件的理想方法。因此,在实际研究工作中,研究者应根据研究经费、检测通量、所需仪器和不同方法的特点综合考虑选择合适的检测技术。理想的方法必须依赖生物化学、工程学和分析软件的进步。
(5)SNP标记的应用
①SNP分子标记有无法比拟的优势。首先,单核苷酸多态性本身是生物遗传变异的根本原因,位于基因内部的SNP可能直接影响相关基因的表达水平和蛋白质结构,对于研究生物体的形态或性状变异以及适应性进化具有先天的优势。
②由于不同SNP位点在染色体上的连续分布,同一染色体上所有SNP位点可作为一个整体或一个单倍型(Haplotype)进行遗传。基于单倍型的分析比基于单个SNP分析可提供更多的生物学信息,且在分析SNP与表型相关性时更为有效(Salisbury et al,2003)。
③来自表达序列标签的EST-SNP 除具备传统的SNP 标记的优势外,还可能与功能基因表达有直接或间接的关系,从而强化了SNP 标记在遗传研究中的应用。同时由于ESTSNP来自转录区,具有较高的保守性,在比较不同物种基因组时非常有利,因而被广泛应用于比较基因组学、进化基因组学和候选基因的筛选等方面(周锦等,2011)。
SNP标记作为目前最具发展潜力的分子标记,因其在基因组中数量多、分布广,分析系统自动化程度高,通量大,速度快,易于建立标准化操作,更适合于大规模基因分析研究,已被广泛应用于遗传图谱的构建、DNA 指纹鉴定、基因精细定位、分子标记辅助选择、全基因组关联分析(GWAS)及其检验、群体遗传学分析、人类疾病诊断、物种起源进化与系统发育研究等方面,对分子遗传学、医学、作物遗传育种、生物进化等领域将产生不可估量的影响。
目前,全基因组SNP标记的开发策略仍依赖于基因组草图搜索法,即通过基因组不同染色体的测序结果发现SNP位点,在植物界的研究仅限于玉米、水稻、小麦、大豆、西红柿和拟南芥等少数农作物和模式植物中,再加上SNP标记的开发费用仍相对过高,这在很大程度上制约了SNP技术的应用。但作为一种崭新的生命科学研究工具,SNP标记具有不可替代的优势,随着高通量测序技术的快速发展和完善,及新的发掘软件的不断研发和成熟,SNP标记的开发检测费用可逐步降低,相信SNP标记技术会得到更加广泛的应用,必将对生命科学各研究领域的发展产生深远影响。