5.4.2 cDNA文库的质量评价

5.4.2 cDNA文库的质量评价

细胞含有多种mRNA,mRNA根据其在细胞中的拷贝数即丰度,可分为低丰度mRNA、中等丰度mRNA和高丰度mRNA三种。高丰度mRNA,每种mRNA的拷贝数在1000~10000;中等丰度mRNA,每种mRNA的拷贝数在100~1000;低丰度mRNA,每种mRNA的拷贝数在1~15。cDNA基因文库中,相应于高丰度mRNA的cDNA克隆所占的比例高,分离起来较容易,而相应于低丰度mRNA的cDNA克隆所占的比例较低,分离比较困难。对cDNA文库质量的评价主要有两个方面。

1.文库的代表性

cDNA文库的代表性是指文库中包含的重组cDNA分子反映来源细胞中表达信息(mRNA种类)的完整性,它是体现文库质量的最重要指标。文库的代表性可用文库的库容量来衡量,它是指构建的原始cDNA文库中所包含的独立的重组子克隆数,库容量取决于来源细胞中表达出的mRNA种类和每种mRNA序列的拷贝数。在构建cDNA文库时,为了获得不同丰度的基因,可进行cDNA文库库容量理论估算:细胞总mRNA分子数/细胞中某种mRNA的拷贝数。

例如,某个细胞的mRNA分子数为500000,为获得某个丰度为每个细胞3500拷贝的mRNA基因,应构建的cDNA文库的最小值为500000/3500=143,即由143个克隆组成的cDNA文库理论上会包含一个此丰度的mRNA基因。而要获得丰度为每个细胞14拷贝的mRNA基因,应构建的cDNA文库的最小值为500000/14=35714。

如果构建一个完整的cDNA文库,也就是不论mRNA丰度高低,都要包含任一种mRNA的cDNA克隆,那么同基因组文库完整性经验值计算类似,满足最低要求的cDNA文库的库容量也可根据以下公式计算:

img

式中:n为细胞中某种(常指最稀少)mRNA的拷贝数;T为细胞中表达出的所有mRNA的总拷贝数;P为文库中任何一种mRNA序列信息的概率,通常设为99%;N为文库中以P概率出现在细胞中任何一种mRNA序列理论上应具有的最小克隆数。

例如,要获得人的成纤维细胞中低丰度(小于每个细胞14拷贝)mRNA,这类mRNA占mRNA总数的30%,约有11000种不同的mRNA属于这个范围,那么要包含所有这类低丰度mRNA基因在内的克隆数为

img

即需要构建170000个克隆子的cDNA文库。

2.序列的完整性

除了代表性外,文库中基因或cDNA片段的序列完整性(所含基因是否完整,是否是全长)也是反映文库质量的一个重要因素。在细胞中表达出的各种mRNA尽管具体序列不同,但基本上都是由三部分组成,即5'端非翻译区、中间的编码区和3'端非翻译区。非翻译区的序列特征对基因的表达具有重要的调控作用,编码序列则是合成基因产物——蛋白质模板。因此,从文库中分离获得目的基因完整的序列和功能信息,要求文库中的重组cDNA片段足够长以便尽可能地反映出天然基因的结构。