二、遗传学基础
生命体的基本单位是细胞,它是一个微型工厂,能够产生维持生命所必需的物质、能量,还可以排泄废物。这个细胞工厂需要数千种被称为酶的蛋白质维持其运转。一个普通人大约由100万亿个细胞组成,这些细胞都是由一个细胞演变而来的。每一个细胞都包含相同的遗传信息。人类子代和亲代之间无论在形态结构、生理活动和生化代谢等“性状”都十分相似,这种现象称为遗传(heredity)。我们的细胞核中存在一种被称为DNA的化学物质,它承载着细胞复制和合成酶所需的信息密码。但亲子之间也有差异,即变异(variation)。这种变异的一部分反映于DNA水平上的差异。如果这种DNA变异是稳定的,且可传至下一代细胞便称为突变。如果影响了健康便酿成遗传病。突变可发生于体细胞,也可累及生殖细胞。只有生殖细胞发生的突变才能遗传至下一代,突变无碍于功能或健康者称为多态性(polymorphism)。因为DNA存在于细胞核内,所以我们通常说的DNA即指核DNA(线粒体中有少量核外DNA。)DNA有些时候又被称为我们的基因蓝图,因为它储存着遗传给下一代的基因信息。我们身体中每个细胞(除了无核的红细胞)内的DNA均提供了一份“编码程序”,它决定了我们的体貌特征和许多其他特性。
基因突变可仅为一个碱基对被替换(点突变);也可大至整个人类基因组的39亿个碱基对。突变对功能所造成的后果取决于突变的位置和替换的氨基酸的性质。酶的不同部分受基因突变的影响将导致不同的后果。多态性如果是单个核苷酸替代,便导致限制性内切酶的切点发生变化;应用内切酶切割DNA便导致所切出的长度有不同,即多态性,称限制性片段长度多态性(RFLPS)。上述能够世代相传的一切形态特征、生理功能、代谢类型、行为本能及病理变化,在遗传学上统称为遗传性状(genetic trait)。遗传的物质基础是基因,也即遗传信息,位于染色体上。基因可以发生变异。虽然多数变异使机体对环境的变化产生更大的适应能力,所以是无害的,但如果基因损害了健康,并通过一定的方式传递至后代引起疾病,即为遗传病。遗传病具有下列主要特点:①患者在亲祖代和子孙代中以一定数量比例出现。即患者与正常家庭成员之间有一定的数量关系。②在有亲缘关系的个体之间进行的近亲婚配所生育的子代中遗传病的发病率高于一般群体,且该病不延伸至无亲缘关系的个体。③单卵双生比异卵双生患病的机会大得多。遗传病主要分为三类:①染色体变异;②单基因遗传病(主要按门德尔遗传方式传递);③多因子遗传病(也称多基因遗传病)。
迄今,遗传学在医学上的应用已从限于增进对病因和发病机制的了解为主而转向诊断、治疗和预防方面。胎儿遗传病和出生缺陷的发病率为3%左右,在某些传染病发病率已非常低的国家中遗传病已占儿童和成人住院病人的10%左右。对遗传病的诊断也从过去主要依靠细胞遗传学方法和生化检查发展到DNA诊断。随着DNA诊断技术的进步,其应用已扩展到几乎所有的医学专业。越来越清楚,所有的医学领域都有遗传学背景。医学遗传学的对象也从发病率很低的染色体病和单基因病发展到常见的多因素遗传病,如糖尿病、高血压、哮喘和对心血管病的易感性方面。
控制机体各种性状的遗传单位是基因。基因主要位于细胞核内的染色体上。维持生命的信息也就是细胞中的整个DNA,又被称为基因组。染色体的化学组成主要是脱氧核糖核酸(DNA)和组蛋白。由许多脱氧核糖核酸相互连接而成的长链便是DNA分子。DNA外覆的组蛋白与非组蛋白性蛋白质使之盘旋成染色体。每个脱氧核糖核酸含有脱氧核糖、磷酸和碱基。碱基有4种,即腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。这4种碱基在DNA长链上的排列顺序蕴藏着遗传信息,排列顺序的不同决定了基因的特异性。基因除极少数位于线粒体内,其余均位于细胞核内。每个基因所含有的碱基自数百至100万不等。人类每个有核细胞内每一单倍体基因组含有31.6×109的DNA碱基对;全部DNA解旋后约长2m。人类基因的总数约30000~35000。90%以上的DNA并不参与多肽序列的编码。这些不参与编码多肽的DNA,参与保持染色体结构的稳定性、确定染色体终端的特异性序列及有丝分裂或减数分裂时的附着位置。
下面重点谈谈基因的相关内容:
1.基因与性状的关系
人体的细胞组成、生理功能和生化反应均主要由蛋白质参与。蛋白质的构成单位是氨基酸。后者的特异性受基因控制,通过下列过程实现:①转录DNA分子上的遗传信息(DNA链上每3个相邻的碱基对构成一个密码子)传递到mRNA;②录有DNA特定遗传信息的mRNA穿过核膜进入细胞质,将mRNA上转录的遗传密码翻译成氨基酸顺序,合成特定的肽,然后连接成蛋白质分子。如果基因发生了变异则相应的结构蛋白、酶和激素也将发生变异,从而导致各种病理和病理生理改变,酿成遗传病的发生。基因发生变异是DNA分子链上某一段由于某种原因(物理、化学或生物因素)所引起的分子结构变化,导致该分子所控制的性状发生变化。如果影响了健康便酿成遗传病。对该过程了解得最清楚者为先天性代谢缺陷病,系细胞内遗传信息传递过程中遗传密码突变引起酶的异常或不足导致发病。
2.基因型与表型
我们所观察到的性状称为表型(phenotype),定义表型的遗传信息称为基因型(genotype)。一对同源染色体相同位置的两个基因称为等位基因(alleles),基因型所代表者为某一特定座上的特异性基因,如载脂蛋白E(APOE)基因有三个常见的等位基因(E2、E3、E4);某人的该基因型就可写成APOE3/4或APOE4/4等,来表示在两条同源染色体19q13.2基因座上的基因是APOE3和APOE4或APOE4和APOE4。单倍型(haplotype)是指在某一基因组座上紧密连锁在一起的一组等位基因。
3.异质性
异质性(heterogeneity)。两种或更多的基因突变导致完全相同或极为相似的临床综合征称基因异质性。例如,X染色体上两个不同的座位中任何一个发生突变均导致血友病的临床表现。其一引起Ⅷ因子缺乏(甲型血友病),另一突变的结果为Ⅸ因子缺乏(乙型血友病)。再如,葡萄糖6磷酸脱氢酶缺乏的变异型多达数百种。遗传性高铁血红蛋白血症可由3个不同的基因座位,至少10种不同的突变引起。其中既有等位基因的基因异质性,也包括非等位基因性的基因异质性。其中等位基因异质性即同基因座上的不同突变所致完全相同或相似的表型。由于存在等位基因异质性的可能,我们在进行DNA检测时常常不得不检测整个基因座的突变。基因异质性应与表型模拟(phenocopy)鉴别。后者是由环境因素引起的与某种遗传病极相似的表型;而不是由不同的突变基因所致。例如,由于脑血管梗塞可导致与家族性的老年性痴呆症(Alzheimer disease)相同的表型。表型异质性是指由等位基因突变所致不同的表型,常见者为由同一基因的不同突变所致者。例如,在FGFR2基因发生完全相同的突变可导致极不相同的颅面骨骨性结合(Crouzon综合征)和尖颅多指并指畸形(Pfeiffer综合征)。
有些个体似为某遗传性状的纯合体,实际上从父母亲各获得不同的异常等位基因,称为遗传复合体(ge-netic compound)。其临床综合征的表现与严重度介于其中任何1个等位基因突变的纯合体之间。例如,1型粘多糖病中的IH/S型系通过遗传获得。Hurler病基因和Scheie病基因的复合体。现已发现下列疾患具有遗传复合体:a抗胰蛋白酶缺乏症,胱氨酸代谢病,“纯合体”家族性高胆固醇血症(LDL-受体入胞缺陷),半乳糖-1-磷酸转尿苷酰酶缺乏症(半乳糖血症),Gaucher病,葡萄糖异构酶缺乏症,Hurler-Scheie综合征,异染性脑白质营养不良,遗传性高铁血红蛋白血症,苯丙氨酸羟化酶缺乏症(苯丙酮尿症)和假性胆碱酯酶缺乏症。
另一个并不十分少见的情况为同一基因突变可导致一个系列的表型,从而出现表现度不等的情况,即有的患者出现这几项症状,而另一患者出现该综合征中的另一些症状,再有的患者出现又另一些表现的情况。即使在同一家系中也可发生同一疾患的不同表现。这是某一特定突变受其他基因或基因背景或环境因素的影响;即使遗传组成相同的单卵孪生也能见到同患某遗传病时有不同的表现度。不同的饮食对单基因病苯丙酮尿症临床表现的影响便是个例子。
4.基因连锁
基因连锁(genetic linkage)是表示基因是沿着染色体,相互呈物理性连接或连锁的。当两个基因在一条染色体上紧密相靠时,如果不发生重组,传代时常一起传递。两基因之间发生互换(crossover)或重组(recombination)的概率与该两基因之间的距离成比例,即相互距离越远者发生重组帮助。在鉴认与某疾病一起分离的某染色体座时,需测定一个或若干个家系DNA样本的基因型或单倍体型,然后找出与该疾病同时分离的某些标记等位基因,与该疾病等位基因越靠近的标记等位基因越少在分离时发生重组,从而具有越高的连锁分数。达“+3(1000∶1)”即表示有连锁,连锁分数低至“-2”表示无连锁。
5.基因组的不稳性
基因组的不稳性主要变现为约10%细胞的DNA内有双核苷酸或三核苷酸的重复序列;这种重复序列具有不稳定性,其拷贝数会发生增扩而导致突变。早期表现为三核苷酸重复的数量增加,导致体积增大;当超过某一阈值时便引致基因组的不稳定性,称为前突变(pre mutation)。这时可以不引起或仅致极轻微的临床表现。但是这种三核苷酸数量的增加在其后的几代中可急剧扩大,导致临床发病,为动态突变。这种情况,起病越早者,症状越严重。当今这种三核苷酸重复序列的扩展分为三类,各有相应的表型,现知至少有17种疾病或脆性座位的产生是由于动态变化所致。虽然各种组成的三核苷酸重复都可增扩,但迄今仅发现CCG和AGC重复与疾病有关。现知动态突变可产生不同长度、不同组成的重复序列,并能增加显性、X连锁隐性遗传病的发病率。
前面了解了基因的基础知识,带领大家再了解一下人类基因组计划。
人类基因组计划(HGP)于20世纪80年代中期开始,旨在阐明人类基因组30亿个碱基对的序列,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我。计划的目标是,为30亿个碱基对构成的人类基因组精确测序,从而最终弄清楚每种基因制造的蛋白质及其作用。人类基因组研究包括遗传图绘制、物理图构建、测序、转录图绘制和基因鉴定等方面的工作。遗传图的绘制是人类基因组研究的第一步,即以染色体上某点为遗传标记,以与之相伴的遗传特征为对象,经连锁分析,将编码该特征的基因定位于染色体特定位置。遗传图所表现的,是通过连锁分析确定的各基因间的相对位置,物理图则表现染色体上每个DNA片段的实际顺序。现在的测序技术还不能对整个DNA分子进行序列测定,因此须先将它切成一个个大小不同的片段,然后将这些片段连起来,构成连续的序列。切割的工具,是一类限制性内切核酸酶,它能识别DNA中的特定序列,并在该座位对DNA链进行切割。经过切割和次级克隆,DNA大片段可分解成小片段,然后进行基因组测序。估计人的23对染色体上共编码了约100000个基因,DNA总长度约30亿碱基对。2003年4月宣布了人类基因组的最终参考序列。从人类基因组计划中得到的信息,将对医学及法医个体识别有很大贡献,并可帮助我们更好地了解自己的基因构造。