13.1.2 蛋白质结构测定与结构预测
一种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸残基的线状序列组成,但是,它们只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是已知结构的蛋白质相对比较少。
尽管蛋白质结构测定技术有了较为显著的进展,但是通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已经或将要被完全测序,DNA序列数量将会剧增,而由于DNA序列分析技术和基因识别方法的进步,可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据、布鲁克海文蛋白质数据库关于生物大分子三维结构的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩小这种差距呢?不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白质结构预测提出了极大的挑战。20世纪60年代后期,Anfinsen首先发现去折叠蛋白质(或者说变性蛋白质)在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构对于蛋白质行使生物功能具有重要作用,大多数蛋白质只有在折叠成其天然结构的时候才具有完全的生物活性。自从Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可能直接运用适当的算法,从氨基酸序列出发,预测蛋白质的结构。
蛋白质结构预测的目的是利用已知的一级序列来构建出蛋白质的立体结构模型,从而在此基础上进行结构与功能的研究以及蛋白质分子设计工作。一般在给定蛋白质一级序列后,首先要做的是进行序列对比,在蛋白质序列数据库或晶体结构数据库中寻找与之同源的蛋白质。如果找出的同源蛋白质已经有了晶体结构,就可以利用同源蛋白质结构预测的方法构建出该蛋白质的结构模型。如果没有已知的同源蛋白质结构,经典的做法是先进行二级结构预测、超二级结构预测,再进行三级结构预测。由于二级结构预测准确度的限制,这种方法在多数情况下(已知很少的实验信息)难以完全成功,只能给出一些有用的参考信息。
1.序列同源性分析
蛋白质由22种氨基酸残基组成,假设一个蛋白质序列有350个残基,那么其可能的序列排列数应该是20350,这是一个巨大的数字,而实际上蛋白质序列的数目还远不止这个数字。但是,随着氨基酸序列的继续增加,人们越来越清楚地认识到,存在于地球生物体系中的蛋白质结构类型是有限的。实际上,小数目的基因对应的蛋白质结构,通过通常的方式“复制和修饰”得到扩展。基因复制的程度是不同的,从非常小的片段到超基因以至整个染色体。复制后的修饰主要采取核苷酸残基替代,从而导致氨基酸变化。因此,从理论上讲,一组由复制、突变而来的蛋白质序列之间或多或少地存在着同源性。也就是说,对于一个新序列,首先要做的就是对其进行序列分析,看其是否与某些已知的序列存在同源性,进而对其结构和功能有一个大概了解。如在蛋白质序列数据库PIR中,FASTA是整库搜寻程序,它能够在一个蛋白质或核酸序列库中找到与某个蛋白质或核酸同源的序列,也能够将某个蛋白质与整个核酸序列库进行同源性比较。其原理为:给定一个目标序列(核酸或蛋白质),然后将该序列与序列库中的所有序列进行比较,如果目标序列与数据库序列的同源得分较高,则认为两个序列是同源的,程序给出数据库序列的代码。分析这些同源序列的结构与功能,将有助于目标序列的研究。
此外,同源性分析还应用于以下几个方面:
(1)进行保守位点和活性位点的分析。对一组序列进行同源性分析,在各个序列中都保守的位点就是可能的活性位点,进而设计实验,确定其中的活性位点。
(2)在序列分析的基础上建立蛋白质之间的进化关系。
(3)在序列比较的基础上进行二级结构预测,可提高预测的准确度。二级结构预测的准确度一般不超过65%,因此,在对一个序列进行二级结构预测前,先挑选一组同源物,进行序列比较,然后列出各个序列的二级结构(已知的或预测的),以此为参照,可提高二级结构预测的准确度。
(4)在序列分析的基础上可以预测同源蛋白质的三级结构。
(5)预测分析蛋白质的折叠模式。Bowie等分析蛋白质晶体结构数据库中已知结构蛋白质各残基的疏水度和表面积,以及二级结构与氨基酸残基的关系,得到一个氨基酸残基一级序列与三级序列的关系表。以此为基础进行序列比较,预测蛋白质的折叠模式。
由此可见,蛋白质序列的同源性分析是蛋白质结构预测和分子设计的基础。
2.双重序列对比
双重序列对比是两个序列的比较。两个功能类似的蛋白质,通过序列对比,可以确定其是否存在同源性;反之,两个具有同源性的序列,在功能上可能是类似的。在计算机辅助序列对比的方法中,比较经典的是Needle-Wunsch动力学比较方法。
1)原理
设有两个序列A、B,在其序列对比中,最小的比较单位是氨基酸残基,一个来自序列A,另一个来自序列B,序列对比就是寻找两个序列的最大匹配路径。最大匹配数定义为在允许两个序列有插入和删除的残基的基础上,序列A与序列B对上的最多残基数,这个数目可以通过由序列A、B组成的二维矩阵得到,如图13-1所示。

图13-1 Needle-Wunsch动力学比较方法原理示意图
(引自黄迎春,2009)
在图13-1中,两个序列交成一个二维矩阵,对每两个残基进行比较,可以从序列的一端开始,例如从末端(图的右下角)开始。假设求RR矩阵元数值,首先假设RR在打分矩阵中的得分为1,再求出这个矩阵元的下一行下一列的最大得分,两者加起来,即为该矩阵的最大得分。当最大得分不与该矩阵元相邻时,还应加上一个gap值,得到每个矩阵元的数值后,从序列的另一端开始沿最大矩阵元得分的途径将两个序列残基一一对应起来。
2)打分矩阵的gap值
自从1968年Dayhoff等报道了第一个PAM矩阵后,又出现了一系列的打分矩阵。在这些矩阵中,有的是根据氨基酸所对应的核苷酸的变异而得到的,如GC矩阵、GCM矩阵、GDM矩阵等,矩阵中的值一般是据此确定的:如果2个氨基酸所对应的3个核苷酸中有2个是相同的,则其相似值为2。有的矩阵是根据氨基酸的物理化学性质得到的,如Rao矩阵综合了5个物理参数,包括Chou-Fasman的α-螺旋、β-折叠和转角的倾向性参数;HYDOR矩阵考虑了氨基酸残基侧链的疏水性质。有的矩阵是根据氨基酸在一组相关蛋白质中相互间的替代关系得到的,如PAM矩阵、MD矩阵等。
在蛋白质三级结构的预测方法中,由同源物结构构建未知蛋白质结构是一种比较成熟的方法。在这种方法中,首先需要对同源蛋白质进行序列比较。但由于序列比较与结构叠合的结果往往有一些差异性,因此人们试图建立一些基于结构信息基础上的打分矩阵,称之为结构打分矩阵。例如,RIS打分矩阵是根据一组叠合的蛋白质结构中拓扑结构相应区域的氨基酸残基的取代关系得到的。SCM矩阵是根据氨基酸残基的主链二面角分布得到的:先计算所有已知结构的蛋白质中每个氨基酸残基的二面角分布(图13-1),比较22种残基的相似形,以此建立起不同残基间的结构替代关系。SCFm矩阵、SCFs矩阵是根据氨基酸残基的空间倾向性因子得到的:先统计所有已知结构的蛋白质中22种残基的主链及侧链空间倾向性因子,然后计算其相关系数,作为不同残基间结构相似性的量度指标。
在这些结构打分矩阵中,每个氨基酸残基代表一个结构单元,这样序列对比的结果可以反映蛋白质结构的相似性。但是,由于这些打分矩阵都来自统计结果,反映了蛋白质或其一个家族的共性,因此,将实际上在折叠过程中处于不同环境中的同种氨基酸残基看作同一种结构类型,在打分矩阵中得分最高。显然在这种结构比较中同时引入序列信息,序列对比的结果仅仅可以在一定程度上反映蛋白质结构的相似性,因此,称利用结构打分矩阵的序列比较为类结构比较。
在双重序列对比中,另一个需要的参数是gap值。gap对应于序列中的插入或删除。在gap处,序列对比的累计得分应扣除某个值。如果扣除某个值后,序列对比的累计得分仍是多条路径中得分最高的,那么在该处gap是允许的。在序列N末端或C末端的gap值为零,一个gap只能与一段序列相比,而不能与另一个gap相比。
3)序列对比的显著性得分
一对序列对比的最大得分是序列的氨基酸残基组成和两个序列之间关系的函数。怎样判断一对序列对比的最大得分是显著的,即两个序列间存在着可观的同源性?设立可能性实验,将两个序列分别重排。保持各自的氨基酸残基组成不变,然后进行序列对比;接下去重复进行重排一序列对比这一过程。如果次数足够多,就可以求出这一氨基酸残基组成的所有可能的序列对比的最大得分;如果两个序列的最大得分显著不同于重排序列的得分,就可以认为这两个序列间存在着某种程度的同源性。利用显著性得分这个概念来表示两个序列间的关系:

式中,A表示显著性得分;Sreal表示两个实际序列得分比较的最大得分;Srand表示将两个序列中的残基任意重排后进行比较的平均得分;D表示标准偏差。
一般在计算机中,残基重排—序列对比的过程重复100次就可以了。当两个序列的相同残基数比例高于20%时,实际序列对比的结果一般是可靠的。
4)双重序列对比实例
首先,给出打分矩阵,列于图13-2。利用这个打分矩阵,分别比较两对不同同源性的序列,如图13-3、图13-4所示。图13-3中的两个序列分别为人血红蛋白的β链和γ链,其序列同源性为73%。图13-4中的两个序列分别为人的肌红蛋白和腹足纲软体动物类的肌红蛋白,其序列同源性为22%。

图13-2 打分矩阵:依据氨基酸残基在一种相关蛋白质中相互间的替代关系(MD)
(引自黄迎春,2009)

图13-3 两个序列比较的结果一
(引自黄迎春,2009)

图13-4 两个序列比较的结果二
(引自黄迎春,2009)MYOH表示人肌红蛋白;MYCR表示腹足纲软体动物类的肌红蛋白;*表示相同残基,其余区域表示2个矩阵的序列对比结果相同。
3.多重序列对比
当研究一组蛋白质序列之间的关系时,双重序列对比往往引起一些不一致性。例如,当序列A与B比较时,在某些位置出现gap;当序列A与C比较时,gap的位置或许完全不同。为了克服这一缺点,又发展了一系列多重序列对比的方法。多重序列对比仍然以双重序列为基础。在进行多个序列比较之前,需先定出序列比较的顺序。一般来讲,序列同源性较高,序列比较的可靠性越大。因此在进行多重序列比较时,先根据序列同源性高低定出序列比较的顺序。
双重序列对比的显著性得分可以反映序列同源性的高低,但是,为了求显著性得分,需要重复多次序列重排,计算最大得分的过程。假设有6个序列,计算1对序列的显著性得分时将序列重排100次,那么,要分别求出每两个序列间的显著性得分,需进行×101=1515次序列对比,很费时间。Doolittle等证明,归一化的对比得分NAS值与显著性得分成正比,其中NAS定义为
NAS=两个序列的最大相似得分/最短的序列长度
这样可以根据NAS值来对序列排序,以进行多重序列对比。在双重序列对比的基础上,可得到一系列的对序列比较的NAS值。很显然,NAS值高的一对序列是同源性最好的序列,将它们作为多重序列对比中最先考虑的两个序列;然后挑选分别与这两个序列比较时NAS值较高的第三个序列;后面的序列选择以此类推,从而将整个序列按同源性高低排序。多重序列对比的方法有多种,这里介绍其中两种方法。
1)Feng-Doolittle方法
假设有一组排序后的序列为A,B,C,D,E,F,…,先对序列A、B进行比较。在对序列C进行比较时,分别计算序列对(A,C)和(B,C)的最大得分。如果序列(B,C)比较的得分高,则前三个序列比较的结果为ABC;同样再进行第四个序列D的比较,根据ABCD和CBAD的得分确定D的位置。以此类推。在序列比较的过程中,前一次比较中出现的gap在比较中仍然存在。图13-5是一组血红蛋白的比较结果,图中代码所代表的蛋白质列于表13-1。

图13-5 利用Feng-Doolittle方法对12个血红蛋白的序列比较
(引自黄迎春,2009)
表13-1 序列对比中用到的12个血红蛋白

(引自黄迎春,2009)
2)Barton-Sternberg方法
假设一组排序后的蛋白质序列为A,B,C,D,…,先比较同源性高的A、B两个序列。在对序列C进行比较时,须同时考虑A、B两个序列的残基。假设i是序列A1,A2,…,Ak-1等已经比较过的序列的一个残基位置,1≤i≤Lj(k-1),L为序列长度,j是序列Ak的一个残基位置,则相应矩阵元的得分为

以此为基础,将所有的序列对比起来,然后以对比好的序列为模板,比较所有这些蛋白质序列,如果残基的位置有变动,需再迭代一次,直至最后所有序列的所有残基位置不再变化。图13-6是一组血红蛋白的序列比较结果,图中代码所代表的蛋白质列于表13-1。

图13-6 利用Barton-Sternberg方法对12个血红蛋白的序列比较
(引自黄迎春,2009)
4.蛋白质二级结构的预测
蛋白质二级结构的预测不但是研究蛋白质折叠问题的主要内容之一,而且是获得新氨基酸序列结构信息的一般方法。目前预测蛋白质二级结构的方法有几十种,可以归纳为统计方法、基于已有知识的预测方法和混合方法。这些方法都假定蛋白质的二级结构主要是由邻近残基间的相互作用所决定的,然后通过对已知空间结构的蛋白质分子进行分析、归纳,制定出一套预测规则,并根据这些规则对其他已知或未知结构的蛋白质分子的二级结构进行预测。这里仅介绍统计方法中的Chou-Fasman方法。
Chou和Fasman在20世纪70年代,基于单个氨基酸残基统计的经验参数方法,通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。
每种氨基酸残基出现在各种二级结构中的倾向或者频率是不同的,例如Glu主要出现在α-螺旋中,Asp和Gly主要分布在转角中,Pro也常出现在转角中,但是绝不会出现在α-螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向,例如:肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成α-螺旋,而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成α-螺旋。
通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman方法中,这几个因子是Pα、Pβ和Pt,它们分别表示相应的残基形成α-螺旋、β-折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,即f(i)、f(i+1)、f(i+2)和f(i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的概率,例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的概率不足4%。根据Pα和Pβ的大小,可将22种氨基酸残基分类,如谷氨酸、丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其他的统计经验,如脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向于中断折叠。
在统计得出氨基酸残基倾向性因子的基础上,Chou和Fasman提出了二级结构的经验规则,其基本思路是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域,下面是4个简要的规则。
(1)α-螺旋规则:沿着蛋白质序列寻找α-螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成α-螺旋,即有4个残基对应的Pα>100,则认为是螺旋核。然后从螺旋核向两端延伸,直至四肽片段Pα平均值小于100为止。按上述方式找到的片段长度大于5,并且Pα平均值大于Pβ平均值,那么这个片段的二级结构就被预测为α-螺旋。此外,不容许Pro在螺旋内部出现,但可出现在C末端以及N末端的前三位,这也用于终止螺旋的延伸。
(2)-折叠规则:如果相邻6个残基中有4个倾向于形成β-折叠,即有4个残基对应的Pβ>100,则认为是折叠核。折叠核向两端延伸直至4个残基Pβ平均值小于100为止。若延伸后片段的Pβ平均值大于105,并且Pβ平均值大于Pα平均值,则该片段被预测为β-折叠。
(3)转角规则:转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。在计算过程中,对于从第i个残基开始的连续4个残基的片段,将上述概率相乘,根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)大于7.5×10.5,四肽片段Pt平均值大于100,并且Pt平均值同时大于Pα平均值以及Pβ平均值,则可以预测这样连续的4个残基形成转角。
(4)重叠规则:假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域Pα平均值和Pβ平均值的相对大小进行预测,若Pα平均值大于Pβ平均值,则预测为螺旋;反之,预测为折叠。
Chou-Fasman方法原理简单明了,二级结构参数的物理意义明确,该方法中二级结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预测准确率在50%左右。
5.蛋白质三维结构的预测
1)三维结构的预测方法
生物信息学研究的一个主要目标是了解蛋白质序列与三维结构的关系,但是序列与结构之间的关系是非常复杂的。现已掌握了一些蛋白质序列与二级结构之间的关系,但是对于蛋白质序列与空间结构之间的关系了解得比较少。预测蛋白质的二级结构只是预测折叠蛋白的三维形状的第一步。一些结构不是很规则的环状区域,与蛋白质的二级结构单元共同堆砌成一个紧密的球状天然结构。生物化学研究中一个活跃领域就是了解引起蛋白质折叠的各种作用力。在蛋白质折叠过程中,一系列不同的力都起到重要作用,包括疏水作用、静电力、氢键和范德华力。疏水作用是影响蛋白质结构的重要因素。半胱氨酸之间共价键的形成在决定蛋白质构象中也起了决定性的作用。在一类称为伴侣蛋白的特殊蛋白质作用下,蛋白质折叠问题变得更复杂。伴侣蛋白通过一些未知的方式改变蛋白质的结构,但这些改变方式是很重要的,蛋白质三维结构的预测方法大致可以分为三类:①根据基本物理原理,用分子动力学(MD)模拟预测蛋白质的三维结构;②根据蛋白质同源性预测;③根据结构类型预测。
2)蛋白质分子动力学模拟预测
在蛋白质结构和功能研究中,经常使用分子动力学计算。分子动力学是一种计算机模拟技术,它的主要部分是求解与体系中每个原子相关的牛顿运动方程或薛定谔方程。蛋白质分子动力学是以蛋白质为研究体系的分子动力学。它用来模拟预测蛋白质结构的方法,现在主要是作为其他预测方法的补充手段和应用于结构优化。它的主要优点是可以利用有限的实验数据构造分子的结构模拟并研究它的能量与结构的动态变化,而这些数据对于用实验方法来确定结构是远远不够的。
3)同源模型化方法
根据蛋白质同源性进行预测是蛋白质三维结构预测的主要方法。对蛋白质数据库PDB分析可以得到这样的结论:任何一对蛋白质,如果两者的序列等同部分超过30%(序列比对长度大于80),则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠片层区域的一些细节部分有所不同。蛋白质的结构比蛋白质的序列更保守,如果两个蛋白质的氨基酸序列有50%相同,那么约有90%的α-碳原子的位置偏差不超过0.3 nm,这是同源模型化方法在结构预测方面成功的保证。同源模型化方法的主要思路如下:对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。这里的前提是必须有一个已知结构的同源蛋白质。这个工作可以通过搜索蛋白质结构数据库来完成,如搜索PDB。同源模型化方法是目前一种比较成功的蛋白质三维结构预测方法。从上述方法介绍也可以看出,预测新结构是借助于已知结构的模板而进行的,选择不同的同源蛋白质,则可能得到不同的模板,因此最终得到的预测结果并不唯一。假设待预测三维结构的目的蛋白质为U(un-known),利用同源模型化方法建立结构模型的过程包括下述步骤:
(1)搜索结构模型的模板(T):同源模型化方法假设两个同源的蛋白质具有相同的骨架。为待预测的蛋白质建立模型时,首先按照同源蛋白质的结构建立模板T。所谓模板,是一个已知结构的蛋白质,该蛋白质与目的蛋白质(U)的序列非常相似。如果找不到这样的模板,则无法运用同源模型法。
(2)序列比对:将目的蛋白质(U)的序列与模板蛋白质(T)的序列进行比对,使U的氨基酸残基与T的残基匹配。比对中允许插入和删除操作。
(3)建立骨架:将模板结构的坐标拷贝到U,仅拷贝匹配残基的坐标。在一般情况下,通过这一步建立U的骨架。
(4)构建目的蛋白质的侧链:可以将模板相同残基的坐标直接作为U的残基坐标,但是对于不完全匹配的残基,其侧链构象是不同的,需要进一步预测。侧链坐标的预测通常采用已知结构的经验数据,如ROTAMER数据库的经验结构数据。ROTAMER数据库含有所有已知结构蛋白质中的侧链取向,按下述过程来使用ROTAMER数据库:从数据库中提取ROTAMER分布信息,取一定长度的氨基酸片段(对于螺旋和折叠取7个残基,其他取5个残基);在U的骨架上平移等长的片段,从ROTAMER数据库中找出那些中心氨基酸与平移片段中心相同的片段,并且两者的局部骨架尽可能相同,在此基础上从数据库中取局部结构数据。
(5)构建目的蛋白质的环区:在第(2)步的序列比对中,可能加入空位,这些区域常常对应于二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验方法,从已知结构的蛋白质中寻找一个最优的环区,复制其结构数据。如果找不到相应的环区,则需要用其他方法。
(6)优化模型:通过上述过程为U建立了一个初步的结构模型,在这个模型中可能存在一些不相容的空间坐标,因此需要进行改进和优化,如利用分子力学、分子动力学、模拟退火等方法进行结构优化。
当然,如果能够找到一系列与目的蛋白质相近的蛋白质的结构,得到更多的结构模板,则能够提高预测的准确性。通过多重序列比对,发现目标序列中与所有模板结构高度保守的区域,同时也能发现保守性不高的区域。将模板结构叠加起来,找到结构上保守的区域,为要建立的模型形成一个核心,然后按照上述方法构建目的蛋白质的结构模型。对于具有60%等同部分的序列,用上述方法建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近实验得到的测试结果。一般来说,如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。