隐马尔可夫模型(HMM)

四、隐马尔可夫模型(HMM)

一种可行的改进目前数据库搜索技术灵敏性和速度的办法,是通过蛋白质家族的多序列列线建立一致序列。与两条序列的列线比对不同,一致序列可揭示更多的信息,如家族内保守程度不一的残基位置、残基插入和缺失的可能性等。一致序列的所有表述形式,如profile、模块等都可视为隐马尔可夫链的特例。

HMM是最近几十年发展起来的时间序列模型,已在语音识别、离子通道记录、最佳特征识别等方面被应用。HMM也被较早地用来解决生物信息学上的一些问题,如DNA编码区、蛋白质超级家族的构模等。但是,直至20世纪90年代中叶,HMM才与机器学习技术相结合,进而系统地应用于整个蛋白质家族和DNA区段的建模、列线和分析。HMM与神经网络、随机模型和贝叶斯网络关系极其密切,或可将其视为它们的一个特例。HMM将DNA序列的形成看作一个随机过程,编码和非编码的DNA序列在核苷酸选用频率上有所不同而对应于不同的马尔可夫模型。由于这些马尔可夫模型的统计规律是未知的,而HMM能够自动寻找出其隐藏的统计规律,因而被称为隐马尔可夫模型。对于处理复杂的DNA序列,HMM需要学习不同DNA序列结构的信息。

初阶离散HMM(或称0阶离散HMM)是一种时间序列随机通用模型,由有限的状态集S、离散字符表A、转换概率矩阵T=(t ji)和散发概率矩阵E=(eix)定义。字符散发,即系统由一种状态随机地向另一种状态进化。假设系统处于状态i,它存在概率转变为状态j,而字符x散发的概率为eix。因此,对于HMM来说,系统的每一个状态只与2个不同的骰子节点有关:散发节点和转换节点。0阶马尔可夫链假设散发和转换仅由现状态决定,而与过去的状态无关。而字符的散发只有模型系统本身可以识别,即所谓“隐藏”。

对于生物序列而言,HMM的字符当然是20个字母的氨基酸或4个字母的核苷酸。但依据不同的问题,其他的一些字符也可使用,如64个字母的三联体字母,3个字母(α,β,coil)的二级结构等。当然,HMN模型并非如上所举仅有2个节点那么简单。

一旦一个蛋白质家族成功地构建了HMM模型,则该模型就可以用于多个领域:①多序列列线;②数据库序列数据的挖掘和分类;③结构分析和模式查找。