5.2.4  基于模型的聚类算法

5.2.4 基于模型的聚类算法

基于模型的聚类算法依据图像中的数据集符合某一概率分布这一假设,把数据集表示为某一数学模型来实现聚类的目的,因而该方法划分的每一个簇的形式均是通过概率描述来表示的。常用的基于模型的聚类算法有统计方法和神经网络方法,此外还有一些新的模型聚类算法,例如,支持矢量方法的聚类算法、SPC算法以及SyMP算法等。

统计聚类方法有COBWEB算法、CLASSIT算法、AutoClass算法以及高斯混合模型算法等。COBWEB算法是最著名的基于统计聚类的方法,该算法用一个启发式估算度量将数据集中的对象加入到能够产生最高分类效果分类树的位置,于是会不断地创建出新的类,从而完成聚类的目的。COBWEB算法不需要事先提供数据集的聚类参数就可以自动地修正并划分出数据集的簇的数目,但是由于该方法进行的前提是假设每个簇的概率分布是相互独立的,因而该方法具有局限性;此外该方法在存储和更新数据集的每个簇的概率分布的时候,均会付出较高的代价而效率变低。CLASSIT算法可以处理连续性数据集的增量的聚类,并且该算法是COBWEB算法的一个衍生算法,因而该算法存在与COBWEB算法相同的缺陷,因此该算法也不适用于解决大型数据集的聚类问题。

神经网络方法将数据集的每一个簇看作是一个例证,并将该例证视为聚类的初始点,接着该算法依据某种相似度,将新的对象分配到与其最相似的簇中而完成聚类的目的。主要的神经网络方法包含竞争学习神经网络方法和自组织特征映射神经网络方法。基于神经网络的聚类算法处理数据需要的时间较长,并且不适合将其用于大型数据集的处理。