4.4.2 聚类分析技术
2025年09月26日
4.4.2 聚类分析技术
将物理或抽象的对象的集合分成相似的对象类的过程称为聚类。聚类是一种重要的人类活动,也是目前应用最为广泛的数据挖掘技术,同时也是一个富有挑战的研究领域。传统的聚类技术主要有基于划分的K均值算法和K中心点算法;基于层次的算法,包括利用层次方法的平衡迭代规约的BIRCH(Balanced lterative Reducing and Clustering using Hierarchies)算法、分类属性的层次聚类ROCK(Robust Clustering using links)算法和利用动态建模的Chameleon算法;基于密度的算法,包括基于高密度联通区域的DBSCAN算法、通过点排序识别聚类结构的OPTICS(Ordering Points to idtify the clustering structure)算法和基于密度分布函数的DENCLUE(DENsity based Clust Ering)算法;基于网格的算法,包括统计信息网格STING(Statistical Information OPTICS Grid)算法、利用小波变换的Wave-Cluster算法;基于模型的算法,包括期望最大化方法、概念聚类和神经网络方法;高维聚类算法,包括维增长子空间聚类CLIQUE算法和维规约子空间聚类PROCLUS算法。
对于政府宏观决策的相关大数据集,传统的聚类算法有很多不足之处。其中最突出的问题就是处理速度过慢,现有的聚类分析技术应用于TB或者PB数量级的大数据集是不实际的,因为目前最大的单个磁盘容量为1~2 TB,而仅仅读取1 TB的数据就需要超过3小时。目前主流的聚类技术研究方向是并行式的聚类技术。