5.1.1 聚类的定义
2026年01月16日
5.1.1 聚类的定义
聚类是一个将数据集划分为若干个子集的过程,并使得同一集合内的数据对象具有较高的相似度,而不同集合中的数据对象则是不相同的。相似或不相似的度量是基于数据对象描述属性的聚类值来确定的,通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大限度地实现类中对象相似度最大,类间对象相似度最小。
聚类与分类不同,在分类模型中,存在样本数据,这些数据的类标号是已知的,分类的目的是从训练样本集中提取出分类的规则,用于对其他标号未知的对象进行类标识。在聚类中,预先不知道目标数据的有关类的信息,需要以某种度量为标准将所有的数据对象划分到各个簇中。因此,聚类分析属于无监督学习的一种。
聚类主要包括以下几个过程。
(1)数据准备:包括特征标准化和降维。(https://www.daowen.com)
(2)特征选择、提出:从最初的特征中选择有效的特征,并将其存储于向量中。
(3)特征提取:通过对所选择的特征进行转换,形成新的突出特征。
(4)聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量,然后执行聚类或分组。
聚类结果评估是指对聚类结果进行评估。评估主要有3种,即外部有效性评估、内部有效性评估和相关性测试评估。