5.1.1　聚类的定义

2026年01月16日

版权

5.1.1　聚类的定义

聚类是一个将数据集划分为若干个子集的过程，并使得同一集合内的数据对象具有较高的相似度，而不同集合中的数据对象则是不相同的。相似或不相似的度量是基于数据对象描述属性的聚类值来确定的，通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大限度地实现类中对象相似度最大，类间对象相似度最小。

聚类与分类不同，在分类模型中，存在样本数据，这些数据的类标号是已知的，分类的目的是从训练样本集中提取出分类的规则，用于对其他标号未知的对象进行类标识。在聚类中，预先不知道目标数据的有关类的信息，需要以某种度量为标准将所有的数据对象划分到各个簇中。因此，聚类分析属于无监督学习的一种。

聚类主要包括以下几个过程。

（1）数据准备：包括特征标准化和降维。(https://www.daowen.com)

（2）特征选择、提出：从最初的特征中选择有效的特征，并将其存储于向量中。

（3）特征提取：通过对所选择的特征进行转换，形成新的突出特征。

（4）聚类（或分组）：首先选择合适特征类型的某种距离函数（或构造新的距离函数）进行接近程度的度量，然后执行聚类或分组。

聚类结果评估是指对聚类结果进行评估。评估主要有3种，即外部有效性评估、内部有效性评估和相关性测试评估。

5.1.1 聚类的定义

5.1.1　聚类的定义