4.4.3　方法及原理

2026年01月15日

版权

4.4.3　方法及原理

（1）应用于网络舆情热点发现的文本聚类方法

设原始文档集个数为k，每个文档集对应一个主题，文档集分别记为。实验文档集为上述文档集的并集，在不必区分或者无法区分文档的归属时，可将文档集记为：，其中，为文档集中的文档数。聚类过程中，文档相似度采用笔者所提的随机n-Grams文本相似度计算方法（王贤明等，2013）进行计算，相似度阈值为T，即若文档相似度值不低于T，则将这些文档归属到一个类中。聚类中文档数阈值为C，即若某个初始聚类中的文档数不低于该值，则认定该初始聚类为一个有效聚类，否则舍弃。

聚类的主要流程如图4-12所示。

图4-12　聚类过程(https://www.daowen.com)

其中，上述flag变量既可以用于记录初始聚类完毕时所得的聚类数，也可以用于记录各聚类的序号。S=Sim（di，dj）是文档di和dj的相似度值，范围为［0，100］。聚类完毕，根据flag值即可知所获得的初始聚类个数，且每个初始聚类中最少元素个数为C。此处的初始聚类是指经过上述方法聚类后的直接聚类结果，以便和最终的聚类区分开。

经由上述方法聚类后，所得初始聚类结果可以直接用于类似网络热点识别之类的应用场景。倘若需将其聚类应用到其他更为广泛的聚类场合，则需要对上述初始聚类结果执行合并处理。所谓合并处理，即对各个初始聚类进行二次聚类。二次聚类可以通过两种方式进行。第一种是准确性更好的方式，即将各个初始聚类视为一个整体来对待，例如计算各个初始聚类中文档集的频繁项集，该频繁项集对应于该初始聚类，然后利用频繁项集的方法（ZHANG W et al，2010）即可完成初始聚类的合并，亦即完成最终聚类。第二种是一种快捷的方式，即以各个初始聚类中的最长文档作为该聚类的代表文档，并对各个代表文档进行聚类计算。若代表文档聚为一类，则意味着其对应的初始聚类可以合并为一个大的聚类。一般情况下，采用第二种方式也可以取得较为满意的结果。由于聚类的合并可以采用多种常规的聚类方法，因此此处不再赘述。

（2）聚类覆盖率

设与原始文档集对应的各个合并聚类中元素数为，正确的元素数分别为，则聚类的整体覆盖率可被定义为：，即所有聚类中文档数之和与总文档数的比值；正确覆盖率定义为：，即所有聚类中正确的文档数之和与总文档数的比值。显然，聚类整体覆盖率和正确覆盖率的取值范围均为［0，1］，且满足Cr≤Ca，其中正确覆盖率表征了聚类的整体性能，其值越大，表明聚类整体效果越好。本文除了使用传统的准确率、召回率和F-score来讨论聚类结果外，还将使用聚类覆盖率指标对聚类结果进行讨论。

4.4.3 方法及原理

4.4.3　方法及原理