4.4.1 引言
2025年10月24日
4.4.1 引言
在文本挖掘领域,文本聚类是一类常见而又重要的数据挖掘手段,同时也是很多其他挖掘操作的前置工作。顾名思义,聚类即按照某些特征和规则将整个数据集分成若干组的过程,各个组内元素在某些特征方面具有较高的相似性,而组间元素则在这些特征方面具有较大的差异性,所得到的各个组即为一个聚类,也常称之为“簇”。聚类作为一种无监督的机器学习方法,无须人工对数据进行标注和训练,自动化程度高。目前已被广泛应用于计算机科学、情报学、社会学、生物学等多个领域。随着互联网的高速发展,文本聚类在Web数据处理相关方面的应用尤其广泛,例如推荐系统、网络舆情(马永军等,2019;夏火松等,2016)、各类文本挖掘及相关应用(徐小龙等,2018;谭章禄等,2019)。
在诸多Web相关研究领域中,网络舆情研究近年来发展很快,是一个兼具实用价值和学术价值的综合性研究领域,被学术界和政府管理部门重视,吸引了计算机科学、情报学、社会学、新闻学、统计学等多个学科的研究人员投入到相关研究中。在网络舆情研究中,其中一个重要的研究方向即网络舆情热点的发现。由于网络数据的海量性,导致网络热点的发现对聚类算法的实时性要求较高,计算资源消耗也大。不过正是由于网络数据的海量性,一旦某个热点产生后,围绕该热点的大量媒体数据将迅速发布并传播开来,也就是说,由于相关热点数据非常多,无须获取其全部相关数据,而只需要获取其中一部分数据,且保证这部分数据足够“纯”,就足够分析出相关热点,这是一种典型的准确率重要性远大于召回率的情况。然而目前鲜有专门针对这种情况的聚类算法。