4.4.2 相关研究及问题
(1)聚类方法
文本聚类的研究历史悠久,取得了丰硕的成果,相关聚类方法也层出不穷。目前,较为知名的文本聚类方法有划分聚类、层次聚类、基于密度的聚类(袁逸铭等,2019;刘颖莹等,2016)等。近年来,基于语义的聚类(Wei Song et al,2014;Vivek Mehta et al,2021;吴锦池等,2021;钱志森等,2019)和深度学习的聚类(饶毓和等,2020;Gianni Costa等,2021)逐渐受到关注,尤其以后者更为显著。同时也有不少混合型方法或集成聚类方法(杨玉娟等,2020;Bharti Kusum Kumari et al,2014;张颖怡等,2019;Karpagalingam Thirumoorthy et al,2021)。此外,也有一些适用于特殊场合的聚类方法,例如目前针对短文本的聚类(贺超波等,2019;Wen Aihong et al,2019;贾瑞玉等,2020)也获得了不少关注。
在上述方法中,基本都需要特征项或词支撑,并且不同的特征或特征组合效果是不同的(赵华茗等,2019;张旭等,2020),因而决定了特征选择(田夏利等,2021;Kusum Kumari Bharti et al,2016)或降维(Mohamed A.A.et al,2020;Kusum Kumari Bharti et al,2015)是聚类的一项重要的前置研究内容。对中文而言,往往离不开分词的支持(祖坤琳等,2016),相应的分词准确性问题也随之而来,最终也将影响聚类的速度、准确率和召回率。
N-Gram是一种经典的统计语言模型,目前已被广泛使用于各种各样的文本应用场合(Alessandro Cucchiarelli et al,2021;Nidal Nasser et al,2021;李超等,2018)及非文本应用场合(任卓君等,2019)。由于N-Gram的特点,可以应用于文本相似度的计算(王贤明等,2013;黄贤英等,2017)。文献(王贤明等,2015)提出了一种基于N-Gram相似度算法的文本聚类方法,该方法无须分词支持,对语言也无要求,速度和准确率可以方便地调控。其适用场景是:对准确率和速度要求较高,但对召回率要求相对较低。典型的应用如网络舆情实时热点发现。在舆情热点发现过程中,对准确率和速度的要求是必然的;热点分析要求有一定量的相关主题文档即可进行,并不要求识别得足够全面,也就意味着对该聚类的召回率并无太高要求。不过该方法在聚类阈值相对较小时,初始聚类结果较为“粗糙”,且准确性也相对稍低,可能存在着将毫不相干的内容聚到同一个类中的弊端。
(2)聚类的评估
文本聚类的评估较为困难,方法多样。例如采用专家人工评估、熵(Entropy)评估、准确率、召回率、F-score等,其中尤以准确率、召回率最为普遍,它们评估的是每个单独的聚类,且一般都尽量在这两者间取得平衡。
由于在舆情热点分析类似的应用过程中,往往会同时得到多个聚类,并且在该评估过程中,准确率的重要性远高于召回率。本文基于实际需要和便利性,拟从当前的聚类评价指标中构建综合性的评估指标。
本文的方法优势及创新点如下:
①相较于常规聚类方法,本文方法基于N-Gram,避免了很多聚类方法中的分词、特征提取等操作,同时具备语言无关性,可以轻松地通过调整阈值实现对聚类速度、聚类精细程度等的调控。
②本文方法所得初始聚类的“内聚性”强,相应的,各个初始聚类的准确率较高,因而最终聚类往往准确率也较高。
③定义了适合本文聚类方法的综合性评估指标。