4.4.4 实验及结果分析

4.4.4 实验及结果分析

(1)实验方案

为了便于比较,本文采用与文献(王贤明,2015)相同的实验数据、相似度计算参数和实验方案,其中文献(王贤明等,2015)中的方法记为DR-Grams,本文的方法记为AR-Grams。

(2)聚类阈值与初始聚类数的关系

初始聚类数是利用AR-Grams进行聚类后的直接聚类结果,亦即未进行聚类合并之前的聚类情况。相关实验结果如图 4-13所示。

图4-13 初始聚类数与阈值的关系

从图4-13可见,当阈值较小时,获得的初始聚类较少,随着阈值的增大,所得初始聚类逐渐增多,当阈值增大到一定范围时(对本例是[11,15]),聚类数呈现基本稳定的状态,但当阈值增到足够大时,聚类数开始逐渐下降。

呈现上述现象的原因在于:当阈值较小时,阈值对不同聚类元素的辨识度有限,且相对较容易受到因采用随机n-Grams相似度计算中的随机性影响,因而更容易将本不该隶属于一个类中的文档聚到一起,从而使最终获得的聚类较少且容易被推断,此时的准确率也相对较低。当阈值逐渐增大时,阈值的辨识度也逐渐增大,各文档更容易被归属到其相应的聚类中,因而聚类相对更为准确,聚类数也就更多,这正是聚类数增多的原因。当阈值增大到一定范围时,此时可以较为准确地划分各个文档的类别归属,并且由于此时聚到同类中的文档确实是存在相当程度的重复,因而在阈值不是足够大时,一定程度的阈值变化是不会有太大影响的。这正是聚类数存在一段相对稳定区间的原因。并且,此阶段各个聚类的大小相对更大,同时各个聚类的准确率基本维持在100%,该阶段正是适合于用作类似于网络热点分析相关研究或应用的时机。随着阈值的继续增大,只有几乎完全相同的文档才会被聚到一个类别中,不过完全相同的文档数毕竟有限,因而此时获得的聚类数将开始逐渐降低。需要交代的是,此时得到的初始聚类其实较多,不过只是有些聚类太小,即元素数在阈值C之下,因而被过滤掉了,留下的有效初始聚类数在减少。

另外,对比AR-Grams和DR-Grams,可以发现两者随着阈值的变化趋势相同,但在不同的阈值阶段上,具体聚类数会有所差异。在低阈值时,AR-Grams获得的聚类相对更多,最为重要的原因就在于AR-Grams在低阈值下聚类更为精细,不像DR-Grams聚类结果那么粗糙,因而获得的聚类数更多,相应的,整体上各聚类更小。但随着阈值的增大,阈值已能够准确地进行聚类而不至出错,因而两种聚类方法在高阈值时的表现基本相同。

此外,当初始聚类数趋于稳定时,意味着此时所对应的阈值T为较好的选择。根据这一特征,可以实现聚类过程中聚类阈值T的自动化确定。

(3)聚类阈值与准确率、召回率及F-score的关系

准确率是经典的聚类评估指标,AR-Grams聚类准确率结果如图 4-14所示。

图4-14 聚类阈值与准确率的关系

与DR-Grams聚类一样,阈值越小,各文档归属出错的可能性越大;阈值越大,各文档归属出错的可能性越小,聚类阈值对聚类结果起着决定性作用。对比AR-Grams和DR-Grams结果可见,两种方法所得结果的变化趋势相同,即准确率随着聚类阈值的增大而增大,直至100%。并且在阈值T=11时,准确率已经接近100%;当阈值T≥15时,准确率几乎已为100%。故从聚类准确率来看,聚类阈值在AR-Grams和DR-Grams下具备同样的作用。在AR-Grams聚类下,相似度阈值范围可初步确定在区间[11,17]。

针对各个单一数据集而言,在图中,“馒头”的准确率明显低于其他数据集,原因在于文档集D中的最小可聚类文档来自“馒头”数据集,在AR-Grams聚类下,该文档将首先成为聚类标志文档,并将获得最多的与其他文档进行相似度计算的机会,因而也将纳入更多的文档到该类中,这就是“馒头”的最低准确率的根本性原因。这一点,是AR-Grams和DR-Grams的共同特性,即较先前的可聚类标志文档所在的聚类往往具备较低的准确率。不过随着阈值的增大,该情况逐渐被改善。

与DR-Grams相比,AR-Grams聚类在低阈值(T≤9)时的准确率提高了11.9%,在整体上则提高了4.5%。由此可见,AR-Grams在低阈值下的改进效果更明显。原因正如前文所述,低阈值下的DR-Grams聚类结果较为粗糙,而AR-Grams结果则较为精细,其准确率必然高得多。实验结果显示AR-Grams下的聚类准确性整体高于DRGrams,高阈值下的结果相当,因而可以认为AR-Grams优于DR-Grams。

聚类评价的另外一个重要指标为召回率,AR-Grams聚类阈值与召回率关系的结果如图 4-15所示。

图4-15 聚类阈值与召回率的关系

对比两种方法的召回率曲线可知,两种方法下聚类阈值和召回率存在相同的关系,即随着聚类阈值的增大,召回率呈现先增后降的态势,并且最佳聚类阈值范围为[9,11]。

和DR-Grams一样,在聚类阈值较小时(T≤9),阈值作用归结为“类间纠错”,即阈值的增大,将逐渐减少文档被归属错误的可能性。但当T逐渐增大时(T>11),文档的归属已基本完全正确,正如图 4-14中所示,T=11时的准确率已基本为100%,因而此后的阈值作用将主要体现为把各个聚类划分为更为精细的、且准确率依然保持为100%的更多小聚类,亦即“类内细分”的作用。类内的细分将会产生更多稍小的聚类,同时又将使得较多过小的聚类被阈值C过滤或者使得一些单一的文件不被归属到任意聚类中,这正是召回率曲线下降的原因。

与DR-Grams相比,AR-Grams在低阈值下的召回率提高了9.1%,在整体上则提高了2.9%,可见本文方法在低阈值时的改进作用较为较为明显。

综合性的评价指标F-score曲线如图4-16所示。

图4-16 聚类阈值与F-score的关系

由上图可见,在整体上,F-score曲线的升降趋势与召回率一致,即先升后降。这一点与DR-Grams聚类一样。但具体值方面,本文方法的F-scoce在低阈值时提高了10.2%,在整体上则提高了3.5%。这主要归功于AR-Grams的精细特性,它在造就更多精细聚类的同时,提高了聚类效果。

(4)聚类阈值与覆盖率的关系

整体覆盖率Ca和正确覆盖率Cr实验结果如图 4-17所示。

图4-17 聚类阈值与覆盖率的关系

由上图可见:整体文档覆盖率随着聚类阈值的增加呈现单调递减趋势,正确文档覆盖率则呈现先升后降的趋势。显然,随着聚类阈值的增大,文档将更难被聚到一起,或者难以聚成较大的类。由于各个聚类对纳入该类文档的限制更为严格,这将导致越来越多的文档成为独立于任何聚类的个体文档,或者由于所含文档过少而无法被认定为有效聚类,在宏观上即呈现为整体文档覆盖率的持续下降。对正确文档覆盖率而言,则与上述情形有所不同。在阈值较小时,虽然绝大多数的文档都被归属到相关聚类中,但是正如前文所述,低阈值时的归属错误率极高,这一问题随着阈值的增大将逐渐缓解(即低阈值时阈值有“类间纠错”的功能),这正是正确文档覆盖率在开始阶段呈现增长趋势的原因。在阈值较大时,由于阈值的“类内细分”作用,诸多大类被分割为多个细小的聚类甚至被分成一些独立的文档,在该过程中,越来越多的独立文档和极其细小的聚类被排除在有效聚类之外,宏观上即呈现为正确文档覆盖率的缓慢下降。这在另一个侧面再次印证了前文所论述的阈值的两种典型作用。当阈值增大到一定程度时,阈值已具备充分的辨识能力,可确保被归属到同一个类中的文档在实际上也的确是同类文档,此即当阈值较大时,两条曲线基本重合的原因。

和DR-Grams相比,本文所介绍的方法的正确覆盖率提高了9.2%,在整体上则提高了3.0%,可见本文方法的主要效果表现在低阈值时对正确覆盖率的提升上,主要原因与前文的聚类准确率相同,在此不再赘述。

(5)AR-Grams聚类特性及应用场景解释

AR-Grams聚类方法的特性可总结为:高准确率、低召回率、聚类精度和速度易于调控。该方法可通过调整相似度计算中N-Gram的数目及各项阈值来实现聚类精度和速度的调控,从而使其可用于实时性较高的场合也可用于对精度要求较高的场合,但并不能用于召回率较高的场合。另外由于该方法可以获取多个准确率高的聚类,研究者通过其中的较大聚类即可完成类似网络热点发现之类的应用需求。这主要是因为在实际情况下,网络热点一旦产生,虽然围绕着一个热点话题的数据往往会涉及多个方面,但其中往往存在着大量由于转载或其他原因而导致有较大重复率的文档。只要能把这些重复率较高的文档识别出来,就足以分析出相关热点,而并不需要识别出该热点的所有相关数据,这正是本文聚类方法所具有的实用价值的客观支撑条件。本文中的聚类方法并不适用于类似于文献(陈笑蓉等,2016)中的艺术类数据聚类(包含音乐、舞蹈、书画等数据)。从本实验的初步聚类结果来看(即在不进行聚类合并条件下的聚类结果),虽然聚类数较多,但其中较大的聚类却并不多,在实际进行网络热点分析时,只需利用其中的几个较大聚类即可实现。另外,由于实现海量网络数据中热点的识别只需要能够取得其中一个较大的且准确率高的聚类即可,至于该类中元素是多一些还是少一些,都不会影响热点分析结果,这就决定了虽然本文方法仍然是基于阈值进行聚类的,但是却对阈值要求很低,只需要阈值较大,例如在0.5以上,但不要高于0.9即可。

另外,虽然采用本文方法时,取较小的阈值能够获得较少的聚类,不过由于此时各聚类中包含了一定数量的归属错误的文档,这些对热点分析不利,故低阈值并不适合于进行热点分析。