8.3.5 实验四:关注者属性对UAIU算法性能的影响

8.3.5 实验四:关注者属性对UAIU算法性能的影响

为了进一步验证关注者的搜索意图对用户搜索意图理解与挖掘性能的影响,以下通过多组实验对其进行验证。权重参数π设置为0~1变化,其增加值为0.1。通过调整π的取值,观察UAIU算法和两个聚类性能最好的对比算法UCIT和CSTM的性能变化。评价指标采用准确率(Precision)、调整的兰德指数(ARI)、聚类纯度(Purity)及归一化互信息(NMI)。对于UAIU算法和UCIT算法直接通过用户关注者的搜索意图进行建模,而对于其他算法仍然通过使用平均用户搜索意图。为了实验的公平与合理,引入另外一个对比算法UAIU-avg,也就是利用用户的平均搜索意图替换掉UAIU算法中原始的关注者的搜索意图进行实验。由于其他对算法获取的结果与UCIT和CSTM算法结果相近或者比UCIT和CSTM算法的结果差,故本次实验结果并未列出其他对比算法的结果。UAIU算法与对比算法在不同权重参数下的聚类性能结果如图8-6所示。

图8-6 UAIU算法与对比算法在不同权重参数下的聚类性能对比

当权重参数π=0时,UAIU算法与对比算法都表现得较差,主要是因为用户关注者的搜索意图或者平均搜索意图没有被引入。随着权重参数π从0增加到0.7,UAIU算法和对比算法的性能显著提升,当π=0.7时,UAIU算法和对比算法的性能趋于最高值。对于UAIU和UCIT算法,越来越多的用户关注者的搜索意图的权重被赋予,而在CSTM和UAIU-avg算法中给予了更多的平均搜索意图的权重。

当权重参数π>0.7时,UAIU算法和对比算法的性能快速下降,主要原因是更多的用户关注者的搜索意图被生成,混淆了用户自身的搜索意图,给用户的搜索意图理解与挖掘带来了挑战。当权重参数π=1时,UAIU算法和对比算法都表现较差。用户本身的意图和偏好被忽视,进而无法获取真实的用户的搜索意图。本章提出的UAIU算法的结果仍然优于其他对比算法,主要原因是UAIU算法通过区分建模普通词和主题词,并且引入RNN和IDF作为权重先验来学习词对的关联关系,能够持续地生成一致性的主题,有助于解决用户搜索意图理解与挖掘过程中的上下文稀疏性问题,上述实验验证了UAIU算法能够有效地理解与挖掘在线社交网络用户搜索意图。