4.3.3 R-Grams中的随机策略
在R-Grams文本相似度算法中,通过随机抽取n-Grams从而避开传统特征项提取环节,从而也就规避了很多相应的后续烦琐操作。正因为如此,n-Grams的随机抽取成为该算法的核心内容之一,故有必要对其随机抽取策略作较为深入地研究。
设有两个文档,分别记为Di与Dj,在采用R-Grams相似度计算方法的情况下,将其相似度评价函数定义为:

从上述计算公式可见,倘若在n-Grams的随机抽取过程中抽取位置发生了重复,则可能会导致某些元素对相似度的贡献被重复计算。
但在R-Grams文本相似度算法的原始实验中,采用的是不受任何约束的随机方法。实际上在随机n-Grams抽取的时候,可能会出现多个部分或全部的重复。这是我们应该避免的,所以我们需要在随机的基础上,加上约束,以避免这种重复造成的相似度计算误差。
(1)无约束的随机策略
这是R-Grams文本相似度算法的原始实验中所采取的随机策略。在该种随机策略下,每次抽取元素时的位置无任何约束,故可能出现某些元素的贡献被重复计算的情况,具体的若干情形后文会展开介绍。
(2)位置约束的随机策略
即在抽取同一长度的n-Grams时,确保每次生成的随机数不重复,即取该种长度的元素时,起始位置不重复,从而也保证了同一位置的同一元素对相似度的贡献不会被重复计算。
(3)包含约束的随机策略
在(2)中,虽然保证了同一长度元素的位置不重复,但是由于在每次计算时,会抽取多种长度的n-Grams,故即使每次所取元素的开始位置不同,也有可能导致某些元素的贡献被重复计算,例如2-Gram很可能包含在某个4-Gram元素中,此时则会导致元素对相似度贡献的重复计算问题,出现如图 4-9所示的情形。

图4-9 长元素包含短元素导致贡献的重复计算
(4)元素约束的随机策略
在(2)中,虽然保证了同一长度的位置不重复,但是却并不能保证元素不重复。尤其在某些频繁出现某些词、短语或句子的文档中,该情况最为常见。例如在图 4-10中的文本中,起始位置为1、7、12的三个2-Gram,虽然其位置不重复,但是元素内容均是“重复”,也就是“重复”这一个2-Gram在相似度计算时,其贡献可能会存在重复计算的问题。

图4-10 元素重复情形
(5)复合约束的随机策略
即同时满足上述(3)和(4)两种约束的随机策略。
由于各类约束比较多,实验内容可能较为庞杂,因此下文仅通过实验来研究位置约束随机策略对相似度计算的影响,同时也将对n-Grams的抽取规模做对比研究,并对结果进行较为深入细致的定性和定量分析。