4.3.3　　R-Grams中的随机策略

2026年01月15日

版权

在R-Grams文本相似度算法中，通过随机抽取n-Grams从而避开传统特征项提取环节，从而也就规避了很多相应的后续烦琐操作。正因为如此，n-Grams的随机抽取成为该算法的核心内容之一，故有必要对其随机抽取策略作较为深入地研究。

设有两个文档，分别记为Di与Dj，在采用R-Grams相似度计算方法的情况下，将其相似度评价函数定义为：

从上述计算公式可见，倘若在n-Grams的随机抽取过程中抽取位置发生了重复，则可能会导致某些元素对相似度的贡献被重复计算。

但在R-Grams文本相似度算法的原始实验中，采用的是不受任何约束的随机方法。实际上在随机n-Grams抽取的时候，可能会出现多个部分或全部的重复。这是我们应该避免的，所以我们需要在随机的基础上，加上约束，以避免这种重复造成的相似度计算误差。

（1）无约束的随机策略

这是R-Grams文本相似度算法的原始实验中所采取的随机策略。在该种随机策略下，每次抽取元素时的位置无任何约束，故可能出现某些元素的贡献被重复计算的情况，具体的若干情形后文会展开介绍。

（2）位置约束的随机策略

即在抽取同一长度的n-Grams时，确保每次生成的随机数不重复，即取该种长度的元素时，起始位置不重复，从而也保证了同一位置的同一元素对相似度的贡献不会被重复计算。

（3）包含约束的随机策略(https://www.daowen.com)

在（2）中，虽然保证了同一长度元素的位置不重复，但是由于在每次计算时，会抽取多种长度的n-Grams，故即使每次所取元素的开始位置不同，也有可能导致某些元素的贡献被重复计算，例如2-Gram很可能包含在某个4-Gram元素中，此时则会导致元素对相似度贡献的重复计算问题，出现如图 4-9所示的情形。

图4-9　长元素包含短元素导致贡献的重复计算

（4）元素约束的随机策略

在（2）中，虽然保证了同一长度的位置不重复，但是却并不能保证元素不重复。尤其在某些频繁出现某些词、短语或句子的文档中，该情况最为常见。例如在图 4-10中的文本中，起始位置为1、7、12的三个2-Gram，虽然其位置不重复，但是元素内容均是“重复”，也就是“重复”这一个2-Gram在相似度计算时，其贡献可能会存在重复计算的问题。

图4-10　元素重复情形

（5）复合约束的随机策略

即同时满足上述（3）和（4）两种约束的随机策略。

由于各类约束比较多，实验内容可能较为庞杂，因此下文仅通过实验来研究位置约束随机策略对相似度计算的影响，同时也将对n-Grams的抽取规模做对比研究，并对结果进行较为深入细致的定性和定量分析。

4.3.3 R-Grams中的随机策略

4.3.3　　R-Grams中的随机策略