4.3.5 小结与讨论

4.3.5 小结与讨论

本节针对R-Grams文本相似度算法中的核心内容,即n-Grams的随机抽取策略做了较为深入的探讨。对于原始算法中的无约束随机策略可能导致某些元素对相似度贡献重复计算的问题,笔者提出了在元素随机抽取过程中最为基本的约束条件,即位置约束。通过实验发现,R-Grams文本相似度算法在各种约束随机策略下,基本表现出与无约束随机策略下相似的结果精度。通过两组实验对比发现,随着n-Grams的随机抽取规模的增大,相似度逐渐向相似度真实值收敛,但收敛幅度不大。R-Grams文本相似度算法的这些特性显示了该算法具备计算精度高、速度易于调节,以及很强的抗干扰能力的优点,并可广泛应用于网络文章转载、网络舆情时间维度的演化分析、局部修改式抄袭和替换式抄袭检测等多种应用场合。对于该算法更多在约束条件下的随机策略,则有待研究者的进一步深入研究。