4.2.1 引言
随着科技的发展和网络的普及,网络信息剧增,互联网的相关应用层出不穷,这给人们的生活提供了极大的便利,也提高了人们的工作效率。然而,伴随着互联网的发展,也出现了不少问题,例如互联网的大量重复冗余数据造成了存储资源的大量浪费。正是在此背景下,查重技术应运而生,而查重判断需要计算文档的相似度。相似度计算被广泛用于数字文档检测(Antonio Si et al,1997)、文本聚类、搜索引擎消重、网络舆情的时间演变分析、学术论文抄袭检测(韩冰等,2010)、程序代码抄袭检测(H.T.Jankowitz,1988;D.Gitchell,1998)、自动问答系统、网络广告推送、文本聚类等领域。
文本相似度计算是文本数据挖掘领域的一项基础性技术,传统的相似度计算存在以下不足:
(1)往往需要分词或特征提取支持。虽然目前该技术的分词速度、准确率都有很大提升,但是仍然经常有出错的情况。目前各方所宣称的分词准确率在实际应用中常常无法达到,尤其是在网络舆情这种存在大量不符合语法规则或者存在大量错误的场合更是如此。研究者要花费大量的时间分析提取文档的特征项。
(2)语言依赖。目前更多的方法都是依赖于具体语言的。例如有的方法仅对中文文本有效,有的则仅针对英文文本有效。
(3)较为耗时。由于各类分析需要耗费大量的时间,因此整体上较为耗时。虽然深度学习和自然语言处理的飞速发展,已经有了大量的现成模型可用,但是这并不能保证这些模型一定适合于所进行的研究,另外,这些模型完全依赖于大公司,个人或小团体往往不具备足够的资源去自行训练。
针对目前相关方法的诸多不足,笔者提出了一种基于随机n-Grams(Random n-Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n-Gram的细粒度检测特性和长n-Gram的高效检测特性。实验结果表明:基于R-Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。