4.3.4 实验设计与结果分析
(1)实验方案
此处实验使用的中文语料文本收集于互联网。文档的预处理及不同比例文档的生成均与文献(王贤明等,2013)相同,本文所选择的文档以中文为主,同时含有少量数字,但并不包含英文字符。由于R-Grams算法主要针对长文档,故下文也仅讨论在长文档下的随机策略,实验最终所选取文档的字符长度为18996。在该文档的基础上,通过程序用无关英文字符作替换操作,得到与原文档具有10%、20%……90%重复比例的其他文档,并将其分别记为D10、D20……D90,连同原始文档,最终共计得到10个文档。
实验分两组:
实验一:取2、3、4、5、6这五种长度的n-Grams,每种长度各取100个,且实验结果采用10次实验的平均值。在该实验条件下,分别测试上述两种随机策略下的相似度。
实验二:取2、3、4、5、6这五种长度的n-Grams,每种长度各取20个,且实验结果采用5次实验的平均值。在该实验条件下,分别测试上述两种随机策略下的相似度。
两组实验的目的完全一样,第二组主要用于对比,即对比在不同的随机策略下,在n-Grams抽取规模上的差别是否会对相似度计算造成显著影响。实验中的权重函数W(ek)=len(ek),即以元素ek的长度作为该元素的权重评价函数。为后文表述方便及表意明确,将实验一称为“大规模n-Grams实验”,而将实验二称为“小规模n-Grams实验”。
(2)大规模n-Grams实验下的随机策略与相似度关系分析
实验结果如表4-1所示,其中RMSE为均方根误差,即先计算各种随机策略下的相似度实验值与相应真实相似度值差值平方和的平均数,然后开方,下同。下文均以该值作为衡量各随机策略下的实验效果。
表4-1 大规模n-Grams实验结果

从上表实验结果可见,与无约束的随机策略相比较,在采用位置约束的随机策略下,实验结果并未呈现显著差别。即使以两种策略下的最大差值0.01255而论(即D40时的差值),其差值的相对比例约为3%。下面为简化分析过程,对某些不影响定性分析结果的细节不予细究。例如在生成随机位置以便抽取n-Grams元素时,实际可供选择的位置数P=T-n+1(其中T为所有未被生成过的位置数,n为当前待抽取n-Grams元素中的n)。这也就意味着,当文本字符长度为18996,当抽取一个2-Grams元素时,则共有18995个位置可供选择;但当抽取一个6-Grams元素时,则只有18991个位置可供选择。不过相对于所有可供选择的位置数而言,几个位置的差异并不会对结果造成明显影响。其他类似细节同样也不会对结果造成明显影响,故下文分析时不再一一考虑或说明。另外,为了规避位置重复而导致的贡献重复计算问题,每当生成的随机位置与前期位置重复时,就会重新生成一个位置,直到生成一个不再与前期位置重复的位置为止。这也就意味着,虽然可供选择的位置很多,但是其中存在相当大比例的包含重复的位置组合,最终可供利用的只有那些不包含重复的位置组合,故下文讨论时,仅考虑无重复出现的位置组合。
将所有可供选择的位置分为两个区:P区和N区,其中P区中的各个位置处的n-Grams会对相似度计算有贡献,而在N区中的各个位置处的n-Grams则对相似度无贡献,且记可供选择的位置总数为T。另外,设P区可供选择位置占所有可能位置的比例为p,则N区所占比例为(1-p),亦即对相似度有贡献的位置数为:T×p,无贡献的位置数为:T×(1-p)。如图 4-11所示。

图4-11 位置约束随机策略分析
以上述数据和实验参数为例,由于每种长度取了100个n-Grams元素,共取了2-Gram至6-Gram这5种长度,故共计取了500个元素。在取这500个元素的过程中,所有可能的取法约为:18995500≈2.09×102139,其中不包含重复位置的组合数约为:
。由于每次实验最终只会是其中的一个组合,这意味着每次实验的位置组合相同的概率非常低,基本可以认为不相同。即循环次数越多,则相当于在更广泛的位置上挑取了更多的元素,这就解释了循环次数的增多有利于相似度值的收敛这一现象。从同一次实验来说,第一次生成的位置不会发生重复,第二次生成的位置若重复,则还有18994个位置可供选择,即使在生成最后一个位置时发生重复,也仍有18496个位置可供选择,选择余地极大,即使按实验中的最小p值,即p=0.1来计算,在最后一步属于P区可供选择的位置数仍有1850个,故发生重复的可能性极低。不过若对于短文档而言,重复的可能性将大大增大,这在针对短文档的实验中相对而言较易观察到,不过由于R-Grams算法是一种主要面向长文档的相似度算法,故对于短文档的相关实验和讨论此处不再展开。
由于在实际的文本中,重复内容的分布没有固定的规律,故假设所有可供选择的位置均匀分布在P区和N区。因此当随机生成一个位置时,该位置落在P区的概率为p,落在N区的概率为(1-p)。若某次生成的随机位置落在P区,并与前期位置发生重复,则生成下一个位置时,该新位置仍旧落在P区的概率为p,在N区的概率为(1-p)。 也就是说,在采取位置约束随机策略后,当单次随机数生成发生重复时,若p较小(例如p=0.1),则:若重复发生在P区,由于(1-p)>p,则重新生成时将更有可能落到N区,从而导致相似度比无约束随机时偏小;若重复发生在N区,由于(1-p)>p,则重新生成时仍将更有可能落到N区,对相似度计算无影响。总体来说,若p较小,此时更容易导致相似度偏小,呈现出对相似度的“减小作用”。不过,由于p较小时,生成的随机数落在P区的概率事实上就比较小,所以就弱化了这种“减小作用”。
反之,若p较大(例如p=0.9),则:若重复发生在P区,由于(1-p)<p,则重新生成时仍将更有可能落到P区,对相似度计算无影响;若重复发生在N区,由于(1-p)<p,则重新生成时更有可能落到P区,从而导致相似度比无约束随机时偏大。总体来说,若p较大,此时更容易导致相似度偏大,呈现出对相似度的“增大作用”。不过,与前述情况类似,p较大时,生成的随机数落在N区的概率原本就比较小,所以就弱化了这种“增大作用”。
从前文表4-1的数据来看,在位置约束的随机策略下,10%~40%时的相似度值分别为:0.10130、0.20775、0.30545、0.39310,与之相对的无约束随机策略下的四个值分别为:0.10660、0.20600、0.29630、0.40565,并未呈现出明显的“减小作用”。而在位置约束的随机策略下,60%~90%时的相似度值分别为:0.60895、0.70630、0.80580、0.90075,无约束随机策略下的四个值分别为:0.60280、0.70300、0.79620、0.90425,同样也未呈现出明显的“增大作用”。
从结果可见,无论是否采用位置约束随机策略,R-Grams算法都表现出了几乎一样的结果,可见R-Grams文本相似度算法具有很强的抗干扰能力。这种健壮性使得R-Grams相似度算法在研究网络文章转载、网络舆情演化分析、文档替换式抄袭检测等多种应用场合都几乎不会受太大的影响而能取得很好的效果。
(3)小规模n-Grams实验下的随机策略与相似度关系分析实验结果如表 4-2所示。
表4-2 小规模n-Grams实验结果

虽然上表中数据显示“位置约束”的均方根误差比“无约束”略大,但却并不足以得到某种确切的结论,这完全是随机所致,而非必然性结果。事实上,大量的实验表明,该现象并不是一直存在的,并且由于在不同的文本中内容不同,风格不同,其本身内容的重复比例也将影响最终结果,例如若文本中存在大量的重复表达,如类似“哈哈哈哈……”“呵呵~~~~”这种表达,也会对结果有所影响。类似这种现象,还应该通过更多其他种类的约束条件进行规避,限于篇幅问题,此处不再展开。
(4)实验结果比较分析
通过表4-1和表4-2中的实验结果的对比,不难看出,大规模地抽取不同长度的n-Grams,无论在何种随机策略下,其相似度值与真实值之间均更为接近,并且无论在何种随机策略下,相似度都随着n-Grams抽取规模的增大而呈现更好的收敛性。不过同时我们也应注意到,与相似度的极其有限的收敛相比,大规模实验下的n-Grams抽取数量及计算规模分别是小规模实验的5倍和10倍,相应的,计算速度以及对计算资源的消耗也将存在较大的差别,故在实际应用过程中,应根据具体需求确定n-Grams元素的抽取规模。从此处可见,R-Grams相似度算法具有精度和速度调控灵活的优点,在实际应用中,应根据具体的精度要求确定一个合适的n-Grams抽取规模及计算规模,在速度、精度和计算资源消耗等多方面取得平衡。这一特性为R-Grams应用于某些实时性要求较高的场合提供了可能。例如在网络舆情热点发现或者网络新闻转载传播等分析中,研究者往往通过关注一些高相似度的页面即可实现对网络热点的发现,而无须或者不必太在意那些低相似度的页面。因为R-Grams相似度算法在高相似度下的计算结果受n-Grams的抽样规模的影响较小,在这种情况下,可以通过大幅度降低n-Grams的抽取规模从而减少计算量,加快计算速度,满足实时应用需求。