3.2.4 实验

3.2.4 实验

(1)实验数据及方法

目前专门用于网页正文抽取评测且获得公认的数据集极少。CLEANEVAL(Baroni M et al,2012)是一个较为经典的用于评测网页抽取的数据集,提供了英语和中文两种语言的网页合计千余个标注结果。但由于该数据集长期未更新,数据集中所收录的大量网页的来源网站有的已关闭,导致其所提出的方法无法使用该数据集。因此我们采用搜狗实验室提供的全网新闻数据(搜狗实验室,2021),并自行采集了若干国内较为知名的一些网站,得到了一些最新的网页数据。样板最终合计10个网站,每个网站抽取200个网页。

实验相关参数设置如下:

①网页元素化的划分标记采用回车换行符;

②相似网址数 s=30;

③权重调整因子 ∝=0.8;

④候选链接数为2。

另外,为了和基于密度的方法(简记为CED)进行比较,笔者采用廖建军(2018)所提的密度方法及设置针对同样的数据进行了抽取实验。

(2)实验结果

利用前述所提的方法和基于密度的提取方法,针对如上数据的实验结果如表3-1所示。其中P表示精确率,R表示召回率。

表3-1 实验数据及结果

从上表可见,前述方法的准确率平均值为95.02%,召回率为98.23%,表现良好,其中召回率表现尤其突出,近一半网站的召回率为100%。从三个评价指标平均值来看,都较基于密度的方法(CED)稍好。

从具体站点来看,前述方法在北青网、温州网等站点表现突出,但在新华网、中国网等站点的表现有待进一步提升。不过整体而言,在多数站点上,本方法优于基于密度的方法。

(3)抽取失败的几种现象

通过分析失败页面的抽取结果,可将失败的主要表现总结为如下几种:

①未抽取到正文。即完全没有任何正文部分被提取,该现象的直接原因是未提取到首元素或尾元素或者两者均未被提取。

②抽取到的正文带有“小尾巴”。即除正常的正文外,还抽取了正文之前或之后的一些其他非正文的内容,该现象的直接原因是提取到的首元素或尾元素过于宽泛。

③抽取到的正文有部分遗漏。即有一部分正文没有被正常提取,往往遗漏的是正文前面的一部分或正文后面的一部分,该现象的直接原因是提取到的首元素或尾元素过于紧密。

(4)与文本密度方法的比较

结合对具体页面的抽取结果的分析可知,所提出的方法与基于文本密度的方法主要异同点体现在下面几个方面:

①当处理正文极短的页面时,相对而言,所提出的方法往往具有非常好的效果,这正是常规基于文本密度抽取方法的短板。基于文本密度的方法极其容易受到其他非正文纯文本的影响,尤其是在处理正文较短的网页时,错误率更高。例如http://ent.163.com/17/1110/13/D2SQ8TG500038FO9.html。传统的基于文本密度等信息的方法一般无法正确处理这一类页面,因为正文太短时,该区域的文本密度很低,从而导致误判。对于这种情况,所提出的方法则一般不会出现这种错误。

②当处理正文文本较长的页面时,两个方法效果基本相当。

③当待抽取页面中不存在相关链接时,所提出的方法无法实现正常抽取,例如http://sports.xinhuanet.com/c/2017-11/14/c_1121950475.htm。

总体而言,笔者所提出的方法在测试数据集上表现良好,在精确率的表现上稍好于对比方法,在召回率的表现上则明显好于对比方法。另外,笔者所提出的方法在进行模板提取时,一般不会出现提取不到首尾元素的问题。这是因为,对于任意模糊正文区域,在“最差”的情况下,起始元素会得到“ </head>”或“<body>”;而尾元素会得到“</body>”。此时由它们界定的区域虽然过于宽泛,但是却不会遗漏正文,此时召回率为100%,这正是笔者所提出的方法能取得极高召回率的根本原因。