3.2.2 相关工作
网页信息抽取是指根据具体的分析和应用需求,从网页中抽取特定的信息内容。网页正文抽取是该研究的主要方向之一,其研究历史较长,相关方法众多。有学者将网页的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类(AL-GHURIBI S M et al,2013),其中Wrapper和模板法的通用性一般认为较差,且一般需要人工参与,并需要持续地更新维护,极为耗时费力。鉴于此,无须模板支持或人工监督的Wrapper算法被提了出来,并取得了较好的效果(WANG J F et al,2009;HE J et al,2013)。机器学习的方法需要借助合适的训练集和适量的特征(PETERS M et al,2013;Hassan A et al,2014),且难以完全脱离人工监督;利用视觉布局特征方法的典型代表即VIPS及类似方法(Cai D et al,2003;Michael Cormier et al,2016;Jan Zeleny et al,2017),该方法虽然准确率较高,但是对网页的解析要求过于精细,计算消耗大,面对大量非规范化的网页时其健壮性难以保证,且在当前普遍采用CSS(W3C,2021)来控制各页面标签的视觉呈现效果的情况下,还需要另行解析相关CSS,最终导致解析任务量大,程序健壮性欠缺;基于HTML特征的相关方法大多偏向一些启发式规则(XUE Y et al,2007;AHMADI H et al,2012;JI X W et al,2010;WANG J Q et al,2008;Patricia Jiménez et al,2016)或一些统计规律,通用性有待提高,且各种抽取规则的制作也较为耗时费力。此外,也有研究者提出了其他的一些方法,例如利用模糊神经网络实现页面分块的方法(CAPONETTI L et al,2008),MSS页面分块方法(PASTERNACK J et al,2009)等;此外也有将上述方法进行一些融合的方法,例如文献(王海艳等,2016;Leandro Neiva Lopes Figueiredo et al,2017)。文献(Emilio Ferrara et al,2014)对各类抽取方法都进行了分类。目前关于网页信息抽取的相关方法基本都是基于标签树(WONG T L et al,2009;SON J-W et al,2013;UZUN E et al,2013)进行的,而DOM(W3C,2021)是构建标签树最为常见的一种方式,XPath则经常基于DOM进行内容分析及抽取(ÁLVAREZ M et al,2008);其他方法也基本都以HTML标签树或DOM为基础(ÁLVAREZ M et al,2008;李志文等,2013)。这类方法都对HTML的规范性提出了较高的要求。另外,在基于解析HTML的DOM的方法中,常需结合文本或链接密度(刘鹏程等,2018;郗家贞等,2016;廖建军等,2018;朱泽德等,2013)、标签比率(David Insa et al,2013;Yu-Chieh Wu et al,2016)、标签路径(Wu Gong-Qing et al,2016)信息等进行正文抽取,这些方法在处理正文很短的页面时效果欠佳,因此短正文的情况已获得研究人员的关注并取得一些成果(郗家贞等,2016)。
现有的网页信息抽取相关方法,尤其是基于标签树的各种方法需要网页遵从较好的规范,这种规范既包括HTML、XHTML等标签语法规范,也包括语义设计方面的规范。但实际上,在海量的Web页面中,有相当数量的网页并不遵从HTML等标签语法规范和语义设计规范。此外,基于DOM的分析还受CSS、背景图、Flash等的影响(Ahmet Selman Bozkir et al,2018)。这就决定了基于标签树或DOM的各种方法仅能在设计规范或易于矫正的网页中获得良好的效果,而在非规范化网页中则显得捉襟见肘。
基于长期的网页解析经验,我们发现:网页中的链接,除了可以站在DOM解析的角度来进行标准块状切割,也可以站在另外一种角度来审视——逻辑链接块。我们(Wang,X.M.et al,2015)提出了代码距离、文本距离、链接距离,并基于此提出了逻辑链接块的概念及其识别方法。该文的逻辑链接块发现方法,避开了传统链接块识别所不可或缺的标签树解析或者DOM解析过程,从而也就无须在标签树解析或DOM解析上耗费大量的计算资源,同时避免了解析纷繁复杂且缺乏规范的HTML时的各种问题;另外,逻辑链接块的判别规则简单、无须复杂计算,对Web页面进行一次扫描即可同时完成逻辑链接块的发现与判别。其分析速度快、抗干扰性强、能更好地适应设计不规范的Web页面,且不要求链接块内的链接主题内聚性高,这也就决定了该方法在Web页面文本抽取方面有着潜在的应用价值。
因此我们提出了一种基于逻辑链接块的新闻网页正文抽取模板的抽取方法,该方法在抽取网页模板及正文的过程中,仅仅只依赖于当前网页自身,无须启发式规则的支持,这决定了该方法具有良好的通用性;该方法对网页模板的抽取过程,无需人工干预,自动化程度高;抽取的模板形式简单,容易使用。这就决定了该方法在Web页面正文抽取方面有着潜在的应用价值,在其他对链接块精细粒度要求不高的Web信息处理和挖掘领域中也具有广泛的应用前景。