3.3.1 研究现状

3.3.1 研究现状

网页信息抽取方法众多,抽取的内容涉及正文、标题、时间以及各类结构化或半结构化信息。其中,结构化和半结构化的信息以其包含丰富的文本内容吸引了诸多研究人员的兴趣。在结构化和半结构化信息抽取中,较为典型的即对全循环结构的论坛帖文以及各类用户评论的抽取。此外,部分新闻或博客的网页正文也是全循环结构。循环结构是网页中较为普遍的一种结构,对论坛网页来说更是如此。这一结构的网页中包含了丰富的富有价值的信息,因此也吸引了大量相关研究者。例如,Stack Overflow网站中具有丰富的问题及相应的人工选择的答案,抽取这些信息将具有重要的价值(Elalfy D.et al.,2018)。另外,需要说明的是,循环结构网页中同样存在着单一特定内容的抽取问题。

循环结构网页内容的抽取,常常是基于标签树或DOM树而进行的,并辅以若干抽取规则或者模板完成。如关冕等(2010)通过标签树识别数据区,进而利用帖子标题、帖子内容等4条规则识别数据记录。抽取模板的生成分为手工和自动两种方式。其中,手工方式效率低、更新维护复杂。因此,研究重点普遍放在自动模板生成上。自动模板主要是通过发现网页内或网页间的重复模式实现的。其中,通过网页间的重复模式生成抽取模板的方法是一种依赖型抽取。它们不仅需要多个网页,往往还需要网页的URL信息来辅助抽取。仅通过网页内重复模式生成模板的方法为无依赖型抽取,因而执行效率往往更高。在现有文献中,重复模式往往体现为标签路径、宏观布局、视觉特征上的相同或相似,其中视觉特征相同的本质在于其结构的相同。王允等(2010)首先对网页进行处理,只保留块级节点,继而利用Web论坛网页布局相似程度找到含有大量相似子节点的节点。节点相似性是通过计算DOM树节点内子节点之间的相似度来实现的。计算过程中利用了节点属性,例如width、style、align等。但目前互联网上绝大多数的网页均采用CSS来设计,即width、align等诸多节点属性不再在页面中出现,而是被移到独立的CSS文件中,因而这也就意味着该方法的执行需要同步解析网页文件和对应的CSS文件,在效率上存在较大问题。韩普等(2010)利用了多个页面间标签路径的共性特征来分析抽取规则,方法简捷有效。但该方法也存在两点不足:(1)该方法需要预先执行训练以便发现重复模式从而生成抽取规则;(2)该方法在训练时需要人工确定参与重复模式分析的论坛页面,尤其是针对存在楼层间引用的页面更是如此。李志义等(2019)同样利用了多个页面间标签路径的共性特征来抽取信息。该方法通过编辑距离来计算标签路径相似度,好处是具有一定的模糊匹配能力,然而同时也会带来误匹配的副作用。而且其相同模式的网页是通过大批量网页中标签路径的相似度计算来挑选,效率较低,远不及从当前待提取页面中分析的效率。此外,该方法需要较大量的人工标注,这也导致了其效率低下;且仅使用了由DOM节点构造而成的标签路径,容易导致大批量的噪声组,甚至在正常组中混杂了太多的噪声标签路径。王宪发等(2019)提出了基于视觉特征的网页信息抽取方法,该方法同时适用于论坛和新闻网页。但该方法需要人工监督,且标注极为耗时。

由于在类似论坛这种具有循环结构的网页中,存在大量的循环重复的结构模式,且重复往往存在于多个结构层次中。仅仅利用论坛结构或视觉特征信息,研究者一般无法准确的完成内容提取,而需要结合其他特征进行,例如内容特征。密度特征是最为常用的一个内容特征之一,也是网页正文抽取的一个常用指标。但密度特征也有其不足。例如Zhang等(2018)阐述了密度特征的不足,并使用了标点符号来区分文本。他还提出了一种统一的信息抽取框架,使其既可以适用于文本内容,也可以适用于结构化数据。针对正文内容抽取,文中采用VVTC指标计算排序并挑选待抽取节点。针对结构化数据记录的抽取,他采用基于DOM树的HMM模型进行研究。刘锐等(2018)针对传统的正文提取方法,以文本密度和布局结构为依据,而忽视了论坛内容的语义信息这一问题。他提出了基于网址结构的聚类方法(Universal Resource Locators’ Structure Clustering,USC)以及基于词汇关键程度的关键词打分筛选方法(Keyword Scoring Filter,KSF)。两种方法仅需要对数据集中的少量样本进行解析,提取出通用规则,便可满足大规模提取的需要。刘春梅等(2017)将当前广泛存在的开源论坛网页按结构相似度进行了簇划分,证实了其效果好于基于版本号的划分策略。

本节将研究Web页面广泛存在着的一种用于组织信息的循环结构,它们广泛存在于新闻、论坛、博客、微博等各类Web页面中。例如,几乎所有论坛页面中的核心信息都是在循环的楼层结构。其中,核心信息全部存在于循环结构中的,称为全循环结构,典型代表是论坛。本节主要研究全循环结构(论坛)网页的文本提取。

笔者对论坛软件版本和同一版本所需抽取模板数量进行了统计分析后发现,相同版本号的开源软件生成的网页在结构方面依然存在一定差异,无法使用一个模板完成抽取;同时,通过进一步分析,笔者发现有些不同版本号的开源软件的网页在结构特征方面反而相似度很高。因此利用版本号对网页进行划分的方法难以很好地利用开源软件生成论坛网页间的相似性,它不是有效的簇划分策略。