3.2.3 基于逻辑链接块的网页正文抽取模板生成及正文抽取

3.2.3 基于逻辑链接块的网页正文抽取模板生成及正文抽取

(1)相关定义及方法原理

为了下文表述严谨和方便,此处先给出相关的定义。

①HTML构件及网页原子化

HTML构件是指构成HTML的基本要素,构件也被称为原子,记为ei,具体分为HTML标签构件、内容构件。网页原子化是指将网页代码转换为HTML构件(原子)表达的过程。HTML原子化的表达记为:H={e1,e2……en},n=Card(H)为网页中构件集合中的构件总数。

②复合构件、网页元素化及行元素

复合构件是由若干邻近的构件复合而成,也被称为元素。网页元素化是指将网页代码转换为复合构件(元素)表达的过程。元素化的表达记为:H={E1,E2……Em},m为网页HTML代码按照某种划分规则后的复合构件数。一般地,网页元素化的划分标记应采用回车换行符,即利用网页HTML代码中的回车换行符将网页元素化,此时HTML中的每一行即被称为行元素。其好处在于充分利用了网站开发者对网页的某种程度的语义划分,因而效果极佳。

③网址相似度规则RuleURL

网址也是一项极为有用的资源,尤其在一些初步筛选场合,例如对网页或链接分类及高相似度网页的筛选(Inma Hernández et al,2014;Inma Hernández et al,2016),这可以减少不必要的页面下载过程。

为减少整个程序的处理时间,本方法中利用URL进行初筛。设当前处理网页的网址为参考网址,记为url,从该网页提取的同域网址为URL={url1,url2……urln},则第i个网址与参考网址url的相似度为:

其中,lcs 表示求取的最长公共字符串,Len 表示求取的字符串长度。

④模糊正文区域识别规则RuleText及模糊正文长度lt

设网页元素化后得到H={E1,E2……Em},对各复合构件依次进行文本抽取得到T={t1,t2……tm},其中ti表示由Ei抽取而得到的文本。则模糊正文区域为:

即模糊正文区域是通过识别包含最长文本的构件行序号来表达的。模糊正文长度即模糊正文区域对应的所抽取的文本长度,记为lt=Len(ta)。

⑤首元素判别规则RuleFirst、尾元素判别规则RuleLast

首元素是指处于网页正文区域之前且具有唯一性的复合构件。尾元素是指处于网页正文区域之后且具有唯一性的复合构件。首元素和尾元素是网页中具备标识性、且往往也具有一定通用性的复合性构件,网页正文抽取模板正是依赖于首元素和尾元素而构成。

正文区域的首元素和尾元素的识别是基于(c+1)个页面进行,其中前c个页面即候选链接对应的页面,第(c+1)个页面即当前待提取正文的网页。这些页面记为H1,H2……Hc+1,第i个页面元素化或原子化表达为 im=Card(Hi)表示第i个页面中的复合构件数,第i个页面的模糊正文区域为ai,利用ai可以将Hi分为两个部分,分别记为

将各页面切分后的前后两个部分分别求交集,分别得到:

其中,u=Card(Eitrs,F),v=Card(Eitrs,L),分别表示模糊正文区域前后复合构件集合交集的元素数。需要注意的是,求交集后各元素的顺序应维持其原有的顺序不变。

从上述两个集合中,我们利用特征“首尾元素都应该出现尽可能的少,且尽量接近正文区域”即可实现对正文的抽取。

⑥正文抽取性能评价指标

针对某单一网页的评价标准,我们采用常规的精确率(Pi)、召回率(Ri)进行评价。分别定义如下:

其中,i用于标识某个单一网页,同时也为了和下文整个数据集的两个指标区分,因此将i作为单一网页评价指标的下标或上标。表示针对第i个网页的手工抽取文本,表示针对第i个网页的自动抽取文本。

针对某个数据集的抽取结果,同样采用精确率P、召回率R两项指标,只是此处P、R两项指标是该数据集中各网页抽取精确率和召回率的算术平均值。定义如下:

其中,n表示数据集大小,i表明数据集中于第i个页面。

(2)网页正文抽取模板的生成

一般地,几乎绝大多数的网站,例如新闻、博客等类型网站,其具体的内容详情页面中,网页中部主要用于展示该页的主要内容以及大量相关链接。这些有着各类相关链接的页面,往往具有相同的结构模式。相同的结构模式为模板的自动化抽取提供了理论上的可行性。

从上述分析我们不难得出,模板分析的关键点如下:

①相似网址的识别

相似网址的识别通过网址相似度规则RuleURL进行,其目的在于获取 s 个相似网址,以供后续相关计算使用。

②网页元素化

在常规的未压缩或压缩极其有限的情况下,网页元素化的划分标记采用回车换行符即可;但若针对的是严重压缩的网页,则应先执行网页原子化或元素化操作。

③定位模糊正文区域

模糊正文区域定位,即识别出正文区域的特定子区域,而不必准确的识别出整个正文文本块。这也是本方法不同于以及优于其他基于文本密度来提取正文方法的关键之处。

④确定首元素和尾元素

利用首元素和尾元素规则,识别出正文区域之前和之后的标识性复合构件,从而确定该网页的正文抽取模板。

(3)网页正文的抽取

利用前述方法对网页进行网页正文抽取的核心流程如图3-2所示。

图3-2 网页正文抽取核心流程