3.2.3　基于逻辑链接块的网页正文抽取模板生成及正文抽取

2026年01月15日

版权

（1）相关定义及方法原理

为了下文表述严谨和方便，此处先给出相关的定义。

①HTML构件及网页原子化

HTML构件是指构成HTML的基本要素，构件也被称为原子，记为ei，具体分为HTML标签构件、内容构件。网页原子化是指将网页代码转换为HTML构件（原子）表达的过程。HTML原子化的表达记为：H={e1，e2……en}，n=Card（H）为网页中构件集合中的构件总数。

②复合构件、网页元素化及行元素

复合构件是由若干邻近的构件复合而成，也被称为元素。网页元素化是指将网页代码转换为复合构件（元素）表达的过程。元素化的表达记为：H={E1，E2……Em}，m为网页HTML代码按照某种划分规则后的复合构件数。一般地，网页元素化的划分标记应采用回车换行符，即利用网页HTML代码中的回车换行符将网页元素化，此时HTML中的每一行即被称为行元素。其好处在于充分利用了网站开发者对网页的某种程度的语义划分，因而效果极佳。

③网址相似度规则RuleURL

网址也是一项极为有用的资源，尤其在一些初步筛选场合，例如对网页或链接分类及高相似度网页的筛选（Inma Hernández et al，2014；Inma Hernández et al，2016），这可以减少不必要的页面下载过程。

为减少整个程序的处理时间，本方法中利用URL进行初筛。设当前处理网页的网址为参考网址，记为url，从该网页提取的同域网址为URL={url1，url2……urln}，则第i个网址与参考网址url的相似度为：

其中，lcs 表示求取的最长公共字符串，Len 表示求取的字符串长度。

④模糊正文区域识别规则RuleText及模糊正文长度lt

设网页元素化后得到H={E1，E2……Em}，对各复合构件依次进行文本抽取得到T={t1，t2……tm}，其中ti表示由Ei抽取而得到的文本。则模糊正文区域为：

即模糊正文区域是通过识别包含最长文本的构件行序号来表达的。模糊正文长度即模糊正文区域对应的所抽取的文本长度，记为lt=Len（ta）。

⑤首元素判别规则RuleFirst、尾元素判别规则RuleLast(https://www.daowen.com)

首元素是指处于网页正文区域之前且具有唯一性的复合构件。尾元素是指处于网页正文区域之后且具有唯一性的复合构件。首元素和尾元素是网页中具备标识性、且往往也具有一定通用性的复合性构件，网页正文抽取模板正是依赖于首元素和尾元素而构成。

正文区域的首元素和尾元素的识别是基于（c+1）个页面进行，其中前c个页面即候选链接对应的页面，第（c+1）个页面即当前待提取正文的网页。这些页面记为H1，H2……Hc+1，第i个页面元素化或原子化表达为 im=Card（Hi）表示第i个页面中的复合构件数，第i个页面的模糊正文区域为ai，利用ai可以将Hi分为两个部分，分别记为和