3.2.1　引言

2026年01月15日

版权

3.2.1　引言

网页中包含着两类最为丰富的资源：文本和链接。这两类资源往往混杂在一起，给人们的信息抽取和利用带来了很大的困难。(https://www.daowen.com)

由于网页本质上就是由特定标签和文本构成的文本文件，并且研究者很早就发现了网页布局的嵌套性和层次性，因此发明了DOM 技术来对网页进行处理。在DOM技术的加持下，网页的信息组织变得层次分明，即文本和链接呈现出一定的规律性——块状分布。基于DOM技术的网页信息抽取方法非常多，如李桐宇等（2018）的工作，为网页大数据的语料库等的构建做出了巨大贡献。

3.2.1 引言

3.2.1　引言