网页中包含着两类最为丰富的资源:文本和链接。这两类资源往往混杂在一起,给人们的信息抽取和利用带来了很大的困难。
由于网页本质上就是由特定标签和文本构成的文本文件,并且研究者很早就发现了网页布局的嵌套性和层次性,因此发明了DOM技术来对网页进行处理。在DOM技术的加持下,网页的信息组织变得层次分明,即文本和链接呈现出一定的规律性——块状分布。基于DOM技术的网页信息抽取方法非常多,如李桐宇等(2018)的工作,为网页大数据的语料库等的构建做出了巨大贡献。