本节提出的基于逻辑链接块的网页正文模板抽取方法,无须人工干预,自动化程度高,对HTML代码的规范性要求不高,也无须对HTML进行精细解析,因而程序容易实现且更健壮;逻辑链接块的识别和去除,剔除了对模板抽取容易造成干扰的一些无关结构,大大提升了后续模块分析和抽取的正确率。所提出的方法可以广泛应用于新闻、博客等网页正文的自动化抽取,因此可以应用于新闻门户等平台的网络舆情信息抽取。