9.1.2 网络爬虫的架构

9.1.2 网络爬虫的架构

网络爬虫的主要任务是下载网页和在网页中解析信息,为完成这两个任务,一个简单的网络爬虫包含图9-1所示的4部分。

图9-1 简单网络爬虫架构

·URL管理器:管理将要爬取的URL,防止重复爬取和循环爬取。

·网页下载器:下载网页的组件,用来将互联网上URL对应的网页下载到本地,是网络爬虫的核心部件之一。

·网页解析器:解析网页的组件,用来从网页中提取有价值的数据,也是网络爬虫的核心部件之一。

·输出管理器:保存信息的组件,将解析出来的内容输出到文件或数据库中。