网络爬虫的主要任务是下载网页和在网页中解析信息,为完成这两个任务,一个简单的网络爬虫包含图9-1所示的4部分。
图9-1 简单网络爬虫架构
·URL管理器:管理将要爬取的URL,防止重复爬取和循环爬取。
·网页下载器:下载网页的组件,用来将互联网上URL对应的网页下载到本地,是网络爬虫的核心部件之一。
·网页解析器:解析网页的组件,用来从网页中提取有价值的数据,也是网络爬虫的核心部件之一。
·输出管理器:保存信息的组件,将解析出来的内容输出到文件或数据库中。