爬虫相关概念及其应用场景

一、爬虫相关概念及其应用场景

网络爬虫(Web Crawler)(以下简称爬虫)也称为网络蜘蛛、蜘蛛爬虫、网络机器人(Web Robot),本质上是一套实现高效下载的程序,可通过遍历网络内容,按照指定规则提取所需的网页数据,并下载到本地形成互联网网页镜像备份。[1]爬虫的本质是程序、工具。我们在收集特定信息时,如果需要访问大量互联网页,单靠人工操作工作量大、效率低。而网络爬虫就类似于一个小机器人,可以代替人工操作,按照我们制定的规则自动化浏览网络中的信息,并进行信息收集、存储甚至整理等行为,这些规则也就是网络爬虫算法。

在互联网时代,网络爬虫最大的意义在于高效地获取数据,完善的爬虫技术能够实现自动化地抓取网页数据,并进行网页数据的解析、存储等操作。基于此特性,爬虫最常见的应用场景为搜索引擎,包括百度、谷歌等。相当于搜索引擎先是通过爬虫在互联网中抓取大量的信息,并进行收录整理。当用户搜索相关信息时,搜索引擎就会对用户输入的关键词进行分析,再将通过爬虫收集整理的信息展现给用户。

随着大数据时代的发展,数据的价值越发凸显,然而当前大多数企业并不具备生产有效数据的能力,或者其掌握的数据远不足以支撑企业的商业化利用需要。因此,通过网络爬虫从其他数据来源处获取数据,并进一步进行数据挖掘、分析、利用等操作就成了许多企业弥补自身数据不足的有效方式。这也促使网络爬虫在更加广阔的场景下得到了运用。比如,在金融借贷领域,金融机构可通过爬虫获取借款人的信用信息、社交信息、电商信息、涉诉信息等,用于风控环节,防范借款人的信用风险。再如,互联网门户网站可以通过爬虫抓取信息,进行新闻内容的生成和展现等。对于企查查、天眼查等企业信息查询平台,其可通过爬虫在海量的互联网信息中抓取企业的基本信息、涉诉信息、风险信息等,并向用户提供针对特定企业的信息查询服务。这些都是网络爬虫应用的体现,网络爬虫早已在不知不觉中渗透进我们生活的方方面面。(https://www.daowen.com)

与爬虫相关的常见概念还包括Robots协议,又称为机器人协议或爬虫规则。Robots协议是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。[2]Robots协议作为一种常见的防爬虫措施,其通过约定抓取网站内容的范围,告知爬虫程序网站中的哪些内容可以抓取,哪些内容不可以抓取。通常对于善意的爬虫程序,在抓取特定网站数据前,会先读取网站的Robots协议,再确定数据爬取的界限。[3]我国法律对于Robots协议的性质及效力并没有作出规定。普遍认为,Robots协议更多是一种网络世界的道德规范/技术规范,其执行只能靠网络用户的自觉遵守,而没有强制性的适用效力。因此,也有人把Robots协议称为君子协议。对于恶意的爬虫程序而言,其往往绕过Robots协议爬取网站数据,给网站及其用户造成严重危害。