1.1.1 数据获取

1.1.1 数据获取

在大数据时代背景下,数据来源十分广泛,有从互联网等公开渠道获取的,也有从组织内部渠道获取的。数据获取在方法选择、软件工具选择上有所不同。

互联网上的数据主要用网络爬虫来爬取,其中比较典型的有八爪鱼采集器(下载网址:www.bazhuayu.cc),这个工具软件容易上手,比较适合文科学生。但八爪鱼采集器的免费版爬取数据较慢,无法同时自定义多个网站的爬取。如果想实现自由编程、快速爬取,建议学习Python的爬虫相关模块,如bs4、scrapy等。

公司内部的数据,如果是以数据库形式存放的,则可以用SQL语句读取或者用R、Python的数据库连接包读取;如果是xls文件,考虑到存储的数据记录一般都不超过几十万条,则用R语言直接读取(建议用readxl包)。

总体来说,用八爪鱼采集器抓取静态页面类型的中小型网站,编写爬取规则快,数据爬取速度快。对于含JS页面、AJAX页面等动态页面类型网站或反爬功能强的网站,建议使用Python爬虫爬取。R中也有具有爬虫功能的包(如rvest、httr、xml等),但是R语言的爬虫生态还不够强大,比Python更加烦琐。