1.1.2 数据存储
从互联网上爬取来的数据,如果数据量不大(如万条以内),可以以xls文件的形式存放,之后直接在Excel中处理。不过仍然建议用R语言来处理,因为R语言中的dplyr、tidyr等包功能强大,数据处理很方便。如果数据量较大(数十万条以上)或价值高(今后要重复使用,且需要对外展示),可以用csv文件的形式保存,也可以直接存放在MySQL等数据库中。如果数据量在百万条以上,可以用txt或csv文件的形式保存,在用R包读取操作时,建议用data.table包的fread函数实现。对于数据量在亿级以上的数据,建议用Python中的特有包来读取。