第10章 你还在用复制粘贴?

第10章 你还在用复制粘贴?

——网络时代的信息搜集(上)

学习目标

通过对本章的阅读,你将会做到以下几点:

1.了解常用的互联网搜索工具;

2.对Python有基本了解;

3.可以熟练使用Python的基本语法。


【案例】估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?(节选)

来源:公众号“小声比比”(ziquanM)作者:梓泉、乎睿数据

提起马蜂窝,大家应该并不陌生

世界杯期间

“为什么要去马蜂窝”的洗脑广告,一度登上热搜

最近看马蜂窝又要融资了,要融3亿美元。

估值已经达到了25亿美元,也就是175亿人民币

一个百亿体量的巨头,称之为独角兽毫不为过

而今日资本、启明创投、高瓴资本、GA等机构的投资

也说明了他们对这家独角兽的殷切期待

但这个独角兽的成色到底怎么样呢?

作为一家主打用户生产内容的旅游网站

马蜂窝的2100万条“真实点评”

接近于核心资产

但如果我告诉你

马蜂窝这2100万“真实点评”

里面有1800万条

是他们通过机器人

从点评和携程等竞争对手那里抄袭过来的

你又会作何感想?

说实话我一开始也很难相信

毕竟是世界杯花了2亿砸广告的大独角兽

然而当乎睿数据团队的报告出炉后

任何一个有眼睛的人,不信也得信了

接下来,请不要眨眼

发现马蜂窝的数据异常

源于一次巧合

我们偶然注意到

马蜂窝点评增长趋势非常诡异

点评的数量,在特定时间节点指数级上升

随后断崖式回落

我们怀疑,这几个节点和融资有关系

然后我们去翻点评,发现了很多自相矛盾的奇怪现象

因此我们决定抓取大众点评、艺龙、携程等产品网站内容,并进行对比

结论让我们震惊

马蜂窝的抄袭,超出了我们的想象

就拿餐饮来说

我们抓取了马蜂窝上116万家餐厅

并抽取了三分之一的样本

然后定了一个非常严格的“抄袭”标准

一字不差的抄袭,才算抄袭

十句话有一句不同,就不算抄袭

以这个为抄袭标准

同时,以抄袭150个不同的大众点评账户

为“抄袭账号”标准

好了,请你深吸一口气

然后看接下来的内容

尽管我们已经把标准定的如此严格

我们还是在马蜂窝上

发现了7454个抄袭账号

平均每个人从携程、艺龙、美团、Agoda、Yelp上

抄袭搬运了数千条点评

合计抄袭572万条餐饮点评

1221万条酒店点评

占到他们官网声称总点评数的85%

这还是我们把抄袭定义得非常严格的情况下

统计出来的结果

……

好,第二波锤来了

你不是说其他用户正常吗?

我们刨!除!了!7554个作弊账号

在余下的所有账号中

选择了1万5千个最活跃的账号

这些人算是马蜂窝的大V了吧?

大家看这1万5个大V的点评热力图

有没有感觉很奇怪?

就像商量好了一样

在2015年年中

这1万5千人突然同时活跃

然后到2016年初,同时沉寂了

这是人类吗?

这是僵尸还差不多

如果你觉得锤得还不够狠的话

那么看这张图

这是马蜂窝和大众点评的餐饮点评趋势图

马蜂窝的部分刨除了抄袭账号

大众点评是

用户周末点评比较活跃,周中比较冷寂

马蜂窝的大部分用户

集中在周中写点评

一到周末,断崖式下跌

酒店点评也是一样诡异

携程是周末比周中明显要多

马蜂窝用户,酒店点评周中比周末多

一到周末,断崖式下跌

这不是很奇怪么?

马蜂窝的用户都在夜场上班的吗?

周中才有空出去玩?

再看一张图,每日餐饮点评数量趋势

大众点评是在午饭和晚饭活跃

对吧,人之常情嘛,吃完饭抒发一下

(原文二维码https://tech.sina.com.cn/i/2018-10-21/doc-ihmrasqt3140231.shtml)

马蜂窝相反,午饭和晚饭时点评少

工作时间(10点-12点)、(2点-5点)更活跃

OK,现在我们得到了马蜂窝的主流用户画像:

他们是一群每天朝九晚五吃喝玩乐

在午晚饭以及周末干正事的人

你是否遇到过用尽各种方法也无法得到符合心意的数据的情况?互联网发展到今天,也许很多的信息都存在在网页上,就如同案例中马蜂窝的数据那样,只是那些包含了我们想要获得信息的网页上并没有我们熟悉的下载按钮,甚至可能还禁止我们复制粘贴,又或者信息量成千上万,网页页数动辄上万,看得人眼花缭乱。这时候我们要如何获取这些信息呢?第10—11章作为本书的补充章节,我们将提供一些实用的方法帮助大家轻松地在互联网中获取它们。