8.1.2 什么是大数据

8.1.2 什么是大数据

什么是大数据呢?关于大数据的概念,有多种描述:

麦肯锡全球研究院(McKinsey Global Institute):大数据是指大小超过经典数据库系统收集、存储、管理和分析能力的数据集。这一定义是站在经典数据库的处理能力的基础上看待大数据的。

维基百科(Wikipedia):规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。

美国国家标准技术研究院(NIST):具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Velocity)和变化频繁(Variability)的特征,并且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。

IBM给出了一个“4V特性”的定义:强调了大数据的数量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity)等方面,后来也将数据价值(Value)吸收进来,成为大数据的“5V特性”,如图8-1所示。

图示

图8-1 5V特性

目前普遍认为的大数据特征主要有以下五种:

①体量大:大数据中数据的采集、存储和计算的量都非常大。大数据究竟有多大呢?正常的计算机处理4 GB数据需要4 min的时间,处理1 TB的数据需要3 h的时间,而处理1 PB的数据需要4个月零3天的时间,起始计量单位只有达到PB的数据才可以被称为大数据。

比如,美国W超市是当今最早开始投资和部署大数据应用的传统企业巨头之一,也因此从中获利。大数据使W超市改变了重复销售的决策,这带来了10%~15%在线销售的明显涨幅,增加收入10亿美元。W超市自己有一个庞大的大数据生态系统。W超市每小时约有100万笔交易,大数据生态系统每天处理TB级的新数据和PB级的历史数据,还需要分析数以百万计的产品数据、数以亿计的客户和搜索关键词。

②速度快:又称为高速,为什么又称为高速?就上面的例子而言,处理1 PB的数据不到1 s就可以实现,这就是高速。为什么要有高速?是因为数据也是有时效性的,超过了某段时间,数据就会失去其作用和价值。数据增长速度快,处理速度也要快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

通过社交媒体分析来提高运营效率和销售收入看起来非常诱人,但W超市要完全完成这点还面临一大考验:社交网络中信息产生的数据流速度很快,就是通常说的“快数据”,用传统的技术手段无法对“快数据”进行有效的分析。如今社交媒体是增长最快的大数据源,如微博、Twitter这类的社交媒体产生的不仅是“大数据”,还是“快数据”,具有很强的时效性。为了解决这个难题,W超市实验室开发出了特别的解决方案和技术,通过大规模的服务器集群对“快数据”流进行极其高速的处理。现在W超市每天能处理数以十亿计的社交媒体更新信息。

③种类多:就是种类和来源多样化,包括结构化、半结构化和非结构化数据。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等,真正诠释了数据的多样性,也对数据的处理能力提出了更高的要求。

如前面所说,W超市也十分重视从Twitter、Facebook等社交媒体获取数据。并且在进入Web 2.0时代后,相较于Web 1.0用户被动地接受信息,现在主动权掌握在了用户手中,用户可以上传、分享自己的原创信息,网站和用户有了很好的交互,这也使得这些年来网络数据量呈现出了爆炸式的增长。但也是因为这些技术和思想的进步和发展使大数据涵盖了更多的内容,丰富了大数据对数据的采集和获取的方式。

④价值高:就是获取有价值的数据。如果用石油行业来类比大数据分析,在互联网金融领域甚至整个互联网行业中,最重要的并不是如何炼油,而是如何获得优质原油。最重要的就是挖掘更多有价值的信息。因为大数据中数据价值密度相对较低,可以说是浪里淘沙,却又弥足珍贵。随着互联网及物联网的广泛应用,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值是大数据时代最需要解决的问题。(https://www.daowen.com)

W超市很出色地对数据进行了挖掘和利用。W超市每天有超过40 PB的数据可供分析,在如此庞大的数据集中,有用价值的密度其实是很低的。但是W超市运用一切技术提取信息,为企业在决策前将成本降到最低,并创造新的消费机会。

举个例子,小张是W超市的老顾客了,而他在近几年购买商品的品种、数量、型号、时间信息、支付方式信息、商品配送信息、会员卡信息、住址、联系方式,甚至小张在W超市商场购物的监控视频、门禁数据等线下消费信息都已经被W超市的信息系统详细记录。那么这些数据有什么用呢?

当小张来到W超市时,他手机上的W超市APP可能已经收到了来自购物清单中八成的商品信息和优惠券信息。当小张买好东西,用手机支付时,在移动支付完成的瞬间,W超市已经在数据端开始更新小张的消费信息,并开始预判小张下次购买某些商品比如啤酒、牛奶的时间和数量。最后将数据提交给APP的推荐业务。

在商场购物时,小张还看中了一款网球拍,但是没有加入扫描清单,也没有购买。这时他或许不知道,就在他旁边的那个塑胶运动模特的脑袋里的摄像头记录了他当下的一举一动,包括他的表情变化、在此停留的时间长短、试拍是右手握拍还是左手握拍等一系列的细节。到了第二个月,小张手机的推送信息里就多了W超市推荐的性价比更高的一款球拍。

有一天,小张不想出门购物了。于是他打开W超市的网上商场,Cookie自动登录并显示自己上次登录的时间。在小张的购物首页推荐上有会员八折优惠的某款网球拍,还有一款全钢特价的西门子榨汁机。小张会心一笑:邻居王叔叔昨天在Twitter上抱怨自家的榨汁机真差劲时,小张顺手点了个赞,没想到W超市就知道了。随后小张又注意到自己在Facebook上唯一关注的某音乐人的新专辑已经发行售卖,这让小张很是心动。另外,自家附近的一家健身房的年卡正在打折出售,小张摸了摸肚子上的赘肉发出一声叹息,心想:“W超市你怎么知道这么多!”

从这个小例子看出,通过大数据对数据的挖掘和利用,W超市为自己的用户带来便利和个性化的用户体验,也为自己的运营带来了可观的销售增量。

⑤真实性:大数据中的内容与真实世界中发生的信息交换是息息相关的,要保证数据的准确性和可信赖度。研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。

其实这部分在上面“价值高”的部分已经有所体现。通过大数据的分析处理,最后能够解释结果和预测未来。但是前提是提取的数据要有足够的准确性。W超市通过大数据获取并分析用户提供的信息,可以知道用户独特的需求和喜好,能够预测出用户下一步动作,并在用户行动前向用户推送信息。

大数据的发展分为以下三个阶段:

第一阶段(20世纪90年代至21世纪初):随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。

第二阶段(21世纪前10年):Web 2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和Map Reduce等大数据技术受到追捧,Hadoop平台开始大行其道。

第三阶段(2020年以后):大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度提高。