1.1.2 大数据

1.1.2 大数据

2012年以来,大数据(Big Data)一词越来越多地被人们提及与使用,人们用它来定义信息时代产生的海量数据,并命名与之相关的技术发展和创新。那到底什么是大数据?大数据与数据库领域的超大规模数据库(Very Large Database,VLDB)、海量数据(Massive Data)有什么区别?

“超大规模数据库”这个词是在20世纪70年代中期出现的,是指数据库中管理的数据集有数百万条记录。“海量数据”则是在21世纪初出现的词,用来描述更大的数据集以及更丰富的数据类型。2008年9月,《科学》(Science)杂志发表了一篇名为“Big Data:Science in the Petabyte Era”的文章,“大数据”这个词开始被广泛传播。

无论是“超大规模数据库”“海量数据”,还是“大数据”,这些词都表示需要管理的数据规模很大,已经超出了当时的计算机存储和处理技术水平,需要计算机界研究和发展更加先进的技术才能更有效地存储、管理和分析它们。

(1)大数据的定义

对于大数据,不同的研究机构基于不同的角度给出了不同的定义:

高德纳(Gartner)咨询有限公司给出了这样的定义:“大数据”是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

全球著名的管理公司麦肯锡给出的定义:一种规模大到在获取、存储、管理、分析方面极大超出了传统数据库软件工具能力范围的集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等特点。

国际数据公司(International Data Group,IDG)给出的定义:大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100 TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年的增长率至少为60%。

2015年8月,国务院正式印发了《促进大数据发展行动纲要》(以下简称《行动纲要》),成为我国发展大数据产业的战略指导性文件。《行动纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展成为对数量巨大、来源分散、格式多样的数据进行采集,存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”同时,中国信息通信研究院相继发布了《大数据白皮书(2014年)》《大数据白皮书(2016年)》和《大数据白皮书(2018年)》等系列白皮书。《大数据白皮书2016》称:“大数据是新资源、新技术和新理念的混合体。从资源的视角看,大数据是新资源,体现了一种全新的资源观;从技术的视角看,大数据代表了新一代数据管理和分析技术;从理念的视角看,大数据打开了一种全新的思维角度。”

总结以上对大数据的不同定义,不难发现大数据的概念具有两点共性:

①大数据的数据量标准是随着计算机软/硬件的发展而不断增长。例如1 GB的数据量在20年前可以称为大数据,而今的数据量已经达到TB或者GB量级,却不能称为大数据。

②大数据不仅体现在数据规模上,还包含了数据来自多种数据源,包括结构化数据、半结构化数据和非结构化数据,并且以实时、迭代的方式来更新。

总的来说,大数据是指所涉及的数据规模或者复杂程度超出了传统数据库技术和软件技术所能管理和处理的数据集范围。大数据通常与Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多热点话题联系在一起。

(2)大数据的特征

IBM公司将大数据的特征归纳为5个V,即Volume(容量大)、Variety(多样性)、Velocity(存取速度快)、Value(低价值密度)、Veracity(真实性)。

①容量大:大数据的首要特征是容量大,而且在持续、急剧地增长。

②多样性:海量数据引发的危机不单纯是数据量的爆炸增长,还涉及数据的多样性,包括数据格式的多样性,不仅包含文字、数字、日期等结构化数据,还包括图形、图像、音频、视频、地理位置等非结构和半结构化的数据;同时数据来源多样,包括互联网应用、电子商务领域、电子运营商、全球定位系统、社交网络、各种传感器数据等。

③存取速度快:大数据的存取速度快(也称为实时性),一方面是指数据增长的速度特别快,另一方面是指数据处理的速度快,能实时进行分析和处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值信息。

④低价值密度:大数据的价值是潜在的、巨大的。但在大数据中,价值密度的高低与数据总量并不存在线性关系,有价值的数据往往被淹没在海量的无用数据中。例如,在一段长达几小时的连续不断的视频监控中,可能有用的数据仅仅只有几秒。因此,如何从海量数据中洞察有价值的数据成为大数据研究的重要课题。

⑤真实性:真实性指的是当数据的来源变得多样时,这些数据本身的可靠度、质量是否足够。如果数据本身就是有问题的,那么分析后的结构也不会是正确的。真实性旨在针对大数据噪音、数据缺失、数据不确定性等问题,强调数据质量的重要性,以及保证数据质量所面临的巨大挑战。

传统数据与大数据的区别见表1-2。

表1-2 传统数据与大数据的区别