7.5.2 大数据的特点
图7.8 大数据的特点
根据IDC的定义,大数据的特点可以用四个“V”表示:海量(Volume)、多样性(Variety)、高度(Velocity)和价值(Value),如图7.8所示。
(1)海量
随着信息化技术的高速发展,数据开始爆发性增长。社交网络(如微博、Twitter、Facebook等)、移动网络、各种智能终端等,都成为数据的来源。之所以产生如此巨大的数据量,一是由于各种仪器的使用,使人们能够感知到更多的事物,这些事物的部分甚至全部数据都可以被存储;二是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,同时用户有意的分享和无意的点击、浏览都可以快速地产生大量数据;三是由于集成电路价格降低,使很多设备都有了智能的成分,随着各种传感器获取数据能力的大幅提高,人们获取的数据也越来越接近原始事物本身,从而,描述同一事物的数据量激增。
(2)多样性
随着传感器种类的增多以及智能设备、社交网络等的流行,数据类型也变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、e-mail、文档等形式存在的未加工的、半结构化的和非结构化的数据。正是由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大数据大体可以分为三类:一是结构化数据,其特点是数据间因果关系强,如财务系统数据、信息管理系统数据、医疗系统数据等,这些数据一般都是结构化的静态历史数据,可以通过关系型数据进行管理和访问;二是非结构化的数据,其特点是数据间没有因果关系,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、音频和视频等信息;三是半结构化数据,其特点是数据间的因果关系弱,如邮件、网页等,它介于结构化数据和非结构化数据之间,一般是自描述性的,数据结构和内容混合在一起。
(3)高速
数据的增长速度和处理速度是大数据高速性的重要体现。随着各种传感器和互联网络等信息获取、传播技术的飞速发展和普及,数据的产生、发布越来越容易,产生数据的途径也越来越多。快速增长的数据量要求数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能成为解决问题的有力武器,反而成了快速解决问题的负担。同时,数据不是静止不动的,而是在互联网络中不断流动,且通常这样的数据的价值是随着时间的推移而迅速降低的,如果数据尚未得到有效的处理,就失去了价值,大量的数据就没有意义。
此外,在许多应用中要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具有很强的时效性。大数据以数据流的形式产生,快速流动、迅速消失,且数据流量通常不是平稳的,会在某些特定的时段突然激增,数据的涌现特征明显,这种情况下,大数据就要求快速、持续的实时处理。对不断激增的海量数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。
(4)数据价值密度低
大数据中有价值的数据所占比例很小,大数据的价值性体现在从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,运用于农业、金融、医疗等各个领域,以创造更大的价值。
传统的结构化数据,依据特定的应用,对事物进行了相应的抽象,每一条数据都包含该应用需要考量的信息,而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,且通常不对数据进行采样,保留了数据的原貌。由于减少了采样和抽象,这样可以分析更多的信息,但同时也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低。以当前广泛应用的监控视频为例,在连续不间断监控过程中,大量的视频数据被存储下来,许多数据可能是无用的,对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅有一两秒。但是大数据的数据密度低是指相对于特定的应用,有效的信息相对于数据整体是偏少的,信息有效与否也是相对的,对于某些应用是无效的信息,对于另外一些应用则可能成为最关键的信息。数据的价值也是相对的,有时一条微不足道的细节数据可能造成巨大的影响,比如网络中的一条几十个字符的微博,就可能通过转发而快速扩散,导致相关的信息大量涌现,其价值不可估量。因此,为了保证对于新产生的应用有足够的有效信息,通常必须保存所有数据,这样一方面使得数据的绝对数量激增,另一方面使得数据包含有效信息量的比例不断减少,数据价值密度降低。