大数据的主要特点
以下是大数据时代的数据所具有的几个特点。
(一)规模巨大
被呈现为海量数据的,是个人和群体所面临着的大规模增长的数据量。普通的个人计算机硬盘的容量是TB量级的,至于那些大企业的计算机硬盘,则已经接近EB量级了。从目前来看,单一数据集的规模范围从几十太字节到数拍字节不等,可知,大数据规模的大小仍是不断变化的。而且,数据能产生于各种意想不到的来源。
(二)类型多样
例如网络上的日志、因特网检索、社交媒体、存在于手机里的网络传感器以及通话记录等,都可以用以上的各种方式产生数据,数据的内容包含全部种类的文本、HTML、各类报表、办公文档、MXL图片、音频/视频信息和图像等的数据。这些是多种角度的,这里除了有实效性数据、新闻媒体数据、正规的数据之外,还有包含了个人感情的数据。而这些数据又打破了之前所限定的结构化数据范畴,结构化数据和所占份额越来越大的半结构化以及非结构化的数据都包含在这些数据中。
(三)产生速度快
大数据生成速度快或者说数据被创建和移动的速度快,这也是大数据相较于传统数据挖掘最明显的不同之处,即时效性要求高。一日之内,谷歌公司能够处理的数据达到几十拍字节,10亿张照片和超过300TB的新日志产生在Facebook论坛上,在淘宝网上进行了几千万笔交易,由此产生超过20TB的数据,产生近亿条微博。以上这些通过基于现实软件性能优化的高速电脑处理器和服务器,快速地创建实时数据流,在现在这种高速网络时代已成为主流。
(四)价值密度低
虽然物联网被广泛应用,具有无处不在的信息感知,可获取大量的数据信息,但是其所具有的价值密度却很低。比如视频数据,它的价值密度相对来说是比较低的,因为其视频本身大多长达一个多小时,但其有用数据可能只有一两秒,剩下的都是没有意义的无用数据。数据总量的大小与价值密度的高低成反比,单条数据在大数据中也许一文不值,虽然没有用的数据居多,但其综合价值大到不可估量。因此,在大数据时代,亟待解决的问题是怎样利用数据挖掘算法的强大之处,更加快速地“提纯”数据所包含的价值。
(五)存储要求高
数据源多种多样,虽然能提供大量的数据,但随之而来的是科学存储的问题。同样地,海量数据存储系统也要有与其等级相对应的扩展能力,因为大数据一般能达到的数据规模是PB级的。当前互联网用户呈现出多样化的需求,异质异构、无结构是数据的发展趋势,同时不断涌现出新的数据类型。需要进一步研究的是在查询和海量分布式存储方面。因为由数据的动态演化所带来的挑战,是静态的存储方案无法满足的,目前由数据的异质异构、爆炸性增长所带来的存储问题是储存构架所不容易解决的。
(六)管理复杂
传统的IT架构所面临的直接挑战是大数据的规模和复杂结构,使得处理海量异构数据时不能应用传统的数据管理技术。海量的存档数据已被许多公司所拥有,但这些公司对这些数据的处理能力却明显不足。大数据的规模无法用传统的关系数据库来处理,到现在为止能够利用的方法有数据仓库、Apache Hadoop的解决方案或大规模并行处理构架和类似于Greenplum的数据库等。