大数据发展概论

五、大数据发展概论

“大数据”一词由英文“Big Data”翻译而来,关于大数据的概念并没有明确统一的定义。研究机构Gartner将大数据定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;咨询机构麦肯锡认为,大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。[15]学者刘智慧从多个企业、机构和学者对于大数据的理解阐述中提取了一个普遍共识,即“大数据”的关键是在种类繁多、数量庞大的数据中,快速获取信息。[16]

尽管对于“大数据”的概念有多种解读,但当前大家普遍认为大数据具有4“V”特征。Volume(容量大)即大数据巨大的数据量与数据完整性;Variety(种类多)意味着要在海量、种类繁多的数据间发现其内在关联,从看似无用的数据中提取出有效信息;Velocity(速度快)可以是降低延时,更快速满足实时性需求;最后一个Value(价值密度低)是最重要的特征,利用云计算等技术从价值密度低的大数据中淘出有价值的信息。[17]

当前,大数据经过较长时间发展,已经步入稳定发展时期,底层技术框架已基本成熟,主流的计算框架已经成型,其发展方向开始向提升效率转变,精细化的上层应用会成为未来趋势。同时,技术融合的趋势更加明显。

技术融合也体现在数据湖与云计算、大数据、人工智能等技术的融合方面。数据湖是一个存储库,以原始格式保存大量原始数据,包括结构化、半结构化和非结构化数据。直到需要数据时,才定义数据结构和需求。如果把数据集市想象成一个瓶装水的商店——经过清洗、包装和构造便于消费,那么数据湖就是一大片水,数据湖的内容从一个源头流入,充满了整个湖,湖的各种用户可以来检查、潜水或采集样本——其中的数据可供存取、处理、分析及传输。未来数据湖的发展有以下几点趋势。

1.更多企业数据流入数据湖。随着业务用户享受早期Hadoop部署的下游优势,整个组织对数据的需求将继续上升。随着来自传统系统的数据与传感器等新来源的融合,数据孤岛将继续被打破。

2.数据质量提高。组织需要信任它们正在分析的数据,以便信任由此产生的决策见解。数据湖的扩大使用将推动对提高数据质量的日益重视。

3.数据治理扩展。随着法规遵从性成为董事会最关心的问题,数据治理的范围将扩大到包括数据湖中存储和分析的数据。各组织将启动流程并采用技术,让它们了解它们的数据是什么,它在哪里,以及谁接触过它。

4.数据湖会更新鲜。随着企业数据的涌入和对质量的重视,组织将实施解决方案来确保其数据湖保持最新,即使数据源很难访问。

5.大数据将比以往更加强大。名称和技术可能会改变(例如Hadoop让位于Spark),但涉及处理大量数据以获得更深入见解的计划不会消失。优化昂贵的传统平台(如大型机和电子数据仓库)所节省的成本,以及更好的决策所带来的收入增长,将被用于资助更多的大数据项目。