理论教育 大数据与云计算融合:挑战与机遇

大数据与云计算融合:挑战与机遇

更新时间:2025-08-25 理论教育 版权反馈
【摘要】:有关大数据与云计算之间的关系人们常会误解,而且也会把它们混起来说。而实际我们来看4V更加恰当,价值才是大数据问题解决的最终目标,其他3V都是为价值目标服务的。三层相互配合,让大数据最终产生价值。大数据两大核心为云技术和BI,离开云技术大数据没有根基和落地可能,离开BI和价值,大数据又变化为舍本逐末,丢弃了关键目标。简单总结就是大数据目标驱动基于BI,大数据实施落地依赖云技术。

云计算仍然可以算作时髦的名词,与大数据有着千丝万缕的关系。有关大数据与云计算之间的关系人们常会误解,而且也会把它们混起来说。通俗地说,云计算能够提高数据处理能力,将数据处理等工作分布到其他硬件完成,形成硬件资源的虚拟化;大数据侧重海量数据的高效处理,其中非结构化的数据占比较高,能否做到高效处理与设计的方案、模型和关键技术有关[13]

做一个形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用。云计算以Amazon为代表,可以说为云计算提供了商业化的标准,另外值得关注的还有Vmware。大数据相当于海量数据的“数据库”,而且通过大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展。Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群,把传统而昂贵的并行计算等概念一下就拉到了我们的面前,但是其不适合数据分析人员使用,所以Piglatin和Hive出现了,为我们带来了类结构化查询语言(SQL,Structured Query Language)的操作。虽然二者的操作方式像SQL了,但是处理效率很低,绝对和传统的数据库的处理效率有天壤之别,所以人们又在想怎样在大数据处理上不只是操作方式类SQL,而处理速度也能“类SQL”,Google为我们带来了Dremel/PowerDrill等技术,新一代开源大数据分析引擎Impala也出现了,另外还有HIVE/Stinger/Tez、HAWK、SQL on spark/Shark等。

整体来看,未来的趋势是云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是实时交互式的查询效率和分析能力,借用google一篇技术论文中的话:“动一下鼠标就可以在秒级操作PB级别的数据”。

在谈大数据的时候,首先谈到的就是大数据的4V特性,即类型复杂,海量,快速和价值。IBM原来谈大数据的时候谈3V,没有价值这个V。而实际我们来看4V更加恰当,价值才是大数据问题解决的最终目标,其他3V都是为价值目标服务的。在有了4V的概念后,就可以很容易以简化的方式来理解大数据的核心,即大数据的总体架构包括三层:数据存储,数据处理和数据分析。数据类型复杂和海量问题由数据存储层解决,快速和时效性要求由数据处理层解决,价值由数据分析层解决。

数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析,从而产生价值,而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三层相互配合,让大数据最终产生价值。

(1)数据存储层

数据有很多种分类方法,可分为结构化、半结构化、非结构化;也可分为元数据、主数据、业务数据。传统的结构化数据库已经无法满足数据多样性的存储要求,因此在关系数据管理系统(RDMS,Relational Database Management System)基础上增加了两种类型:一种是Hadoop分布式文件系统(HDFS)类数据库,可以直接应用于非结构化文件存储;一种是NoSQL类数据库(泛指非关系型的数据库),可以应用于结构化和半结构化数据存储。

从存储层的搭建来说,关系型数据库、NoSQL数据库和HDFS分布式文件系统三种存储方式都需要。业务应用应根据实际的情况选择不同的存储模式,但是为了业务的存储和读取方便性,可以对存储层进一步的封装,形成一个统一的共享存储服务层。用户并不关心底层存储细节,只关心数据的存储和读取的方便性,通过共享数据存储层可以实现在存储上的应用和存储基础设置的彻底解耦。(https://www.daowen.com)

(2)数据处理层

数据处理层的核心问题在于两个方面:一是数据存储出现分布式后带来的数据处理上的复杂度,二是海量存储后带来了数据处理上的时效性要求,这些都是数据处理层要解决的问题。在传统的云相关技术架构上,可以将Hive(是基于Hadoop的一个数据仓库工具)、Mapreduce框架相关的技术内容全部划入到数据处理层。其中,Hive重点还是复杂查询的拆分和查询结果的重新聚合,实现分析需求的拆分,分析结果的汇总和合并;mapreduce具有分布式处理能力,实现了一个分布式计算的框架和逻辑。

(3)数据分析层

分析层重点是真正挖掘大数据的价值,核心在于数据分析和挖掘。数据分析层的核心包括数据的维度分析、数据的切片、数据的上钻和下钻等,仍然与传统的商业智能(BI,Business Intelligence)内容类似。数据分析通常只关注两个内容:一个就是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;其次是根据业务目标和业务需求建立的KPI指标体系,以及对应指标体系的分析模型和分析方法。解决这两个问题基本就可以解决数据分析的问题了。

传统的BI分析通过大量的ETL数据抽取和集中化,形成一个完整的数据仓库,而基于大数据的BI分析可能并没有一个集中化的数据仓库,或者数据仓库本身也是分布式的了。BI分析的基本方法和思路并没有变化,但是落地到执行的数据存储和数据处理方法却发生了大变化。

大数据两大核心为云技术和BI,离开云技术大数据没有根基和落地可能,离开BI和价值,大数据又变化为舍本逐末,丢弃了关键目标。简单总结就是大数据目标驱动基于BI,大数据实施落地依赖云技术。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈