2.3.2 大数据技术现状

2.3.2 大数据技术现状

“大数据”一词目前尚未有统一定义,不同机构和学者根据其社会角色或学科背景,给大数据做出不同解释。大数据定义众说纷纭的主要原因在于难以定义“大”的概念,由于大家理解角度不同,对大数据的定义自然有所差别。从字面意义理解,大数据是指那些PB及以上规模的数据,数据类型既包括结构化数据,也包括半结构化和非结构化数据。从广义的角度理解,大数据不仅包含规模巨大、类型多样的数据本身,还包括能够从海量数据中挖掘有价值信息的大数据技术。大数据技术的本质是对海量数据的分析处理技术,先要采集研究所需数据,接着对数据进行处理和集成,并存储到数据库中,再用合适方法分析挖掘数据价值,最后针对数据分析结果进行解释[66]。大数据技术不是指某一项具体技术,而是分析处理大数据的一系列技术,主要包括数据采集技术、数据处理与集成技术、数据存储技术。

1.数据采集

数据采集是指从真实世界对象中获得原始数据的过程。不准确的数据采集将影响后续的数据处理并最终得到无效的结果。数据采集方法的选择不但要依赖数据源的物理性质,还要考虑数据分析的目标。目前主要有三种常用的数据采集的方法:传感器、日志文件和网络爬虫[67]

马志艳等人[68]通过利用基于RS 485的多通路采集系统可快速实现对冷库内部温度、出口压力、膨胀阀流量等数据的采集,同时能够完成故障预警、数据的本地存储以及数据的远程发送。

谢克武[69]认为随着互联网的快速发展,网络数据呈爆炸式增长,传统搜索引擎已经不能满足人们对所需求数据获取的需求,作为搜索引擎的抓取数据的重要组成部分,网络爬虫的作用十分重要。他完整地介绍了在大数据环境下网络爬虫的重要性、网络爬虫的概念、工作原理、工作流程、网页爬行策略、Python在编写爬虫领域的优势。

2.数据处理与集成

由于数据源的多样性,数据集由于干扰、冗余和一致性因素等各种方面影响具有不同的质量。从需求的角度,一些数据分析工具和应用对数据质量有着严格的要求。因此在大数据系统中需要数据处理技术提高数据的质量,主要的数据处理与集成技术包括数据集成、数据清洗和冗余消除。

在数据集成方面,冯志勇等人[70]从系统集成的角度出发,利用微服务的核心组件、软件技术发展、架构演化等基础技术,以保证微服务基础设施的可用性,以期为微服务未来的创新和发展提供有价值的理论与技术参考。姚锡凡等人[71]则通过利用集成技术系统提出一种大数据驱动的新型制造模式——主动制造;构建了将组织符号学和“观察—定向—决策—行动”循环模型融于一体的大数据驱动通用体系架构,结合社会信息物理系统的制造模式提出一种大数据驱动的主动制造体系架构。

数据清洗是指在数据集中发现不准确、不完整或不合理的数据,并对这些数据进行修补或移除以提高数据质量的过程。目前在各种类型的数据处理中都有应用。刘云鹏等人[72]在进行电力变压器数据处理时,针对区分有效异常数据与无效异常数据的技术难点问题,除了引入多元时间序列进行关联分析的解决方法以外,结合深度学习理论,提出一种基于栈式降噪自编码器(stacked denoising autoencoder,SDAE)的清洗方法,能够自动重构修复噪声点及缺失值,并在辨识设备异常运行状态的同时有效过滤干扰数据。

冗余消除也是数据处理中必不可少的一个环节,数据冗余是指数据的重复或过剩,这是许多数据集的常见问题。现在比较常用的冗余数据消除(数据削减)技术包括了传统的无损数据压缩技术,有损数据压缩技术、差量压缩技术、数据去重技术等。数据去重技术(或者称重复数据消除、重复数据删除)是一种通过大规模地(比如,文件级、大小的数据块级)识别和消除冗余数据,从而降低数据存储成本的重要技术,数据去重技术相对于传统的压缩技术而言,冗余消除的粒度更大、速度也更快。差量压缩技术作为一种针对相似数据的压缩技术,通过计算相似数据的修改部分(差量)来消除数据冗余。许多研究者提出了数据冗余减少机制,例如冗余检测和数据压缩[73]。这些方法能够用于不同的数据集和应用环境,提升性能,但同时也带来了一定风险。因为数据压缩方法在进行数据压缩和解压缩时带来了额外的计算负担,需要在冗余减少带来的好处和增加的负担之间进行整体考虑。

3.数据存储

大数据系统中的数据存储子系统将收集的信息以适当的格式存放,以待分析和价值提取。大数据存储主要是数据库和数据平台。数据库对应大数据获取环节,当数据量在轻型数据库存储能力范围内,且仅为响应用户简单的查询或者处理请求的情况下可将数据存储至轻型数据库内。当用户提出大数据分析,以及复杂的挖掘请求或数据量已经远超过轻型数据库的存储能力时,应将大数据导入大型分布式存储数据库或者分布式存储集群。目前典型的大数据存储平台包括Info Brignt、Hadoop(Pig和Hive)、Yun Table、HANA(High-Performance Analytic Appliance)以及Exadata等,以上数据库中除Hadoop外均可满足大数据的在线分析请求[74]

随着区块链的成熟,王千阁等人[75]在现有区块链系统基础上扩展查询处理功能的两种方法,并从查询效率、写性能优化、存储空间占用、数据安全性和可用性5个方面对其进行对比和分析,认为区块链有效提升了大数据存储能力。

随着闪存、PCM(Pulse Code Modulation)、SCM(Software Configuration Management)等新型存储介质的出现,未来数据存储体系中将以多介质混合存储为主流,这与目前RAM(Random Access Memory)、磁盘、磁带共存的现象类似。李晖等人[76]认为在大数据应用中,将数据集中存储是不可行的,因为巨大的数据量将导致性能低下。因此,必须建立一种新的层次化的多介质存储体系,根据数据的不同特性(例如访问的冷热属性、操作的特性等)以及不同存储介质的特性合理地分配数据存储位置,从而实现海量存储、高性能以及低能耗的设计目标。这一问题涉及多个方面的内容,未来可能的研究内容包括多介质混合存储系统与一体化管理、存储器结构感知的数据管理技术以及大数据分布式协同存储技术等。

大数据技术虽然具有处理速度快,处理数据量多,成本相对较低的优势,但大数据技术不是万能的。当前的一些研究忽略了大数据技术的发展现状,对于大数据应用的设想缺乏现实的技术支持,导致研究只能浮于表面的理论探讨和概念设计,难以作为开展实践活动的指南,最大程度地发挥大数据技术的效用,提高决策的效率和科学性。因此,对于大数据环境下的政府宏观决策智能化服务研究,离不开对当前大数据技术发展现状的准确把握,只有了解了当前大数据技术的能力边界,才能具有实践指导意义。