大数据的关键技术

二、大数据的关键技术

大数据技术基于收集、存储、管理、处理、分析、共享和可视化技术。根据麦肯锡的研究,适合用大数据的关键技术有三四十项,这里列举几种常用的技术。

(一)遗传算法

基于生物自然选择和遗传机理的随机搜索算法就是遗传算法,是全面优化的一种算法通过概率法找到优化方法,主动找到搜索空间,引导优化,不需要确定方法,并能随时调整搜索方向。遗传算法因其隐含的并行性而被应用于数据挖掘中、易于与其他模型相结合。

(二)神经网络

生物神经网络结构及其运行原理是神经网络的基础,模拟动物神经网络行为特征,并进行分布式并行信息处理的算法数学模型。由于神经网络具有较好的适应性、并行处理、分布式存储和高度容错功能,非常适合解决数据挖掘问题,近年来越来越受到人们的关注。

(三)数据挖掘

统计数据和学习相结合是数据挖掘的意义,可以用来从数据中提取有用的信息和知识,用其他数据值的属性来预估目标属性的值,如回归、分类、异常检测等,或隐藏在汇总数据连接模式中,如相关分析、演化分析、聚类分析和序列模式挖掘等。

(四)数据融合与集成

集成和分析来自多个数据源的数据的方法是数据的融合与集成。最典型的应用方法是利用互联网上的传感器数据,对如炼油厂等复杂分布式系统的性能进行综合分析。使用社交媒体数据,对自然语言进行处理和分析,结合销售数据,了解营销活动如何影响消费者的情绪和购买行为。

(五)机器学习

研究计算机识别如何模拟或分类学习行为,为了获得新的知识和技能,运用自己的知识结构改变其特点,这一技术已成为人工智能技术的核心,它成为计算机发挥智能的最根本方式。例如,自然语言处理就是机器学习。

(六)精确分析

提取和确定了语言处理和主观信息分析方法的应用。分析其主要内容,如表达情感的特点、情况或工作。例如,分析社交媒体(如博客、微博或其他社交网络),以了解不同的客户和利益如何与该产品发生关联。

(七)分析网络

利用图像或者网络来描述离散节点之间所存在的特征关系的分析方法。个体在社会或组织之间的联系,可以从社会网络分析中分析出来。比如怎样去传播信息,或者哪些因素的影响所占比重比较大。例如,明确企业信息流的障碍以及营销目标的重要意见责任人等,都可以利用网络分析来确定。

(八)统计分析

有两种关系包含于数据库的字段之中:相关关系和函数关系。对于数据库中的信息,可利用统计学原理对其进行分析,还可以通过差异分析、回归分析、常用统计、相关分析等方法,即采用统计学方法对它们进行分析。

(九)分布式数据库

如基于X86商用硬件和开源软件设计、完全元共享和大规模并行处理架构,专为新一代数据仓库所需的复杂查询功能和大规模数据所设计的Greenplum数据引擎软件。建立在Google文件系统上的Bigtable是专用分布式数据库系统,其研发是受到HBase的启发。

(十)非关系型数据库系统

如HBase,它是一个分布式储存系统,具有可靠性高、性能优良、面向列、可伸缩的特点。搭建大规模结构化存储集群可利用HBase技术,HBase中的大量数据可以利用MapReduce来处理。HBase的开源分布式非关系型数据库是模仿谷歌的Bigtable。

(十一)技术的可视化

可视化技术让大数据分析结果的理解与沟通更加方便,因为其能够创建图表、生成动画或图片等。由此可知,可视化是支持大数据蓬勃发展的重要领域。