2.3.4 数据挖掘技术现状
随着信息技术、人工智能、物联网等新一代智能技术的高速发展,海量的数据与信息逐渐被采集、存储,其中包含结构化、半结构化和非结构化等异质异构数据,如何从这些海量数据中挖掘、提取有价值的信息与知识,已成为当前大数据挖掘研究的重要领域。数据挖掘的一个重要过程就是从大量的数据中提取隐含在其中的有价值的信息和知识的过程。数据挖掘的基本过程包括:数据选取、数据预处理、数据挖掘分析、模式评估及可视化。当前,数据挖掘技术已经从传统的数据挖掘算法拓展到了Web链接、XML文本、树结构等半结构化数据集中发现知识,以及从空间数据、分子结构、科学数据等非结构化数据集中进行数据挖掘。在解决海量数据资源信息和知识挖掘、提取方面,通常需结合人工智能、进化计算、并行计算等高性能计算技术寻找有价值的隐藏信息,并将获取到的信息进行深入的科学分析,以此为决策分析、精细化管理以及大量的高附加值服务提供参考依据[94]。
王春华等人[95]提出一种自适应并行挖掘算法,通过自适应控制的方法,克服在图像分割过程中错误率较大的问题。王菊等人[96]利用虚拟化和大数据相关技术,构建基于Hadoop的大数据平台,并提出一种改进的AprioriParallel算法,解决中小企业数据挖掘云服务的问题。
毛国君等人[97]从大数据的应用需求入手,分析了具有分布式和流动性技术特征的大数据的应用范围和潜在的应用价值。并在此基础上设计了一个大数据的分类挖掘构架,不仅可以改善大数据的分类挖掘效果,而且在分布式计算、内存占用及节点间的网络通信代价的平衡问题上获得了一个优化的结果。
文馨等人[98]针对传统算法无法高效处理大数据环境下的海量社交网络数据和准确分析用户影响力的不足,综合考虑了用户连接程度和活跃程度,提出一种基于经典SpageRank算法的用户影响力评价模型,实现了快速对微博用户数据的影响力定量分析与评价。
邵梁等人[99]针对大数据中的频繁项集挖掘问题,采用了垂直数据集的思想将数据集进行垂直布局,提出一种基于Spark框架的FP-Growth(Freguent Pattern growth,FP-growth)频繁项集并行挖掘算法。
姜旭等人[100]基于文献统计方法,挖掘物流园区规划研究现状,对研究特点、主要研究机构、主要发文作者等进行研究,为国内物流园区相关研究工作提供一定参考。