大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理是大数据分析的基础。大数据基本分析方法可考虑如下几种。
(1)数据质量和数据管理。数据质量和数据管理是大数据分析的一个前提。通过标准化的流程和工具对数据进行处理,可以保证一个预先定义好的高质量的分析结果。
(2)离线与在线数据分析。尽管数据的尺寸非常庞大,但从实效性来看,大数据分析和处理通常分为离线数据分析和在线数据分析。
①离线数据分析。离线数据分析用于较复杂和耗时的数据分析和处理。由于大数据的数据量已经远远超出当今单个计算机的存储和处理能力,当前的离线数据分析通常构建在云计算平台之上,如开源Hadoop的HDFS文件系统和Map Reduce运算框架。
②在线数据分析。在线数据分析(OLAP,也称联机分析处理)用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。
许多在线数据分析系统构建在以关系数据库为核心的数据仓库之上。一些在线数据分析系统构建在云计算平台之上的No SQL系统,例如Hadoop的H Base。(https://www.daowen.com)
(3)语义引擎。由于非结构化数据的多样性带来了大数据分析新的挑战,人们需要一系列的工具去解析、提取及分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
(4)可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户。二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观地呈现大数据特点,同时,能够非常容易地被读者所接受。
(5)数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘算法基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,同时,也是因为有这些数据挖掘的算法才能更快速地处理大数据。
(6)预测性分析。大数据分析最重要的应用领域之一就是预测性分析,从大数据中挖掘出数据特征,通过科学的建立模型,之后便可以通过模型代入新的数据,从而预测未来的数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。