4.4.1 频繁模式挖掘技术

4.4.1 频繁模式挖掘技术

频繁模式挖掘是数据挖掘领域最重要的一项技术。频繁模式挖掘搜索给定数据集中反复出现的联系。在传统数据集中,频繁模式挖掘技术已经得到了充分的研究,经典算法包括Apriori算法、FP-Growth算法、垂直数据格式数据挖掘算法、闭频繁项集挖掘算法以及这些算法的改进算法和变种算法。

对于政府宏观决策中涉及的高度复杂的大数据,传统的频繁模式和关联规则挖掘技术将遇到很多问题:首先,大数据产生的候选集数量巨大,其增长速度将是指数级的;其次,为了计算得到所有的频繁项集,算法必须反复迭代搜索数据库,导致高额的I/O开销。

考虑到这些问题,并行化的数据挖掘技术是最佳选择。现有的并行算法包括CD(Count Distribution)、CAD(Candidate Distribution)和DD(Data Distribution)。Map-reduce框架在解决这些问题时具有很好的效果。首先,Map-reduce框架能够自动解决失效,将程序开发者从复杂的编程中解法处理并提高系统的容错能力。其次,Map-reduce提供了简化的应用模型,在分布式的环境里提高Apriori算法性能,将一个庞大的问题自动切割成小问题,在不同的节点并行执行。