主流的大数据分析技术

(一)主流的大数据分析 技术

1.网络爬虫技术对监督关键信息的抓取操作

网络爬虫技术是指按照一定的规则,自动地抓取万维网信息的程序或者脚本。它的实现机制就是可以在人工不干预的情况下完成浏览器与服务器之间的交互,实现对网络上的数据自动、精准、大范围的提取。

使用网络爬虫,不同的用户可以根据自己的需求选择一个或多个目标网站作为网络爬虫的初始URL,并加入待抓取URL队列中。然后网络爬虫便可以自动地循环以下操作:(1)如果待抓取URL队列为空,则终止循环,停止网络爬虫,输出爬取的结果(网页数据库中的内容);否则,从待抓取队列中取出队首的URL地址,然后在互联网中进行查找,找到它相对应的网页,并把它下载下来。(2)对下载的网页进行数据提取。提取的数据包括URL地址以及感兴趣的内容两个方面。对于提取的URL地址,如果这个URL地址以前没有分析过,那么就将这个URL地址加入待抓取URL队列中;对于提取的内容,则经过数据清洗,保存到网页数据库中,作为爬虫的结果供后续分析。

目前已经比较成熟的网络爬虫软件多达上百种,常用五种网络爬虫软件的优缺点分析如表2所示。

表2 常用爬虫技术的优缺点分析

图示

2.数据标准化清洗技术对多来源数据的整合操作

对于前述运用爬虫技术所收集到的数据,里面可能含有一些无用的数据以及重复的数据,而且也会存在一部分模糊、不完整的数据。为了提高数据的质量以及从中删除一些不必要的数据,需要用到数据标准化清洗技术对多来源的数据进行整合、清洗。在具体数据清洗的过程中,根据需要数据的特点,需选择合适的数据清洗方式。

数据标准化清洗技术的基本原理为:通常来说,数据清洗框架由5个步骤构成,第一就是定义错误类型,第二就是搜索并标识错误实例,第三就是改正错误,第四就是文档记录错误实例和错误类型,第五就是修改数据录入程序以减少未来的错误。在检查过程中,还应该注意格式性检查、完整性检查、合理性检查等,数据标准化清洗技术对于来源自多方面的数据准确性、统一性发挥着重要的作用。在数据收集整理的过程中,数据标准化清洗技术起到了重要的作用,需要将错误的数据进行清洗以保证数据的质量和数据分析的准确性。在数据收集之后,必须利用数据标准化清洗技术进行处理,否则可能导致数据错误,运用错误的数据进行分析没有任何意义。在大数据环境下,数据标准化清洗技术已经运用到了银行、移动通信、交通等各种领域,为决策人员提供了可靠的参考。数据标准化清洗技术的应用范围也比较广,有数据收集的程序基本上都需要数据标准化清洗技术。在互联网时代,数据来源较为广泛,也增加了收集到的数据出现错误的概率,所以进行数据标准化清洗技术是非常必要的,是数据进行分析的前提条件。

3.图数可视化技术在监督预警中的运用

对于上述利用爬虫技术收集、数据标准化清洗技术进行整合处理而来的数据,可以通过图数可视化技术展现在政府及人大面前。它不仅可以有效地将数据展现出来,将分析结果更快、更准确地呈现;还可以将数据有效地组织起来,利于发现问题、提出新的猜想、引导某一项目以及进一步的走向。常见的图数可视化技术有九种。它们主要的优点如表3所示。

表3 常见的图数可视化技术

图示

通过不同数据的不同特点使用不同的图数可视化技术,能更加直观地将数据之间的关系、变化趋势、频率等展现出来。这样对于政策运行过程中所采集到的数据实时监测,遇到数据异常及时处理,对于可能出现的问题也可以有效地监督。在政策制定之前,可以通过时间序列图、散点图、折线图等有效地预测数据的未来变化趋势,进而对于政策的制定起着重要的推动作用。在政策实行过程中,可以通过热图、地图、时间序列图等监督政策实行的效果,有效地发现问题、解决问题,让监督变得更加轻松及时。在政策实施完成之后,可以根据三维图、直方图等对项目进行整理,看是否达到了预期的目标甚至超额完成目标,对于项目实施过程中存在的问题也可以进行总结回顾,运用数据进行分析,为下一次积攒经验,逐步完善大数据的各种技术,进而在预算监督、人大监督过程中发挥更重要的作用。