4.2.1 政务数据采集技术

4.2.1 政务数据采集技术

政府宏观决策中需要考虑多方面的因素,其涉及的数据来源广、种类多、数量大。根据分类规则不同可以对这些数据进行不同的划分,例如根据数据种类的不同,可以细分为结构化、半结构化和非结构化数据。或者根据数据来源的不同,可以细分为网络数据、环境数据、业务数据、调查数据、日志数据等。数据采集是应用大数据的第一步,针对不同的数据采集方式的技术也各不相同。

1.网络数据采集

网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。网络数据采集是当前大数据研究领域的热点之一,多数大数据服务公司提供的数据采集服务也主要是针对网络数据采集。其中最常用的技术主要是网络爬虫或直接利用网站开放的应用程序编程接口。

网络爬虫技术是一种按照一定的规则,自动抓取网络信息的程序或脚本。网络爬虫根据网页的链接地址进行网页查询,从某个网站的某个具体页面开始,逐一读取当前网页上的内容,并找到该网页上链接的其他地址,再通过这些链接地址进入到下一个网页上,不断地循环下去,直至把这个网站上所有的网页都抓取完成或者满足预设的停止条件为止。该方法可以把非结构化数据从各个网页上抓取出来,再按照结构化的方式把这些数据统一地储存为本地的数据文件。网络爬虫技术支持图像、视频、音频等非结构化文件和附件的采集,并实现文件和文字信息的自动关联。

网站开放应用程序编程接口是指利用网站提供应用程序编程接口获取数据的一种方式,它依赖于接口提供的数据范围,只能根据接口开放的程度获取网站授权的数据,具有一定的局限性。

2.环境数据采集

环境数据不仅包括自然环境的数据也包括公众生活的社会环境的数据。在研究和生产活动中,为了尽可能地收集周围环境中的各种信息,研究人员发明了各种传感器,大到太空中的卫星,天空中的无人机,小到生活中随处可见的摄像头、嵌入各种机器设备中的传感芯片。这些传感器就像人类自身感知器官的扩展,分布在人们所处环境中的各个角落,采集来自环境中的各种数据和信息。

随着移动信息网络和智能传感设备两个领域的快速发展,环境数据采集技术正在呈爆发式地发展,同时又悄无声息地进入到人们生活中的各个方面。其中最为广泛应用的环境数据采集方式是通过各种智能传感器,这些传感器价格低廉、体积微小、具备无线通信和计算功能,可以随时测量和传输关于位置、运动、震动、温度、湿度等各个方面的数据。目前传感器已经渗入如工业生产、医学诊断、资源调查、环境监测、智能家居、智慧城市等广泛的领域,它是人们采集环境数据的重要手段,也是海量数据产生的重要原因。

同时人们也在通过飞机、卫星等搭载的遥感设备,遍布城市的摄像头等搜集着各地的地貌改变、洋流流动、大气变化以及交通流量、人口迁移等数据。这些遥感监测技术形成了对全球环境进行监测的多层次、多视角、多领域的观测体系,在环境数据采集、处理和分析等方面发挥着重要的作用。

3.业务数据采集

业务数据是指政府部门或企业在开展日常业务的过程中产生的数据,例如各个政府部门登记的各类公众信息,医院留存的患者体检就医的信息,商店记录的顾客购买和退换货信息,车站登记的旅客购票和乘车信息等。这些信息随时都在源源不断地产生于不同的地点,其中包含了公众日常工作和生活中的大量信息,具有巨大的价值。过去这些数据通常被不同的数据拥有者以不同的形式保存并孤立地使用,使得数据之间很多关联信息被人为地丢失和忽略了。在政府进行决策的过程中,需要尽可能地充分利用这些数据,其中第一步就是要将这些分散于各个业务系统中的海量数据整合到一个统一的大数据平台之中。业务数据的采集过程需要将大量的、不同来源的、不同格式的数据从不同的数据库中抽取出来,放入统一的采集数据库中,以便进一步地挖掘和分析。大量来源于不同数据库的信息以及各式各样的分析需求,给业务采集过程在数据交换和处理上提出了更高的要求。采用ETL将不同数据库中的数据按照统一的模型集成整合到采集数据库中,是采集业务数据的重要方式。

ETL是指将数据从数据源中抽取(Extract)、转置(Transform)、加载(Load)到目的端的全过程。抽取:数据抽取是指从数据源中将数据提取出来的过程,根据数据源的不同,需要采用不同的数据抽取方式。转置:将从不同数据源中抽取的不规范数据经过转换和加工(如去噪、规范格式等),转换为符合目标数据库的存储格式。加载:将转换和处理后的数据装载到目标数据库中。ETL可以将分布的、异构的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最终按照定义好的数据模型,将数据加载到目标数据库中。除了将原始数据通过ETL转换为规定数据格式外,国家也在制定统一的大数据标准,鼓励不同的部门和企业使用统一的标准管理各自的业务数据,便于日后数据的集成运用。

4.调查数据采集

统计调查是一种历史悠久且行之有效的数据收集方式,过去调查数据是进行决策分析的重要依据,而在大数据技术迅速发展的今天,这种传统的数据采集方式并没有衰落,相反因为更多新的技术和方法的引入,应用范围扩展得更广。调查数据的来源主要分为三类:第一类是政府部门组织的大规模调研,如人口普查和经济普查;第二类是由大学、研究机构组织的调研,如中国人民大学开展的中国综合社会调查;第三类是由企业、行业组织或咨询公司组织的调查,这类调查主要是为了了解某个市场的现状及其未来的发展趋势。

传统的调查方式包括面对面访谈、电话采访、纸质调查问卷等方式,调研过程和后期的数据录入都会耗费大量的时间,如果某个环节出现了问题,如问卷丢失或统计数据录入错误等,都将严重影响调查数据的准确性。随着移动信息技术的飞速发展,统计调查也逐渐向更加智慧智能的方向发展。现在通过手机、计算机等移动智能设备采集调查信息已经变得越来越成熟和普遍,通过智能的识别和推送,问卷可以精准地发送到被调查者手中,被调查者直接在移动设备上就能填写问卷,点击提交后调查信息便及时上传到云平台,不仅实现了问卷的准确方法和快速收集,还能准确记录和传输数据。大幅提高了调查信息的采集速度,同时也降低人为失误造成差错的概率。

5.日志数据采集

日志数据一般为流式数据,如网页浏览、查询频率等。原本记录这些数据是出于系统的故障恢复、安全性等目的,后来人们发现日志数据中蕴含了很多反映使用者行为特征的信息,使得日志采集技术的研究越来越受关注。日志采集技术的关键是从不同的日志源上收集相关日志,储存到中央存储系统上,以便进行集中统计分析处理。日志采集技术需要为日志的分布式采集和统一式管理提供可扩展、高容错的技术支撑。

目前数据采集工具大部分采用的都是分布式架构,可以实现每秒高达数百兆的日志数据的采集和传输。

从当前的大数据采集技术的发展现状来看,当前已有的大数据采集技术已经基本能够实现对结构化数据的全面覆盖,尤其是调查数据、业务数据、日志数据和网络数据的采集方面都已经具有了较强的数据采集能力,在对于环境数据的采集方面,随着移动信息网络和智能传感设备两个领域的快速发展,各类微型采集芯片将逐步进入人们生活中的各个方面,进一步提高政府对于环境数据采集的能力。因此,在当前的大数据环境下,数据的采集问题并不是大数据技术在政府宏观决策领域内应用的主要难题,只要大数据存储技术能够提供足够的存储空间,各个大数据采集端将为决策提供源源不断的信息。所以,在当前的大数据环境下,政府拥有足够的数据采集技术和数据来源,政府需要做好数据的分类管理工作,根据实际问题的需要确定数据的来源,选择合适的数据采集方法,提高数据采集的效率。