一、数据的获取

2025年09月26日

版权

一、数据的获取

在获取数据之前，需要新闻工作者明确对于数据的需求，包括数据样本需求量、类型、范围等。明确了自身的数据需求之后，便可以开始获取数据，获取数据的渠道很多，要注意尽量获取原始数据、权威性数据。

（一）利用搜索引擎在网络上获取公开数据

利用搜索引擎获取数据是一种最为常见的快速获取数据的方法。在搜索引擎中获取数据要注意多引擎的使用方法，能够获取更加丰富和差异化的内容。此外可以在关键词后添加后缀检索数据集，使用符号提升数据检索的精确度。在搜索引擎中主要可以获取几种公开数据。一是政府部门相关网站，如国家统计局推出的“国家数据”平台；二是其他机构平台的数据，如企业、媒体、高校的网站等；三是图书馆馆藏资源，各大图书馆的丰富资源都是获取数据的宝库。

（二）Web抓取与第三方平台数据获取

对于隐藏在网络中的无法使用搜索引擎直接获取的数据，就可以使用抓取工具或者第三方平台获取相关数据。常见的Web数据抓取工具包括：Python、Java、八爪鱼采集器、火车采集器等，其中Python以及Java等需要掌握编程语言，而八爪鱼采集器和火车采集器操作则相对简便，还有傻瓜式操作的简易模式，很容易上手。除了Web数据抓取工具之外，还可以通过一些第三方接口或平台获取数据，例如twitter API、akshare接口、西瓜数据等。

（三）访谈或调查方法获取数据

访谈或调查方法获取数据主要针对的是需要有明确的对象的数据或一些专业性极强的数据。通过直接面对面访谈或者发送邮件等方式访问数据的持有者、相关专家等获取数据。对于一些有特定人群的非“现成”数据，可以采用线上线下发放调查问卷的方式来获取。

（四）众包式数据

所谓“众包”，其实就是将所需要获取的数据分发给公众，利用群体智慧来获取数据。如前所述，《卫报》“数据博客”栏目数据采集的主要方式就是“众包”。2009年，为了能够回答公众提出的英国国会议员违规消费的问题，英国政府在网络上公开了4年以来100余万份原始文件。面对海量的文件，记者们难以在短时间内应付如此庞大且海量的数据，于是《卫报》在其网站上直接邀请读者参与审读整理，在不到80小时的时间里，读者审读完成了17余万份原始文件，获取了充分的样本数据。

（五）其他

其他的一些数据获取方式还包括申请政府信息公开、培养固定的新闻信息源等。