前言 大数据时代我们是否还需要调研
前言 大数据时代我们是否还需要调研
1998年亚马逊的销售量迎来了暴增,而导致这一切的是一个叫做格雷格·林登(Greg Linden)的25岁年轻博士和他所带领的团队所开发的“item-to-item”协同过滤技术。
不管你是否相信,在此之前的亚马逊一直依靠其所聘请的编辑和书评人来撰写书评并向网站浏览者提供建议。在这些人最风光的年代,他们被美国媒体誉为全美最有影响力的书评家。
彼时,亚马逊首席执行官杰夫·贝佐斯(Jeff Bezos)却打算做一个惊人的尝试:根据每一位客户的个人购物偏好数据向其提出具体建议。搜集每一位客户的相关数据的工作,如客户的浏览行为数据、购买行为数据等,是从网站建立之初就已经开始的。同时,贝佐斯还雇用了一个叫格雷格·林登(Greg Linden)的人基于亚马逊所拥有的数据开发的一种推荐系统。
1998年,林登和他的同事们成功提出了“item-to-item”协同过滤技术并申请专利。该协议通过查看亚马逊所售产品间的关联性然后向顾客进行有效推荐。随着该协议在网站上的运用,亚马逊的销售额猛增,顺理成章的人类顾问开始被逐渐解雇。随着科技的发展,越来越多的组织加入了亚马逊的队伍。
基于统计学的传统调查研究,其目的之一是用最少的数据获得最多的信息并形成最有效的建议。在“小”数据时代,研究人员通过使用假设来选择一个或几个变量进行分析。然而,随着计算能力的提高,我们发现可以不需要假设驱动的分析,因为利用技术手段可以简单地分析数十亿个数据点并“偶遇”到数据间的相关性。正是在这一逻辑形成、完备的过程中,对于利用大数据分析取代传统调查研究的声音开始出现。他们认为传统调研不仅费时费力而且准确性往往也难以令人满意。舍恩伯格在《大数据时代》中写道:“随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。 但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。”最常被列举出来用以证明这一论述的例子就是民意调查的失准——从选前民调的小幅领先到投票结果公布后大幅落败的事例屡见不鲜。
以上的说法是事实吗?是的,但这不意味着我们可以放弃传统调查研究方法。因为,大数据同样有着它的局限,而传统调研结果出现失准可能也并不全是方法的问题,更多的是使用者的问题。
首先,到目前为止,大数据能帮我们发现“是什么”而无法解释“为什么”。虽然在很多商业决策中,决策者们更倾向不必知道现象背后的原因,而只要求基于数据的决策有效,但这一逻辑很显然不适用于对社会问题、传播现象等的研究,也不利于对企业的长久发展的思考。这些研究往往和人心、人性有关,对大数据还无法解决的“为什么”的探究往往才是关键所在。
其次,我们必须理解大数据本身也是建立在理论上的,比如统计理论。它们在调查研究方法中都有着广泛的应用。单纯地认为通过大数据可以取代其他所有工具,是不切实际的。任何的工具都有着它自身的优势和不足,学会正确地使用它才是关键之所在。
再则,大数据的获取不仅难而且费用昂贵。当有人在计算一次抽样问卷调查所需的人力和花费时,他们往往会将大数据时代的数据获取描绘得轻而易举。而现实是,随着数据价值的不断提升,越是全面的数据越是掌握在专业机构和头部企业手中。一般人若想使用这些信息,其结果经常或是无法购得或是负担不起费用。
而且,随着人们对个人信息敏感度的提升,大数据在获取和应用上的道德问题越发凸显。未经用户许可就获取用户信息(特别是隐私信息)的行为越发惹人厌恶并引发法律问题。例如曾有国外零售商以女性会在怀孕3个月时购买无香味体乳、怀孕6个月时购买各种维生素补充剂为标记,根据客户的购物数据推测出孩子的出生日期。
最后,如果我们静下心来仔细去分析那些常出现在人们口中用以证明调研结果失准的例子,不难发现其失准的原因往往和调查对象定位不准、调查方法选择不当以及问题设计欠妥、数据分析不足有关。比如曾经有机构针对某地地铁建设,通过问卷调查方式询问了该地民众是否支持地铁建设以及会否在地铁建成后用地铁出行替代自驾出行,绝大多数民众的回答都是肯定的。但当地铁通车后,该市的路面交通并未得到明显改善。当调查人员回访到部分当初做出肯定回答的民众时,他们对问卷答案的解释是那时他们以为当地铁通车后别人就会选择地铁出行,而自己就可以舒适地自驾出行了。很显然,这一调查会出现调查结果不准的主要原因在于调查方法的选择和问题的设计。因为问卷调查法本身就不是用来测得被访者内心深处所想的方法。并且,试问面对公共工程建设,一般民众谁会说不支持呢?因此选择(或加入)访谈法去了解民众深层次的心理状态比通过封闭式提问的问卷要有效很多。
本书以传媒相关专业的同学为对象,有针对性地介绍了调查研究的相关内容,旨在为读者提供一个围绕传媒业的相关调研工具、分析方法及其有效决策的可靠论述。全书以审慎的态度对主要概念做了梳理。在案例的选择上兼顾了专业的相关性和读者的兴趣所在。通过对本书的阅读,读者不仅能够掌握调查研究的相关技法,也能切身体会到这些理论、方法在传媒行业中的实践。为了更好地帮助读者快速、有效地找寻信息,我们在各章节主要关注点之外设计了“学习目标”“关键术语和概念”“讨论与延伸”等板块,为读者提供更多的思考空间。并在书末提供了“术语表”,对本书所提及的各种术语进行汇总、解释,方便读者查询。
本书将用十一个章节来阐释有关视听传播调查研究的相关核心内容。每一个章节都试图解决本领域中的一个问题。需要提醒大家的是,一些重要的基础性概念出现在书中的前几个章节并在后面章节中被使用,因为本书的撰写总体上是按照调查研究的步骤完成的,请读者理解。全书十一章内容介绍如下:
第1章:调查研究的基本过程。本章通过一个贯穿式的案例介绍了调查研究的全过程,建立起调查研究的整体框架,从而使之后各章内容有法可循。
第2章:抽样,准确找到“他”。主要介绍抽样的概念、和普查的区别、具体的抽样方法以及样本量的计算,为调研的开展找准对象,解决“找谁问”的问题。
第3章:测量,有效决策的前提。本章以日常用语“好不好看”为突破点,解释了测量的重要性,并通过为一部电影好看与否拟定判断标准,介绍了测量框架的制定方法,对测量测层、量表的类别做了详细介绍。通过本章的学习可以解决“问什么”的问题。
第4章至第7章:分别从量化调查和质化调查两个方面解决“怎么问”的问题。其中第四章、第五章介绍了量化调查中经常采用的(问卷)调查法以及内容分析法、实验法;第六章、第七章介绍了质化调查中会使用到的访谈法、观察法、投射法、文本分析法。在现代调研中,我们往往会综合使用量化和质化调查的方法,本书选择分别介绍只是为了更清晰地展示各种方法的优点和局限。
第8章:质化资料分析与报告。本章帮大家梳理了质化材料分析的步骤,并在此基础上介绍了质化研究报告的撰写方法。
第9章:量化研究分析与报告。本章介绍了量化研究的过程。其中重点介绍了在分析过程中所用到的一些基本统计方法,并在过程和方法中穿插介绍了如何通过对应软件帮助我们得到结果。
第10章至第11章:网络时代的信息搜集。这是本书在面对互联网兴起,大量信息(数据)存在于网络中的现实,所补充的获取信息的手段。在第十章中,我们介绍了搜索引擎的使用以及Python的基本语法,在第十一章中重点讲解了如何利用Python去定制化抓取所需的信息及如何进行基本分析。
未来传媒业的生态在今天无法想象,就像曾经老一辈的电视人在初次面对新媒体时的茫然,那时的我们可能也会无所适从。但无论科技如何进步,媒介如何发展,受众始终是其关键之所在。无论是媒体人、运营者,还是传媒专业的同学,相信本书能够为你提供理解受众的一把钥匙。
在本书撰写的过程中,得到了张卓教授、王瀚东教授的指导,在此表示感谢。感谢赵国翠同学、杨瑾同学在初稿完成后以读者的身份试读了全部章节并提出了宝贵的修改意见。感谢我的编辑黄松毅老师,在本书的写作过程中她给了我极大的包容和支持。虽然在撰写过程中参考了大量国内外文献资料、案例,但由于作者知识的局限,相信书中还是存在很多疏失,请各位老师、同学不吝指正,反馈意见请发至邮箱:zhangsj@outlook.com。