研究变量的建立

二、研究变量的建立

研究变量(Research Variance)是研究者所需要的研究与测量的随条件变化而变化的因素。变量这个词对于各学科的理论和实证研究都非常重要。对于实证研究,数据里的变量构成了实证研究的基础。因为没有变量,数据就没有变化,没有变化就没有办法看清两个事物之间的关系。

问卷中,研究者针对问题会以研究假设为方向寻求变量,再基于变量设计问卷问题。所以变量挖掘是问题设计的根基,在设计问卷调查的问题前,需要确立问卷的自变量、因变量甚至无关变量。换句话说,一个变量有变化,另一个变量跟着变化;如果一起变动,往哪个方向变化,这在统计上就是变量所包含的信息。这在理论上也非常重要,要想了解事物与事物之间的联系,就要去比较两个观察对象,发现它们之间的差别,然后再去思考这两个差别之间是否有关系。

实例2-1:假设目前学生的考试不及格率出现逐年上升的趋势,导致这种现象的原因可能是多样的,比如可以从教材、授课、学生、教育体制、学习环境这些维度去设计相应的变量,并建立假设。然后用问卷调查的方式做数据收集,并利用收集的数据创建数据模型,最终得出结论是或由于学生的进取心,或由于大环境的影响,或是这些环节共同导致的。这种发现问题—寻找变量—创建模型—实践求证的过程就是实证研究的核心逻辑。

使用问卷调查,经常需要使用定量分析法去分析数据,因此在设计变量之前需要先确立自变量。当然自变量和因变量的选择是一个动态的过程。例如调研毕业生毕业后的薪酬水平,研究者可能把毕业院校、就业城市等作为自变量,把薪酬作为主要的因变量。但是在反馈数据中,如果就业城市对结果影响呈现清晰的差异化,那么可以把其他变量拆解成多个自变量去专注分析就业城市对毕业生薪酬的影响,比如“本科院校毕业生在不同城市的薪酬对比”等。

设计变量时需要边界清晰,可以细化但是不能糊化。一个变量呈现一个事实数据,方便后期做数据分析的时候做定变量之间的转换,呈现问卷调查结果的多元化。反例比如:在某个省份做毕业生薪酬调查,问卷中同时设定问题变量有毕业院校和毕业专业。由于各学校间专业能力的高低不一,在最终结果上,很难通过这两个数据来衡量其对薪酬影响的相关性,两个变量间相互影响导致变量边界模糊,数据有用性较低。在这种情况下,一般建议用“专科院校毕业生”和“本科院校毕业生”这种分类方式,边界更清晰,模糊边缘会更少。

理论上问卷调查应该只有一个因变量,这个因变量往往会体现在问卷的标题上。自变量与因变量之间可以通过一系列逻辑连续的问题实现连接,并最终实现模型化,得出研究结论。当然在问卷设计的逻辑链中,往往能通过数据分析得到多个因变量,这些也是额外的价值数据。变量设计应从研究假设角度出发,尽可能地罗列可能的变量,避免割裂质与量,防止孤立、片面、静止地选择变量。

列举变量,一般常用的方式是枚举法(穷举法),顾名思义就是要穷尽所有的答案,也就是将问题的所有可能的答案一一列举,反复确认是否有遗漏答案。

实例2-2:你认为小学生每天应该读多久的课外书?

1.少于1小时

2.1—2小时

3.2个小时以上

针对这样的问题最好再设计一个“4.视情况而定”。因为每个小学生每天的阅读情况是不一定的,要视所处的年级、其他学习时间安排而定,因此原有的选项并没有包括“视情况而定”这种选择。同样的道理,在研究影响学生消费情况的问题上,应尽可能多地列举可能的消费情况,以及影响这些消费情况的各种因素。

最后,在变量设计中,选择线性结构变量优于非线性结构变量。线性结构虽然简单,但是能直达问题。非线性结构看似“高级”,但是输出的结果模糊,不如线性结构的变量直接有效。