性别差异研究的方法论问题

2026年07月27日

版权

性别差异研究的方法论问题

性别差异的模式

性别差异可能存在多种模式。如果让一群男生和女生一起学习刺绣，恐怕女生的平均水平远远超过男生；如果是学习四则运算，男女生平均成绩可能差不多，但是女生成绩比较接近，差异小，而男生成绩可能更加参差不齐一些。

加洛蒂（Gallotti，1999）列出了各种可能的差异模式（见图12-6中A～D），并且认为出现模式（A）的可能性比较小：

（A）一种性别中最差的个体也好于另一种性别中最好的个体；

（B）两种性别的个体之间没有差异；

（C）两种性别的平均成绩有差异，且重合之处比较多；

（D）两种性别的平均成绩有差异，且重合之处比较少。

此外，还应加上第5种模式，那就是（图12-6的E所示）：

（E）两种性别的平均成绩没有差异，但是一种性别的内部个别差异大，另一种性别的内部个别差异小。

(https://www.daowen.com)

图12-6　性别差异的各种模式

（其中小图A～D来源：Gallotti，1999）

实验者期望效应

在性别差异研究中，一个主要的困难是容易产生实验者期望效应。例如，一个主试如果主观上觉得男性应该是善于逻辑推理的，他让男性被试完成推理任务的时候就可能有意无意流露出信任、鼓励的神情；当面临女性被试的时候则可能流露出比较随意、对她能否成功流露出无所谓的态度，这样就会导致实验的结果向着有利于“男性善于逻辑推理”这一假设的方向发展。

另外，主试的性别也可能影响到研究结果，因为研究材料的选择、研究程序的制定、指导语的编写乃至研究过程中主试与被试的交流，都会染上一定的性别色彩。例如，让被试评价自己对家庭生活的满意程度时，女性主试编制的问卷可能更适合女性填写；即便让男性主试参与编写，排除了这一因素，也不能排除问卷填写过程中男女被试不同的反应倾向（女性可能更加倾向于诉苦）。

在心理学研究中，对一种心理现象的确认往往需要许多人的重复实验，性别差异研究尤其如此。这样，我们就要对众多的文献资料进行综合研究。但是，文献资料也不是那么可以轻信的。这是因为，研究人员在研究开题的时候，往往希望发现性别差异，而不是否定性别差异。这样，他的做法往往是很“荒唐”的。例如，他会使用智力测验来证明男女两性在智力上的差异，但是他忘记了，智力测验的制订者往往都采取许多措施来保证他的测验在性别上是公平的，男女成绩理论上应该相等。于是，最终的结果可能就是男女两性无显著差异。这本来是很合理的一个结果，但是研究者会觉得自己的研究“失败”了，羞于（或不屑于）报告这一结果，而是重做研究，希冀着做出显著差异来。同样，学术刊物的编辑也可能带有这个定势。如果看到论文里面说没有差异，他可能也认为是研究者设计不合理，从而退回稿件。这样一来，我们就可能与大量结论为无显著差异的文献失之交臂。这是实验者期望效应的另一种体现。

元分析

虽然我们看到的文献可能体现了实验者效应，但是长期积累下来，还是得到了许多重要的信息。为了对这些研究信息加以综合，得出一些倾向性结论，人们想出了一些办法。最简单的办法是“投票法”（vote counting）：统计持各种不同观点的论文篇数，最终得出数量上占优的结论。出现于每一篇文献的观点都是一张“选票”，它支持有差异的，“有差异”一方就得一票；它支持无差异的，“无差异”一方就得一票，最终得票多的那个观点就是具有倾向性的结论。同样，我们可以通过这样的方法来得出某项认知能力是男优于女，还是女优于男。

投票法未免太简单机械了，后来出现了元分析（meta-analysis）。元分析提供了一种新的研究方法。“元”（meta-）是非常有意思的一个前缀，它的含义是“关于X的X”。例如，元分析就是“关于分析的分析”，也就是将以前的分析报告汇总起来加以进一步的分析。元分析引入了一些数量分析指标，其中最常用的是效应量（effect size），其一般算法是，每项研究中两个样本的平均数之差除以两个样本的平均标准差，即d＝（M1－M2）／Sd。例如，某个关于推理能力的性别差异的研究中，男生组的推理测验得分平均数为75，女生组平均数为70，两组平均标准差为10，则效应量d＝（75－70）／10＝0.5。科恩（Cohen，1969）提出了对于不同d值的判断标准：d小于0.20，是较弱的效应量；d＝0.5左右，是中等的效应量；d大于0.8，是较强的效应量。