评估设置证据标准过程中的双重标准

2026年07月27日

版权

评估设置证据标准过程中的双重标准

这些数据引发了一个令人担忧的问题：我们应该拿什么来阻止受政治驱使的观察家们提出那些能论证他们发现便于作出因果性论断的反事实呢？泰特洛克和贝尔金（Belkin）对此的答复是：详细说明如何筛去那些似是而非的反事实的标准。[15]他们认为，尽管严格来说反事实论断属于实证难以达到的“可能世界”（没人能跳进一台时间机器，撤销关键事件并记录将会发生的事情），但对有关该世界这类主张的内在含义进行验证通常是可能的。实际上，有关逻辑的、统计的和历史的标准有篇文章进行了大量的论述，学者们可以用之进行反事实的判断。[16]我们中的大部分人都怀疑某些反事实比其他反事实更有说服力，该文表明我们的这种怀疑是有根据的。但存在一种认知获取（cognitive catch）：为避免他们的推测滑向唯我主义的深渊，专家们必须愿意改变他们对可能世界的想法以回应现实世界的证据。如我们现在能看到的，很多专家还是不情愿的。

让我们再次探究很有争议的反事实——“如果20世纪20年代早期苏联共产党把斯大林赶下台，那么在50年前苏联就会向更友善、更温和的社会主义形式发展”。做一个思想实验，假设克里姆林宫档案馆里的历史调查员声称发现了揭示20世纪20年代晚期兴起的反对斯大林潮流的档案，并且给定如下机会，最可能的继任者会建立一个更友善、更温和的社会主义。专家们应该如何回应？连考虑改变自己的想法都不肯的行为似乎有些顽固。但如果来自另一个可靠来源的压倒性证据指向相反的结论，这样的一个回应就可能是无可非议的。很多科学家因为一些“异乎寻常的论断”而论证轻视已有证据的合理性，譬如违背了太多已得到确立的物理的和生物的规律就将其作为超感知的看法。从贝叶斯的角度来看，非专家们告诉专家们“所诊断的”特定证据是如何与特定的因果性假设相关的看似太胆大妄为了。

然而，为记录受理论驱使的对反事实历史的思考的影响而设计一种更好的诱饵（mousetrap）是可能的。想象我们把我们的思想实验转换为一个证据维持一致的真实的实验（例如，最近在克里姆林宫档案馆发现的档案），但要对发现进行控制（例如，这些档案揭示了以下内容：支持斯大林主义是偏误的观点，或支持斯大林主义是列宁主义自然的衍生）。只有当证据增强了观察家们以前的信念时，他们才会认为这些证据有说服力，这一实验会揭示在判断证据的证明价值时，存在一种令人不安的双重标准。在测量知识性的主张时，学者们拥有两套不同的标准——一套与之声称具有的知识相辅，另一套与之声称的知识相左——存在以下危险：他们关于历史因果关系的信念将极容易僵化成易碎的同义反复，并在援引思想上的先入之见为他们关于“本来会是什么样”的主张辩护与援引关于“本来会是什么样”的主张为他们的先入之见辩护这两者之间交替。

为了探究这一想法，我们把想法反转的实验转变为一个真实的实验，询问应答者如果一支在克里姆林宫档案馆工作的研究团队宣称发现的证据显示苏联历史上三个选择节点（20世纪20年代晚期斯大林主义是否可避免，20世纪50年代中期冷战是否会结束，以及20世纪80年代早期政治局是否会很轻易就以一种对抗的方式回应里根政府的政策），那么他们会如何反应。[17]

方法论附录介绍了样本的详细情况、研究程序和采用了2×2×3混合设计阶乘形式的研究设计，这个研究设计具有两个组间自变量——假设研究小组发现证据的自由或保守倾向，以及是否有对意识形态偏差的方法论检查——和一个代表那三个历史“发现”的重复测量因素。在自由倾向的条件组中，参与者想象研究团体揭示的证据显示20世纪20年代晚期斯大林主义可以避免、20世纪50年代中期冷战会结束以及20世纪80年代早期里根差点导致美苏关系的急剧恶化并最终爆发战争。在保守倾向的条件组中，参与者想象证据显示历史在这三个历史节点中的任意一个上都不会朝着不同的路径发展下去。在高研究质量的条件组中，参与者被进一步要求去想象研究团队采取了特殊的预防措施以防止政治偏见。在未加说明质量的条件组中，参与者就没有得到这样的保证。在看完每种发现之后，参与者既判断研究结论的可信度又判断指责研究团队可信度的三种理由：忽视研究者政治的（不是学术的）动机，档案的真实性存在争议，以及关键档案脱离了背景。

表5—3表明，尽管方法论上的预防措施有一种弱效力，但这一效力被意识形态的先入之见效力淹没了。不管所宣称的对偏差的检查如何，自由派和保守派都认为与自己的观点相符的证据有很高的可信度，而与自己观点不一致的证据则相对不可信。在对没有落实预防措施的研究团队所发现的不一致数据进行回应时，专家们利用了所有三种的信念体系辩护：挑战档案文件的真实性、挑战这些文件的代表性，以及挑战未署名的调查者的动机和完成这项工作的能力。开放的数据突出了这一点。中和数据时采用的相同的策略在对不一致证据的自发评论中出现的可能性是一致证据中出现的可能性的四倍（这些由面对不一致数据的专家们制造的思维规程中有62%至少包含了一种证据中和的技巧，与之对比，由面对一致数据的专家们制造的思维规程中仅有16%包含这一技巧，意识形态的尺度上处于两端的专家运用双重标准的程度大致相当）。当我们测量研究者赞同所有三种数据中和策略的倾向时，这一复合的标度始终一致地预测了对调查者想要从他们的“发现”中得出的结论的拒绝（纵览所有情景，相关值从0.44到0.57）。[18](https://www.daowen.com)

表5—3　　在三个有争议的几乎成功的反事实中，对与低质量和高质量证据一致与否的平均反应

注：得分越高，可信度越高（第1列），抵制越强（第2～4列）。

在对证据进行评估时，刺猬比狐狸更倾向于运用双重标准。面对发现的不一致的证据，刺猬不是改变他们的观点，而是增加了对以前立场的自信；而狐狸至少会做出一些小的调整以适应新证据。[19]此外，刺猬是双重标准的坚定捍卫者。在听取报告时，我们会问专家他们对这项研究的评估受到了研究结果的多大程度的影响。狐狸不愿意承认他们持有两套认识论的标准并维持了他们相似的反应。与之相反，刺猬承认他们的反应会有显著的不同并为差别反应辩护。第6章我们将回到这些辩护上来，我们会给刺猬一个机会，以回应对它们有认知偏差的一系列指控。[20]

这一转变实验的关键点在于双重标准无处不在：人们往往只在不喜欢的结果中开启高强度探照灯以寻找瑕疵。我们是把问题归于对不一致证据的过度怀疑，还是对一致数据的质疑不足，我们关于“本来会是什么样”的信念会很容易恋栈，被防御策略厚厚的防护带所保护，与相反的证据绝缘，把不一致证据归于方法论上的草率或偏袒一方的偏见。它告诉我们，没有人会自发地深入思考“我想这次是方法论上的错误打断了我的研究方向”的这种可能性。