方法论附录

2026年07月27日

版权

方法论附录

本附录分为六节，分别论述本书中所运用的六种主要研究类型，每一节致力于描述研究的参与者、程序和刺激材料。这六种方法是：（1）第2、3章的地区性预测练习（从中我们获得好判断的一致性指标例如概率得分以及它们的构成）；（2）第4章的声誉投注练习（从中我们获得信念体系辩护的贝叶斯信念更新的指标与测量方法）；（3）第5章的对历史发现练习的反应（从中我们得到双重标准的转变测试）；（4）第5章的对几乎成功的反事实练习的反应（从中我们得到历史结果的“可变性”的感知的测量方法）；（5）第7章的可能未来的分拆练习（从中我们得到好判断的一贯性指标，例如概率论形式原则的违反）；（6）第7章的可能过去的分拆情景练习（从中我们得到在必然性曲线与不可能性曲线以及两种知觉间矛盾的测量）。

Ⅰ.地区性预测练习（第2、3章）

参与者与个体差异的测量

我们对一个专家的操作化定义是“对特定国家、多个国家的地区性集群，或者作为整体的国际体系发展状况，评论或建议政治和经济的显著趋势，并以此为生的专业人员”。专家可以以此方式分为不同的特定地区类型（从南部非洲到东欧等等）和不同的功能类型（通晓局部的政治情景、宏观经济政策及其影响、国家间关系、权力和扩张间的军事平衡等等）。我们把这284位专家（这些人符合专家定义的所有内容，并且至少回答了一半我们的预测问题）分为如下的类别：人口统计、教育（程度）、学科背景、当前职业和政治成分（通过“专业背景调查表”测量）。大多数的参与者是男性（76%），平均年龄为43岁（标准差为7.3）以及平均12.2年的相关工作经验（标准差为4.7）。多数拥有博士学位（52%），而且几乎全都接受过研究生培训（96%）。我们的参与者来自各个学科，涵盖的主要学科有地区性研究（41%）、国际关系（24%）、经济学（12%）、国家安全与军备控制（11%）、新闻学（9%）、外交学（2%），以及国际法（1%）。他们工作的背景也千差万别，包括学术界（41%）、政府部门（26%）、智库和基金会（17%）、国际机构（8%），还有私人部门（包括传媒）（8%）。大约有61%的参与者被主流媒体采访过至少一次，21%的参与者超过十次。大约80%的参与者至少一次就国际政治或经济议题作为正式或非正式顾问服务于政府部门、私人部门、国际机构或智库。参与预测练习的大多数样本（82%）始于1988和1995年之间。

我们也尽可能多地测量个体在意识形态倾向（以第3章13个条目的“世界观调查表”作为因子来分析）和认知方式（以第3章的13个条目“推理方式调查表”作为因子来分析）上的差异。在每一个案例中，专家对条目作出反应，共分9个分值，从“完全不同意”（1）到“完全同意”（9），其中分值5被定义为最大限度的不确定性。

在“世界观调查表”中的条目如下：“我认为全球经济相互依赖的趋势不可逆转”；“自由市场是通往繁荣的最好路径”；“我们的社会低估了自由市场在不利环境下产生的副作用”；“我们的社会低估了市场对社会平等的不利影响”；“我相信均势政治依然是世界政治中的支配性法则”；“把国际制度解释屈从于超级大国的随心所欲是错误的”；“我对于世界经济的长期的增长轨迹是乐观的”；“我对超越可持续发展的极限感到担心”；“在对付潜在的对手时，相比于威慑，安抚通常是一种更有用的外交手段”；“在决定是否帮助无力偿还债务的政府时，我们应该将金融危机蔓延视为一种比道德风险更大的威胁”；“我期望在不久的将来强大的民族与宗教认同改变许多现有国家的边界线”；“有一种普遍的低估生态系统脆弱性的趋势”；“总的来说，我认为自己更自由/保守”。最大似然性因子分析和四次幂极小值旋转产生了第3章表3—1的三因子结果。每个因子上的高负载（高于0.25）条目界定了在以后分析中需要用到的信念体系的等级（平均克隆巴赫系数=0.79）。

在“推理方式调查表”的13个条目中，我们从克鲁格兰斯基（Kruglanski）的闭合需求量表里选取了8条：（1）“工作中清晰的规则和秩序对成功来说是必不可少的”；（2）“即使在某一件事上我下定了决心，我还是总想考虑不同的意见”；（3）“我不喜欢有多种答案的问题”；（4）“我通常在做重要决定时，能够很快做出，而且非常有信心”；（5）“当考虑大多数的冲突情况时，我通常考虑双方的正确的方面”；（6）“听到某个人犹豫不决是非常气人的”；（7）“我更喜欢与不同观点的人互动”；（8）“当试着解决一个问题时，我常常考虑许多让我困惑的可能性选择”。其余的条目（9～13）如下：（9）在一篇著名的文章中，“以赛亚·伯林将知识分子分为刺猬和狐狸。刺猬知道一件大事，就试着把多样化的视角整合到以不变应万变、狭隘的视角内，而狐狸知道许多小事并尝试着在一个个案例的基础上提高解释。按此测量，我把自己置于刺猬或者狐狸一端”；（10）“相比于对这个世界的复杂性估计不足的学者，夸大这个世界的复杂性的学者通常要冒更大的风险”；（11）“远超许多人所想，我们更近于做出谨慎的政治解释”；（12）“我认为政治不像时钟，更像云（‘像云’的意思是本身是不可预测的；‘像时钟’的意思是如果我们有足够的了解，我们就可以完美地预测）”；（13）“在做决定时更普遍的错误是放弃好想法太快，而不是坚持坏想法太长”。在这13个条目中最大似然性因子分析（与四次幂极小值旋转）产生出第3章表3—2描述的两因子结果。我们的分析集中于第一个同时也是最大的因子——“刺猬—狐狸”因子——大部分是因为第二个因子（果断）很少解释理论上重要结果的变化。在第一个因子上的高负载（等于或大于0.25）条目界定了本书大多数分析中用到的刺猬—狐狸测量（克隆巴赫系数=0.81）。

研究程序与材料

所有的受访者都收到一份“可能未来的调查表”，该调查表通过如下方式介绍了这项研究：“尽管政治预测是一项明显不精确的科学，受过良好训练的猜测对于设定优先性和制定应变的计划依然非常重要。你对这里所提出的预测问题的答复将不会涉及你个人或者你所属的机构。我们的目标不是宣布在一场预测竞赛中谁是‘赢家’或‘输家’，而是研究在不确定的条件下受过良好训练的专业人员是如何分析复杂的真实世界进程的。”

我们开始系统地收集预测以及对这些预测的证实或证伪的反应程度，该工作始于1987—1988年，一直延续到2003年。预测练习征集了大约60个国家的可能未来的主观概率判断。这些国家被归为八个片区：（1）苏联集团，最初的时候包括苏联（时序终于1991年年末，之后解体为俄罗斯、乌克兰和哈萨克斯坦等）、波兰、民主德国（终于1990年德国的统一）、捷克斯洛伐克（1993年分裂为捷克和斯洛伐克）、匈牙利、罗马尼亚、保加利亚以及非华沙条约成员国的南斯拉夫（终于1991年，以及分裂之后的三个共和国：斯洛文尼亚、克罗地亚、塞尔维亚）；（2）欧盟片区，包括其中四个最大的经济体——英国、法国、德国和意大利；（3）北美（美国和加拿大）；（4）中美及拉丁美洲，包括墨西哥、古巴、委内瑞拉、巴西、阿根廷和智利；（5）阿拉伯世界，包括埃及、叙利亚、伊拉克、沙特阿拉伯、利比亚和苏丹，再加上以色列、土耳其和伊朗；（6）撒哈拉以南的非洲，包括一个“非洲之角”子群（索马里、埃塞俄比亚以及1993年独立的厄立特里亚）、一个非洲西部子群（尼日利亚、加纳、科特迪瓦、塞拉利昂以及利比里亚）、一个非洲中部子群（扎伊尔/刚果、安哥拉、津巴布韦、乌干达、卢旺达以及布隆迪），以及一个非洲南部子群（南非和莫桑比克）；（7）东北亚（日本、朝鲜和韩国）；（8）东南亚（越南、泰国、马来西亚和印度尼西亚）。我们也会打破地区性的专长，做几项更为专业化的预测练习（以后详述）。在考察的每个地区性或功能性的领域中，受访者组成的专家库至少在10名以上，在一些案例，诸如苏联集团、阿拉伯世界、北美和欧盟中，甚至超过20名。

典型的测验期分为三个阶段。首先，专家回答以前叙述的问题以探查他们的专业背景、偏好的思维类型，以及意识形态上和理论上的信念。其次，在他们专业领域内至少就两个国家的近期与长远未来的概率做出判断。最后，专家扮演“业余爱好者”的角色。从他们不熟悉的地区选取至少两个国家（国家的选择要照顾到对所有地区进行预测时业余爱好者的数量进行平衡），就它们的可能未来做出概率判断。专家在他们的专业领域内有时也被要求作更复杂的信誉投注，这就需要评估可能未来条件似然性。第一，他们对根本力量观点的正确性和条件性；第二，最有影响力的竞争性观点的正确性。这些信誉投注允许我们评估专家更新他们信念的程度，就像好的贝叶斯学者那样，这是第4章和本附录第2节的焦点。

我们向专家们保证，我们理解没有人能够事无巨细地通晓所有练习中所有论题，无论何时，当他们感觉到他们一无所知从而无法拿出证据论证一方的可能性高于另一方时，在这种仅依靠猜测的练习中，我们鼓励专家们要有信心。我们也让参与者们就近期发展的事实做简要的总结归类（“更新记忆并且确保一个最低的常识基础”）。有一点值得强调，所有的被收集的数据对个体以及他们所在的组织都是有严格的保密性保证的。这些保证是必需的，既有实践上的原因（许多专家只有在这样的基本原则下才参与）也有实质上的原因（我们的测量工作目的是深入了解专家们真正思考什么，而不是专家采取什么样的公开立场才是英明的）。

预测的问题必须满足5项标准：

1.通过洞知力测试。这个测试需要给可能的未来下足够清晰的定义，如果一个真正有洞知力的人在房间里，能够凝视他的水晶球，告诉你预测的是对是错，那么就不需要返工，让预测者事后再次说明这样烦人的要求。这类要求通常在非正式的预测练习中是必需的（譬如“你说的‘一个波兰的庇隆’或‘克什米尔地区的持续紧张’或‘日本的经济适度增长’的精确意思是什么？”）。我们寻求很容易可验证的公共指标。

2.通过排他性和穷尽性测试。我们依靠形式概率论以评估预测者就可能未来所做的概率判断的准确性与一贯性。但是当且仅当可能性没有叠加，同时当且仅当这种可能性把结果的范围都穷尽时，概率才可以被期望加到1.0。因此谨慎地界定可能未来间的界线是有必要的。有时这很简单。某些标准量表有“天然的”分界点。用测量理论的话说，它们形成了或者赋值为0或1的名义标度，或者形成了允许变化的程度进行等级比较的顺序标度。这些例子包括领导层的变化（例如，“X”仍然是总统或首相吗？）、边界变化（例如，国家的边界线保持不变、扩大或缩小？）和加入或退出国际安全的体制（例如，北约、华约、核不扩散条约）或贸易体制/货币联盟（例如，关税及贸易总协定、世贸组织、欧盟、北美自由贸易协定）。

其他标准量表本质上是不断地变化的。按照测量理论的话说，它们在测试值和非人为的零点间区间形成了等距的比率标度。这些例子包括GDP增长率、国债占GDP的百分比、国有企业的经济规模占GDP的百分比、国防开支占GDP的百分比、股市的收市价以及货币汇率。置信区间通常以前5年或10年的变量值标准差的±0.5来界定。然后专家被要求判断未来的主观概率值是低于、高于还是在特定的区间内。比如说，近几年可提供的年份的GDP增长一直维持在2.5%，而且如果近十年的增长的标准差达到了1.5%，那么置信区间应该以1.75%和3.25%为界限。

3.通过“别老是用愚蠢问题来烦我”测试。有些问题在世界上一些地方存在但在其他地方却没有。没有人预期在美国或英国有发生军事政变的可能，但是许多人认为在沙特阿拉伯、尼日利亚等国家却极有可能。专家们在判断由加拿大或挪威引起的核扩散的危险时会一笑了之，但判断巴基斯坦或朝鲜时却不会。有些“荒谬的问题”因此被删除掉。

4.混有不同难度的问题，从而允许我们评估个人或团体在预测技巧方面巨大的差异。条目的难度范围通过以下方式实现：调整预测的时间范围（短期与长期）、地区性的焦点（动荡地区与稳定地区）以及结果可预期的变化（从过去的基准率来作判断，边界变更和政权更迭是罕见的，而失业率和通货膨胀的变化则是很普遍的）。

5.避免含有强烈价值的语言。“只要事实，女士”的规则要求以一种合理的中立方式来定义可能的未来。这种设计是为了使受到的攻击降到最小，即使这种攻击来自强烈的政党倾向的参与者。我们可以说“国债上涨超过了GDP的120%”，但是不能说“分肥政治失去了控制”；我们可以说“跨边境的暴力正在增多”，但不能说“血腥的以色列或巴勒斯坦侵略者又进行攻击了”；我们可以说“非民主国家的政权更迭”但是不能说“这些国家已被解放”或“遭受更多压迫性的束缚”。当然，完全的价值中立是难以达到的，但是接近价值中立是值得努力的。

计分规则

虽然有时专家们做出了“0”或者“1”的预测（表明x是不可能的或必然的），但大多数时候还是对将要发生什么表达了某种程度的不确定性。而且除了典型的贝叶斯之外，他们大多数时候更喜欢用我们熟悉的口语表达不确定性：戈尔巴乔夫“几乎肯定”失败或者约翰·梅杰（John Major）“可能”失败或者巴基斯坦“大概”会进行核试验又或者向多数统治和平转变的可能性“微乎其微”。

我们不得不劝诱参与者们将这些独特的不确定性评估转变成标准的概率测量。不管怎样，从心理测量学的视角看，相对于在特定事件上被贴上“伪科学的人为”的概率估计的不可避免地抱怨，对不确定进行量化优势明显。我们只是没有系统的方法检查非正式地谈到可供选择的未来的准确性，但可以检查主观概率判断的准确性。量化给了我们一个框架来评估——多个场合下的多个预测——在主观似然性和事件发生的客观频数之间的一致性（譬如校准和鉴别的测量）。

诱发主观概率的方法与不同量度性质的变量很相似。我们把对可能未来的预测切割为逻辑详尽且互相排斥的集，通常它们有三组。然后专家赋予每一个可能性以概率值，这些概率值有一个限制条件，那就是这些判断共计为1.0。一个典型的“三种可能未来”（three-possible-futures）的标度如下所示：

我们告诉专家们，对于“三种可能未来”的预测，他们应该视0.33作为最大的不确定性点。我们给了他们一个特别的“最大不确定性”盒子，我们强调，只当他们感觉没有相关知识（no relevant knowledge）以判断一个未来的集优于其他（“只是猜测”值）时，才可以使用。我们也告诉专家赋值为0（仅当确定一个可能的未来在特定时期内发生是不可能时）和1.0（仅当确定一个可能的未来在特定时期内发生是必然时）的条件。尽管0和1.0在标度的两端，但它们共同拥有一个关键的心理学特性：都代表了由不确定性向确定的移动。

对于连续的比率尺度变量，变量的最近可提供的值和该值的置信区间都会交给专家们。通常通过加上或减去先前的5年的变量的值（或者先前的5次选举）的0.5个标准差来定义置信区间。然后专家判断未来的主观概率值是低于、高于还是在指定的区间内。比如说，如果可提供的近几年GDP增长有2.5%，而且如果过去5年增长的标准差达到了1.5%，那么置信区间应该以1.75%和3.25%为界限。为了达到实验的目的，我们有时把可能未来分为四类或更多的类别以获得极端可能性判断的变化（例如，严重的经济衰退或者持续的经济繁荣），并且评估这些可能未来“分拆”成越来越多子集的影响。

原则上，在地区性预测练习中获得的主观概率预测的总数为95472个：284个预测者每人对四个国家（两个在专业领域内，两个在专业领域外）中的每一个国家在17个结果变量（平均）上作短期和长期预测，它们中的每一个通常被分解为三个可能未来，因此需要三个不同的概率估计。实际上，由于预测者并不是对每个提出的问题都做出答复，结果造成大量的数据缺失，最后一共有82361个主观概率估计（来源于对大约27450个预测问题的答复）。

预测问题的类型

在练习中提出的大多数问题都在1988年和1992年用过，包括短期和长期两个版本，并最终归到下面的四个“内容”类别中的一个。

国内政治领导的连续性

对于民主国家来说，我们预期在一次选举（短期）或两次选举（长期）之后，现在立法机构拥有多数议席的政党将会保持现状、失去其地位，还是巩固其地位（两院制国家要单独判断）？对总统选举的民主国家来说，我们预期在一次或两次选举后，现任者/执政党丧失执政权、依然执政但支持的人数减少，还是支持的人数增多？现状选择的置信区间建立在过去5年的控制议席或直接投票的变化的基础上。

对于竞争性选举不稳定的国家，我们预期在未来的5年或10年内，个人和（单独判断）执政党/团体会丧失执政权、依然执政但其权威受到巨大挑战（例如，政变未遂、大叛乱），还是没有大的挑战？同样，对于政体不稳的国家，我们预期在未来的5年或10年政治体制的基本特征将会变化，如果这样的话，那么它变化的方向是增加还是减少经济自由，增加还是减少政治自由，增加还是减少腐败？我们预期在未来的5年或10年间，不同种族间以及不同教派间的暴力将会增加、减少，还是与现在一样？最后，我们预期在未来的10年或20年之间，国界是与现在一样、扩大，还是缩小？而且，如果变化了，最终的结果是潜在国家实体通过和平或暴力的方式宣布独立，还是被另外的民族—国家吞并？

国内政策与经济表现

在政策方面，我们预期在接下来的2年或5年内，边际税率、央行利率、中央财政支出占GDP的百分比、每年中央财政赤字占GDP的百分比，以及国有企业的经济规模占GDP的百分比等是增加、减少还是基本不变？此外，我们预期在接下来的2年或5年政府的优先性，诸如把GDP的百分之多少用于教育或者卫生保健？在经济表现方面，我们预期在接下来的2年或者5年内GDP的增长率是加速、减速，还是保持不变？在接下来的2年或5年里我们应该对失业及通货膨胀如何预期？我们预期在接下来的5年或10年内，加入还是退出自由贸易协定或货币联盟？

国家安全与防御政策

我们预期在接下来的5年或10年内，国防开支占中央财政支出的百分比是上升、下降，还是保持不变？我们预期在接下来的5年到10年内有关的政策会怎样变化，包括兵役制度，武装力量（或支持叛乱）反抗国家，参与国际维和行动（派遣人员），加入、退出联盟或长久维持现状，以及核武器（获得核武器、不断地尝试获得核武器、放弃核计划或放弃核武器）？

特殊目的练习

共有8个练习，包括：（1）大规模杀伤性武器的扩散练习（1988年），其中，专家判断25个掌握制造大规模杀伤性武器、核武器或生化武器技术的国家，以及有这种可能性的国家或者次国家恐怖主义集团，在接下来的5年、10年或25年里使用这些武器的可能性；（2）第一次海湾战争练习（1990年秋），其中，专家要对是否会发生战争表明态度（如果会，那么这场战争会持续多久，盟国有多少人员伤亡，萨达姆·侯赛因是否还能继续掌权；如果不会，是否科威特的部分或所有地区依然在伊拉克控制之下）；（3）社产主义转型练习（1991—1992年），要求专家预测在接下来的3年、6年或者12年的经济改革（剥离国有企业私有化的比率、财政金融政策与“休克疗法”模板匹配的程度）和随后的经济表现（失业、通货膨胀、GDP增长）；（4）在接下来的5年、10年或25年内人为引发或加剧的灾害练习（1992年），包括难民潮、贫困、大规模的饥荒，以及与公共卫生措施不足相关的流行性传染病（艾滋病传播）；（5）欧盟的练习，该练习的焦点最初是欧元的采用（1992—2002年、1998—2008年），但是后来扩大到思考苏联集团国家，加上土耳其，满足加入欧盟条件的前景；（6）1992年和2000年的美国总统选举预测练习（谁将赢得选举？他们相差多少？）；（7）互联网-新经济练习（1999年），集中在纳斯达克指数的整体表现（这是泡沫吗？如果是，什么时候破灭？）以及选定的“新经济”公司的产值、收入和股价指数上，这些选定的公司包括微软、思科、甲骨文、IBM、惠普、戴尔、康柏、世通、安然、美国在线时代华纳、亚马逊，以及e-Bay；（8）全球变暖练习，聚焦于25个国家在接下来25年的二氧化碳人均排放量（来源于矿物燃料燃烧和水泥制造业），以及正式批准一个国际公约（《京都议定书》）以控制这些排放量的前景（1996—1997年）。

现实检查

我们依靠下列参考资料以评估下列变量预测的准确性。

国内政治领导的连续性

我们从美国中情局的《世界各国概况》（CIA Factbook）（www.odci.gov/cia/publications/factbook/index html）中获得单个的领导稳定/变化指标、在立法机构占多数的指标、政权性质指标，此外补充以档案文献。我们对政治自由化的测量来源于自由之家：《世界自由报告》（Freedom in the world）（wysiwyg：//11http://www.freedomhouse.../research/freeworld/2000/index.htm）；每年在伦敦发表的《大赦国际报告》（Amenesty International Report）；美国国务院民主、人权和劳工事务局发布的美国国务院人权报告（http://www.state.gov/www/global/human_rights/hrp_reports_mainhp.html）；联合国发布的《世界经济与社会概览》（World Economic and Social Survey，1997）。我们的经济自由化指标来源于詹姆斯·格沃德尼（James Gwartney）、兰德尔·霍尔科姆（Randall Holcombe）和罗伯特·劳森（Robert Lawson）刊登在《制度化与理论经济》杂志上的文章《经济自由和经济增长的环境》［“Economic Freedom and the Environment for Economic Growth，”Journal of Institutional and Theoretical Economics，155（4）（December 1999）：1-21］。我们的腐败指标来源于透明国际（Tramsparency International）的《2000年清廉指数》（2000 Corruption Perceptions Index）（http://transparency.de/documents/cpi/2000/cpi2000.html），以及政治风险顾问公司（PRS Group）的《国际风险指标》（International Country Risk Guide）（各期）。

国内政策与经济表现

我们的GDP增长率［购买力平价（PPP）］、失业以及通货膨胀的数据来源于世界银行的《2000年世界发展指数》（World Development Indicators 2000）（CD-ROM），以及《经济学人智库》（Economist Intelligence Unit）的各期。有关教育的指标、卫生经费支出以及一组20个富裕国家对外援助的指标来自联合国开发计划署的《2000年人类发展报告》（Human Development Report 2000）（http://www.undp.org/hdr 2000）以及世界银行。边际税率的数据来自普华永道会计事务所的《个人税：世界一览》（Individual Taxes：A Worldwide Summary）（各期）、经济合作与发展组织的《经济展望》（Economic Surveys）（各期），以及L.柏腾（L.Bouten）和M.苏姆林斯基（M.Sumlinski）的《私人投资在发展中国家的趋势：对1970—1995年的统计》（Trends in Private Investment in Developing Countries：Statistics for 1970-1995，Washington，DC：World Bank，1996）。各国为市场经济而制定的制度和法律基础的发展程度的各种资料来自国际货币基金组织的《2000年世界竞争力报告》（World Competitiveness Report 2000）以及《国际风险指标》（International Country Risk Guide）（各期）。主要经济指标［中央银行利率、中央政府支出占GDP的百分比（PPP）、每年中央政府运转的赤字占GDP的百分比（PPP），以及国有企业的经济规模占GDP的百分比（PPP）］来自世界银行（WDI's CE-ROM，各个版本）、国际货币基金组织的年度总结《国际金融统计》（International Financial Statistics）（各期）以及《经济学人智库》。根据美元的变化出现的币值波动和股市收盘的资料来自《经济学人智库》，贸易协定成员的资料来自美国中情局的《世界各国概况》。二氧化碳排放量指标来自世界银行的《世界发展指数》。

国家安全与防御政策

我们的控制核武器结果、单方面武力的使用、国防开支（占GDP的百分比），以及加入/保持/退出国际联盟和安全机制的资料来自美国中情局的《世界各国概况》。兵役制度的相关资料来自国际战略研究所的《军事力量对比》（The Military Balance）（各期）。人为引起的灾难（饥荒、难民潮、屠杀等）的资料来自联合国的《全球人道主义紧急状况》（Global Humanitarian Emergencies，New York：UN/ECOSOC，1997）。我们根据少数风险计划［由特德·格尔（Ted Gurr）开发］——监测所有拥有50万人口以上的国家政治上活跃的社会群体的地位与冲突——来评估“麻烦地点”的种族间流血事件是增加还是减少。

对自由流动的思考进行编码

对思维规程的分析采用了两个已经证明效果良好的方法，以对思维方式的性质进行量化，如果认知过程的说明是正确的，预测者就能够区分出好坏。这种方法对如下方面进行评估：（a）评估区分——对于一个特定的可能未来的断言，人们提出支持或反对这种断言时，思考的数量、方向和平衡；（b）概念整合——对可能未来的似然性估计中，会遇到各种矛盾，人们自觉地努力消除该矛盾的程度。

为评估区分所进行的思考编码是测量在一个主流方向上意识流动的程度。编码者计算这些判断——赞同、中立或反对——的理由，据此预测者推断他们认为最有可能变成现实的可能未来。互相编码一致的范围从0.74至0.86。然后我们为每一个受访者建立了一个比率，在这个比率中分子是反对或赞同思考的数量（取数量更大的一方），分母是思考的总数。1.0的比率平衡指标意味着思考只在一个评估方向上流动。接近或低于0.5的比率平衡指标意味着思考是极度矛盾的。在0.5上，每个思考都支持这种观点：x的发生可能会匹配的一种思考是，或者向相反的方向移动，或者向无法辨别的方向移动。这些比率值的范围从0.39至1.0，平均数为0.74，标准差为0.10。这意味着专家们产生的思考和他/她的最有可能的情景间的比率平均数大约为3∶1。

评估概念整合的程序采用了广泛使用的整合复杂性编码系统。[1]根据专家们思考处理矛盾观点间的紧张的问题，我们挑选了3个程度指标：

1.预测者是考虑每一个细微的因果联系（低度整合），还是“系统地”考虑原因之间的联系（高度整合）？系统性思维承认连锁反应的可能性，该连锁反应缓慢运转，通过调节联结网络，形成正向或反向的反馈环，该环允许A引起B，B反过来引起A，互为因果。预测者试图抓住政治博弈中的主要参与者间的战略相互依赖的逻辑吗？例如，预测者可以分析，假定他人在做某事时，每个参与者追求具体策略的动机，在此过程中预测者就可以得出结论：参与者们是以单平衡还是以多重平衡的“解决”对博弈进行观察，以及这种平衡是单一策略类型还是复合策略类型。预测者也可以通过另一种方式做到，即考虑参与者被双层博弈的逻辑限制的可能性，双层博弈指参与者在一个博弈中（比如说，在国际谈判中）做决定时，必须把另一个有不同竞争者的完全不同的博弈（比如说，为了选举利益的国内斗争）考虑在内。

2.预测者承认决策者在权衡相互冲突的核心价值时，必须对它们极力协调吗（高度整合）？预测者是否认识到这种看起来可接受的权衡的观点也可能演化？如果是，他们能辨别出有可能影响演化路线的因素吗？

3.预测者是否承认只要不是傻瓜或无赖，明智的人就可以用相反的方式考虑同样的问题（高度整合）？他们是否通过一种合理且不含判断的方式，探究了冲突集团间的有分歧看法的文化根源或意识形态根源？

与比率平衡指标一样，我们计算了将产生的思考的总数考虑在内的指数（这样对文章的冗长有所控制）。该程序计算了书中的整合性认知，这些认知数除以思考的总数。互相编码一致的范围是从0.72至0.89。整合性认知非常少，整合性认知比率的范围是从0.0至0.21，平均数为0.11，标准差为0.05。根据我们的计分规则，只有16%的专家符合“整合”的资格。

对于整合来说，评估区分是必要条件但不是充分条件，因此整合与评估区分相关毫不奇怪（r=0.62）。考虑到这个相关性，知道整合与比率平衡指标（RBI）有同样的相关性量变曲线也就不那么让人惊讶了。为了简化后面的中介分析，我们做了如下处理：（a）颠倒比率平衡的得分，所以分数越高，预测者观点［这个仅仅包含计算每一个应答者的（1-RBI）这一数值］的评估区分越大（和更少倾向于支持一个立场）；（b）将改进后的比率平衡指标（1-RBI）与整合认知指标标准化，然后把它们加到一起产生一个以“整合复杂性”命名的综合指标。

Ⅱ.贝叶斯信念更新练习（第4章）

在这里我们的目的从评估“谁预测的什么是对的”转向了评估专家对他们预测的被明显地证实或证伪是如何反应的。

受访者

所有信念更新练习（n=154）的参与者来自下列子群体：（a）上述地区性预测练习中参与了预测练习的人；（b）在10个论题中的一个所得到的信念更新测量符合“专家”资格的人。这些论题包括苏联（1988年）、南非（1988年）、1991年的海湾战争、加拿大（1992年）、哈萨克斯坦（1992年），美国总统选举（1992年）和欧洲货币联盟（1992年），以及呈现出不同形式的其他三个领域，包括欧洲货币联盟（1998年）、日本和印度。

研究程序与材料

事前评估

受访者被告知：“有可能影响未来事件（x）的根本力量是什么，是政治的、经济的、文化的？我们想深入了解专家们在该方面的主要看法。”然后我们陈述了下列不同形式的问题：

a.“在你评估影响事件（x）的根本力量正确的情况下，你有多少信心？”［回答落在0到1.0的似然性标度里，锚定在1.0点上（对这个观点是正确的有十足的信心）、0.5点上（有一半的可能性），以及0点上（对这个观点是错误的有十足的信心）］。

b.“在我们研究的许多领域，专家经常认为其他学派的观点也需要被考虑进去。想想最有影响力的另一种观点，然后与你现在持有的观点进行比较。你觉得另一种观点正确的可能性有多大？”专家被告知要确保赋予问题a和b的似然性的加和值为1.0。如果专家感觉有影响力的其他观点有一个以上，那么他们被要求就正确性赋予这些观点以似然值，然后也对这些观点作出有条件的概率判断（以后详述）。

c.“假定你对影响事件（x）的根本力量的评估是正确的，而且将会继续正确下去，请试着将以下的情景按发生的可能性排序（从最有可能到最没有可能）。如果你认为你不能区分两个或以上情景的可能性，并列也可以。”在最初的排序之后，受访者对每个情景赋予一个主观概率值。这些情景被设计为穷尽且互相排斥的，因此专家被要求确保他们赋予每个情景的主观概率值的加和为1.0。受访者被告知如果他们认为一个重要的“可能未来”遗漏了，没有出现在所列情景中，他们就可以随时插入进去（几乎没人这么做，要求主观概率的加和一致仍然延续）。受访者被提醒，赋予最有可能的选择时的主观概率值，应该总是等于或大于似然性标度表中被归为“最大不确定性”（在两情景案例中，0.5；在三情景案例中，0.33；等等）的点。说明也强调：“如果你感觉完全没有根据来推断一个结果比另一个结果更有可能，那么对每一个情景赋予一个猜测的置信度是完全能够接受的。”

d.“为了论证的目的，假定现在你对影响事件的根本力量的理解是错误的，另一种最有影响的观点是正确的。”随后专家重复c情况下的任务。

e.“假定你刚刚把所有的判断都考虑在内，那么对每一个可能未来来说你最好的最低限度概率估计是多少？”

在苏联的案例中，可能的未来包括政党对社会控制的增强、减弱或不变；对于南非，白人的更残酷统治的倾向、现状的持续，以及多数黑人统治的主要倾向；对于哈萨克斯坦，种族间暴力的减少、不变或增加；对于加拿大，魁北克的正式脱离、宪政现状的维持或一次新的成功尝试（获得所有的十个省和联邦政府的同意）提出一种折中的“特殊地位”解决方法，即联邦内的自治；对于欧洲货币联盟，共同货币目标的放弃、极大地推迟（在大约几年的时间里，几个主要的国家有不同程度的“拖后腿”）或如期，或接近预期地成功地向目标前进；对于海湾危机，战争（短暂的或漫长的）或者没有战争（以协商妥协或者持续对抗的形式）；对于1992年的美国总统选举，小布什、克林顿与罗斯·佩罗（Ross Perot），2000年的美国总统选举，小布什还是戈尔。

一个诱发信誉投注的可替代的程序使该过程去个性化，这样专家们不再与他们的对手竞争。例如，在1998年，除了询问西欧问题的专家判断各国在接下来的3到5年内接受欧元的可能性之外，我们还要求他们判断“时下所做的欧洲的经济和政治一体化是一个长期的过程”这一假设的真伪，然后做出两组条件性的似然判断：（a）假定以上假设确实是真的，然后判断各国在接下来的3到5年内接受欧元的似然性；（b）假定相反的假设是真的，然后作同样的判断。

事后评估

在规定的预测时间间隔之后，我们再联系最初的预测者（依据练习的不同，回访比率在61%和90%之间——平均为71%）。在6个地区性预测练习里，我们首先评估了专家们回忆他们最初答案的能力，调出专家最初的答案（所用的资料在第4章描述的6个事后之明的研究里），然后婉转地提醒他们最初的预测，接着给他们发放一个“回顾调查表”，提出9个问题，专家们在9分值中做出反应。锚定1是“极不同意”，锚定9是“非常同意”，锚定5是“完全不确定”。在其他的5个练习里，我们仅仅提醒专家们他们的预测（“我们的记录显示……”），随后直接跳到“回顾调查表”，请专家回想起他们最初的预测和之后发生了什么，而且对下述的命题表示同意或不同意：

a.我的最初预测的关键前提——在5年前就起作用的同一根本力量将会继续有影响的假设——没有被满足。

b.我的最初预测的另一个前提——所有其他情况保持不变，并且没有来自本系统以外的重大冲击——没有被满足。

c.你对于实际发生的事观察越仔细，越支持如下的看法：我们几乎成功地得到了不同的结果（只是因为一些次要的历史偶然，导致事件采取了不同的历史进程）。

d.你对目前的形势观察得越仔细，越支持如下的看法：另外的结果仍有可能（说哪一个预测将会最终被证明是正确的仍为时尚早）。

e.预测练习对相互竞争的观点的效力能够产生有价值的观察。

f.政治本身就是不可预测的。

g.预测练习完全是一种误导（他们过分地赞扬幸运的获胜者，过分地谴责倒霉的失败者）。

h.现在回过头来看，我会说，在最初预测时，我对影响事件的根本力量的评估是正确的。

i.现在回过头来看，我会说，在最初预测时，所运用的概念或理论原理是正确的。

j.现在回过头来看，我会说，高估一些概率同时低估其他的概率是个好主意。

最后，专家被问到“事后概率问题”，以下列的说明作为序言：“有时争论已经发生的必然发生是吸引人的，如果我们更明智一点，我们会判断哪些发生的是不可避免的。而且对于一些事件来说这可能确实是真的。但是并不适用于所有的事件：不可能的事件有时也会发生。例如，在轮盘转动之前，任何数字的出现都是一个极度不可能的结果。我们感兴趣的是，得益于事后之明，你是怎么对你曾经预测的事件归类的？你认为你最初赋予可能未来（你对当时起作用的根本力量理解的条件下）的‘主观概率值’基本上是正确的吗？如果是，正好将你以前所赋予的同样的估计值放到‘你的当前观点’盒子里。如果不是，根据干预事件的结果，可以以你认为合适的任何方式任意改变数字（以这些数字的总和必须还是1.0作为唯一的限制条件）。”

情景一□

情景二□

情景三□

其他情景（如果可能）□

信心总和必须为1.0

你的先前评估

情景一□

情景二□

情景三□

其他情景（如果可能）□

信心总和必须为1.0

你的当前观点

（左列的数字已经填写，除了事后之明研究。）

专家们也被问道：“如果这些政治结果确实发生了，那么现在你对以下方面的信心有多大：（a）对影响事件的根本力量理解（在最初预测的时候你所持有的）的正确性；（b）在最初预测时你所知觉到的主要竞争性观点的正确性。记得取值为1.0表明对一个观点有十足的信心，50/50（0.5）表明你对结果没有多少信心，就像投掷硬币一样，0表明对于一个观点是错误的有十足的信心。”

对于你先前的观点□

或理论的信心

主要的可替代的立场□

其他的可替代的立场□

（如果可能）

信心总和必须为1.0

你在最初预测

时的评估

对于你先前的观点□

或理论的信心

主要的可替代的立场□

其他的可替代的立场□

（如果可能）

信心总和必须为1.0

你对观点的当前的评估

（左列的数字已经填写，除了事后之明研究。）

Ⅲ.探求双重标准的转变测试（第5章）

测试的目标是评估“认识上的虚伪”的重要性与普遍性，它体现在评估出现的证据时总结出来的所谓“历史教训”上，这种“历史教训”被自由派或保守派认为政治上正确或不正确。

参与者

部分专家来自从第Ⅰ节和第Ⅱ节的预测者和信念更新者，部分专家来自第Ⅳ节的对几乎成功的反事实所做出的回顾性判断者。第5章叙述的转变测试练习以苏联为中心，数据收集被“添加”到预测和几乎成功的反事实练习提出的问题中，因此，数据收集最初发生在1992年，但是受访者的数量逐渐增长直到2001年（现在测得的特定数达到89，大约一半是俄罗斯历史的专家或苏联专家，另一半是国家安全政策专家，或是对于苏联非常熟悉但是没有深入的地区性知识和相关语言技巧的国际关系专家）。

研究程序与材料

受访者收到如下说明：“自苏联解体后，学者们更多地接触到了一度被严格保密的苏联材料。我们探讨您对一些假定情景的反应，它是在克里姆林宫档案馆工作的研究团队发现的，它能使一些旧有的争议得到新的阐释。”

此时，参与者被随机地分配到2（证据倾向）×2（方法论上的预防）被试间因素设计的各条件中，该实验做于1992—1993年。在自由主义倾向的条件组中，参与者被要求“想象一下，一个研究团队在克里姆林宫档案里发现的证据显示在三个节点上历史很容易走向非常不同的路径：有证据表明在20世纪20年代末斯大林主义有可能避免，在斯大林去世后的20世纪50年代中期美国错过了结束冷战的重大机遇，以及在20世纪80年代初里根置世界于危险之地，美苏间的敌意已近乎严重的升级”。在保守主义倾向的条件组中，参与者被要求想象发现了同类证据，但是这些证据显示“在苏联历史上充满争议的三个节点上历史不可能走向非常不同的路径：有证据表明即使在20世纪20年代末苏联没有出现斯大林，苏联还是会发展到‘斯大林式的’方向上，在20世纪50年代中期美国没有错过任何结束冷战的机会，在20世纪80年代初严重升级的美—苏敌意实际上没有风险”。在每个案例里，“证据以笔记、信函以及中央高级委员会或政治局官方会议记录的形式呈现出追求不同方针政策的强烈倾向（或无倾向）：20世纪20年代末对私营企业和持不同政见者比较宽容，20世纪50年代中期苏联戏剧性地与德国妥协却又陈兵东欧，以及20世纪80年代初苏联以对抗回应美国的防御体系”。在高研究质量的条件组中，参与者被告知对克里姆林宫研究的团队敏感于他们的发现所带来的可能的政治后果，因此采取特别的预防措施检查文件的真实性，考虑了其他可替代的解释，以及确保对文本的解释是小心地基于历史环境的考察。团队的人员构成也确保了对苏联观点的广泛代表性。在未加说明研究质量的条件组中，参与者没有得到上述保证，有的只是团队的目的、工作和发现的概述。

对每个发现都读完之后，参与者在9分值的量表里（5分是中间分，表示“不确定”）对下述的断言表示同意或不同意：

1.调查者要让人接受从证据中得到的结论需要有令人信服的理由。

2.有坚实的证据怀疑整个研究团队的目的是政治的而不是学术的（证据恐怕是伪造的和精心设计的）。

3.有坚实的证据怀疑有关此项论题中“发现”的文献的真实性。

4.有坚实的证据怀疑，若文献和相关的文本置于整个历史背景下考察，他们就不会得出所声明的观点。

参与者也被鼓励在反事实和证据这两方面评论时自由回答。(https://www.daowen.com)

Ⅳ.几乎成功的反事实练习（第5章）

本节的目的是检验两个主要的假设。专家对历史的反事实持开放性态度被期望有如下作用：（a）强化或弱化喜欢的意识形态或理论概括的程度；（b）专家评估解释性闭合的程度（“狐狸”对“刺猬”）。研究1和研究2聚焦于第一个假设；研究3至研究5对两个假设同时进行检验（还有理论信念与认知方式的交互作用假设）。

研究1：对几乎成功的苏联历史的知觉

参与者

这项研究始于1992年，邀请了47位苏联问题专家（样本中既有硕士也有博士学位获得者，都有在政府和学术机构工作的经历）判断在苏联历史上7个反事实的合理性，以此对相互竞争的观点进行探讨。

研究程序

我们向受访者提供如下说明：“感知过去常常需要作出‘反事实’假定，即关于如果历史向一个不同的方向转动，那么将会发生什么。但是这些反事实的断言——‘如果结果x有异，那么y将会发生’——常常引起学术界乃至更广泛的政治领域的激烈争论。我们想考察您对一些争议性的反事实断言的反应。例如，如果第二次世界大战没有发生或者没有采取它已有的形式来发生，布尔什维克革命永远不会成功。”

“就下面加黑部分的前提条件，您来评估变成现实的可能性有多大。假定已经变成现实，我们是必须重写大量的历史，还是仅仅需要改变一个或两个小细节或偶然事件？

1　　　2　　　3　　　4　　　5　　　6　　　7　　　8　　　9

仅稍许改变　　　完全不确定　　历史需要重大改变

为了论证的需要，假定先行条件是真实的，您认为假设的后果发生的可能性有多大？

1　　　2　　　3　　　4　　　5　　　6　　　7　　　8　　　9

几乎不可能　　　一半对一半　　　　　　很肯定

为了论证的需要，假定设想的后果发生了，对过去历史的长期影响有多大？［9分值量表从1（非常不重要）到5（一般重要）到9（极度重要）］”

然后研究1中的受访者对剩余的六种苏联的反事实做同样的三类判断：

如果列宁多活十年，相比于实际，苏联将会向一个有着更少残暴的方向演变。

如果在20世纪20年代末斯大林被罢免了共产党领导职务，相比于实际，50年前的苏联将会向一个更宽容、更温和的社产主义形式演变。

如果马林科夫（Malenkov）在后斯大林的继承权斗争中获胜，冷战在20世纪50年代将会解冻。

如果戈尔巴乔夫与契尔年科（Chernenko）在同一时间突然去世，相比于实际，苏联共产党将会向一个更加保守的方向演变。

如果在20世纪80年代早期里根没有对苏联采取如此强硬的姿态，苏联人将不会在20世纪80年代末变得友好。

如果戈尔巴乔夫有时间同时更精明地设计他的改革，他可能主政一个改革后的、民主的“苏联共和国联邦”。

研究2：对南非历史偶然性的知觉

参与者

该研究始于1995年，邀请了24位通晓南非政治的专家。就像在苏联案例中一样，这些受访者就每个反事实判断其前提条件、因果联系以及假定长时间影响的合理性。

研究程序与材料

反事实包括下列各项：

1.如果领导者不是F.W.德克勒克，南非政府将还会坚持少数白人统治。

2.如果领导者不是纳尔逊·曼德拉，少数白人政府和非国大的谈判将永远不会成功。

3.如果美国没有实施经济制裁，南非政府将还会坚持少数白人统治。

4.如果没有达成和解的巨大压力——黑人人口的快速增长和对劳动力市场的需求，南非政府将还会坚持少数白人统治。

5.如果苏联没有解体，（南非）国民党不会愿意放弃少数白人统治。

意识形态量表　9分值，锚定在1是非常同意，在9是非常不同意，在5是不确定：

不受约束的资本主义导致了巨大的不平等，让人无法接受。

在资本主义和社会主义之间有可行的第三条道路。

经验告诉我们：政府对经济干涉越多，民众将会越穷。

维护和平的最有效的方法就是对可能的侵略者保持强烈防御的姿态。

在当代政治中，相比于保守主义，我更认同自由主义的原则。

研究3、研究4和研究5：重写20世纪的历史

参与者

参与者从通晓外交史和军事史、安全研究和国际关系的学者中抽取，这些领域有明显不同，但互有交叉。从美国政治学学会（APSA）的第18分会（国际冲突）、19分会（国际安全与军备控制）以及外交和军事历史学会中随机地抽取87位参与者，聚焦于一战的起源、一战和二战的结果以及冷战时各种冲突的解决，除了完成如下的测量，受访者还填写一个9条目的闭合需求量表（见第Ⅰ节）。

研究程序和材料

概括法则信念　研究3关于因果性力量的信念最相关的陈述是，常常假定一般战争，以及特殊的战争（如一战）增加的可能性。

a.相比于只有两个超级大国的国际体系，有几个超级大国的国际体系更不可能爆发战争（反向测量）。

b.多民族的帝国天生就是不稳定的，危及世界和平，这是一个谜（反向测量）。

c.国际均势的改变——多由人口和经济势力增长的差异所致——在历史上是对世界和平最大的威胁。

d.当一国的军事技术让决策者相信先发制人的一方将拥有决定性的优势时，战争最有可能发生。

新现实主义平衡条目——特别是在研究4中与反事实的评估相关——如下：

a.就所有的有关一个世界新秩序的讨论而言，世界政治在本质上还是无政府状态——强国做其想做的，弱国必须接受。

b.每当一个国家开始变得非常强大时，其他国家就会寻求联合之道，以防受制于它。

c.国家的安全政策常常靠道德驱使，而不仅仅是理性计算这些政策对均势的影响。

d.对于原想成为欧洲征服者的菲利普二世、拿破仑和希特勒等，无法实现对欧洲的长久统治是由均势所预先决定的，上述想法是非常幼稚的，因为这种失败可能仅仅是一种意外。

核威慑强度的条目——尤其与研究5相关——如下：

a.就有关核事故的危险的讨论而言，美国和苏联从来没有真正可能接近核战争。

b.冷战期间，核武器在节制美国和苏联政府的行为上起了关键作用。

c.以下的假定是不现实的：在巨大压力下工作的领导人，在危机时刻行动总会受到极大限制，从而增加了使用核武器的危险。

关于几乎成功的反事实的信念　这些测量评估对概括法则的支持，共9分值，表达同意与不同意。研究3中几乎成功的反事实对一战的必然性提出了怀疑：

a.如果斐迪南大公的司机没有致命性地拐错弯，由此给了塞尔维亚暗杀者不寻常的二次机会去执行他们先前拙劣的暗杀阴谋，战争也不会爆发于1914年8月。

b.如果贝特曼-霍尔维格（Bethmann-Hollweg）[2]向奥匈帝国施加的压力再强些，使其不向塞尔维亚宣战，战争将可能避免。

c.如果英国向德国明确地表达如果发生战争，它将支持法国，德国将会对奥匈帝国加以更多约束，这样危机就可以化解。

d.如果德国接受了英国的建议，即在7月晚些时候召开一次大国间的会议来处理危机，并且向奥匈帝国施压也接受此建议，战争将可能避免。

研究4几乎成功的情景揭示了一战和二战所有可能的结果：

a.如果德国在1914年8月2日继续向法国入侵，同时尊重比利时的中立，英国将不会参战，法国将会很快陷落。

b.如果德国统帅部在1914年8月更加积极地推行施里芬计划，马恩河奇迹将不会再现，而且巴黎将会沦陷。

c.如果德国避免对墨西哥的干涉和发动无限制的潜艇战而与美国为敌，美国将不会参加一战，德国会在1918年的春季攻势中战胜法国人和英国人。

d.如果希特勒没有入侵苏联，而是集中德国的资源击败英国，德国会战胜英国。

e.如果希特勒在1941年夏天更坚决地集中兵力攻击莫斯科，他将把苏联踢出战争。

f.如果希特勒在1941年12月11日没有向美国宣战，英国和苏联永远不会战胜纳粹德国。

研究5中的几乎成功的反事实探讨了冷战转变为热核战争的可行性：

a.如果斯大林多活几年（从中风中活过来，但心理处于非理性的状态，鼓动高风险的冒险），在20世纪50年代中期很容易爆发第三次世界大战。

b.如果坏天气使U-2侦察机直到导弹可以发射时才发现苏联在古巴的导弹计划，苏联会拒绝美国的拆除和撤回武器的要求。

c.如果苏联拒绝撤回他们的导弹，美国会对苏联的基地实行空中打击。

d.如果美国发动了这样的空中打击，在古巴的苏联指挥官会对美国的东海岸至少发射若干导弹。

e.如果苏联人向美国城市发射了古巴基地的核导弹，美国会对苏联城市实施报复性的核打击。

f.如果在20世纪80年代中期，苏联的强硬派掌控了共产党，冷战会加剧。

研究6：西方兴起

参与者

63位参与者，部分从美国世界史协会会员名录中随机地抽取，部分从俄亥俄州立大学的默什恩中心关于西方兴起的两次会议中召集。受访者通过普通邮件或电子邮件的方式联系，而且被保证匿名和详尽地反馈了研究的目的。回收率为31%。除了接下来将要描述的方法，参与者填写了9条目简本的闭合量表（第Ⅰ节）。

研究程序和材料

概括法则信念　最相关的信念以适者生存文化为主旨：

a.从长远来看，历史的有效进程是剔出社会组织中不适应的形式。

b.西方的社会和制度，随着它们日益强调法治、产权、自由市场和科学的实证，会更好地适应社会，并在与其他文明的长期竞争中获胜。

关于几乎成功的反事实的信念　几乎发生的反事实探求西方兴起的可行性，通过假想的干预那些使西方文明削弱或者竞争的文明变强大的因素来实现的：

a.如果在关键的节点上，中国皇帝对经济和技术的发展有更多的支持，中国将会成为世界上第一个超级大国。

b.如果蒙古人继续进军到中欧和西欧，同时不因成吉思汗的死亡而分心，后来欧洲的发展是不可能的。

c.如果在8世纪，伊斯兰军队努力尝试征服法国和意大利，后来欧洲的发展可能从根本上会改变轨迹。

d.如果黑死病更具有致命性，比如说，杀死70%的人口，在后500年中，欧洲不可能作为占支配地位的地区而兴起。

对每个反事实，专家们在9分值上对下列表述做出判断：

a.观点的前提条件有多可信？（我们必须“重写”历史的一小部分还是大部分？）

b.设想前提条件是可信的，假定的后果发生的可能性有多大？

c.设想假设的后果是可信的，长期来看又会派生出哪些结果？

Ⅴ.可能未来的分拆实验（第7章）

本节的目的是探讨鼓励多种情景思考可能未来对好判断（譬如，预测的准确性）的一致性指标和一贯性指标（例如，容易受次可加效应的影响）的影响。

参与者与背景

获得了对加拿大和日本的地区性预测练习（第Ⅰ节）的初期（基准线）主观概率值后（时间足够长以至于淡忘了他们最初的答复），我们用大约5周进行这些实验。加拿大实验的参与者包括加拿大政治领域的28位专家和33位业余爱好者。日本实验的参与者包括16位专家和19位业余爱好者。

作为与他们再次联系的一个原因，我们告诉参与者随着运用“为可能未来准备的情景方法”的兴趣不断增加，我们需要知道专家们对加拿大或日本的一系列“可能未来的情景”的反应。

研究程序与材料

对加拿大可能未来的分拆

加拿大实验采取的是2（专家或业余爱好者）×4（按时间划分的4个组测量）因素设计，要求参与者做出四组判断：对情景练习前的主观概率评估、在现状情景练习后的第二波评估、在加拿大分裂情景练习后的第三波评估，以及第四波的反思性平衡评估，在最后评估里专家们调整他们在以前练习里赋予的概率值间可能的冲突，并确保这些概率值加和为1.0。

这些情景被分成两大类：（a）可能的未来中，以现状的延续（联邦政府和省级政府同意搁置对宪法特权的争议）或增进加拿大的统一（其中一些协议已达成）为主要特征；（b）可能的未来中，加拿大分裂，分离主义者的分裂投票在魁北克获得成功，并围绕分裂展开争论。

加拿大联邦延续情景引出了四种可能未来的可能性判断。在第一个情景中，经济的衰退和总理灵活地处理联邦与省的关系的结合导致（风险规避）魁北克的选民在下次投票中将魁北克人党选下去。在第二个情景中，相同的前提条件在起作用，但魁北克人党赢得了下次选举，不过在分裂投票中败北，因为选民不愿意在困难时期冒大的风险。在第三个情景中，经济的好转和总理灵活地处理联邦与省的关系的结合导致了在下次选举中魁北克人党的失败。在第四个情景中，相同的前提条件在起作用而魁北克人党赢得了下次选举，但是在分裂投票中败北，因为选民不愿意拿他们的大好前景去赌博。专家也被邀请考虑符合延续或增强加拿大统一的所有其他的可能未来（作为第五类型）。然后专家们就四种可能未来的主观似然性分别赋值，以及对余下的第五类型赋值；同时对每个可能未来的“想象”的难易进行评估。

分裂情景呈现的是关于魁北克脱离加拿大的未来情景。这些情景也分成四个版本。在第一个情景中，经济的衰退加上激起分裂主义者情绪（评论说法语的人是“语言法西斯主义”）的挑衅性的总理导致魁北克人党在下次选举和分裂投票（经济不景气增加了选民冒险的意愿）中都取得了胜利，而且分离结果令人出奇的顺利。在第二个情景里，具有相同的前提条件，而且结果也一样（魁北克人党在下次选举和分裂投票中获胜），但是分离是不顺利的。在第三和第四个情景中，除了经济好转，其他前提条件都一样，魁北克仍旧脱离了（经济的景气使选民们有了“单干”的信心），这种分裂是容易的或困难的。同样，专家判断四组可能未来的主观似然性，除此之外，对余下的第五类型赋值；同时对每个情景的想象的难易进行评估。

对日本可能未来的分拆

日本实验采取的是2（专家或业余爱好者）×5（根据时间划分重复测量）的设计。其中，五水平因素包括三组可能未来（维持现状以及往更好或更坏的方向变化）的主观概率的基线评估、对三组的每组分拆后对同样可能未来的评估，以及最后的反思性平衡练习，在最后练习中参与者面对并试图解决的由分拆练习产生的逻辑矛盾。

在日本的情景研究中，一组的可能性是现状的持续存在，包括两个子集：（a）掌权的自民党在选举中继续赢得权力，抵制助推经济增长所需要的改革和重建，但为了防止经济严重的恶化和深层的、长期的衰退，该党向现实做出了足够妥协；（b）自民党出现分裂，暂时性地失去了权力，改革派联盟上台，开始实施一些政治上痛苦的经济改革，随后失去民心、倒台，自民党重新获得权力，政策返回了原点。第二组是现状改进，也包括两个子集：（a）自民党内的改革派阵营获得权力然后实施政治上痛苦的经济改革；在过渡时期政府变得不得人心，但是成功地打下了有益于未来增长的新的法律—金融基础；（b）自民党分裂成两派，党内的改革派联盟执政，实施的政策对于打下法律金融基础、支持未来更强劲的增长是必要的。第三组是现状恶化，也包括两个子集：（a）在自民党庇护网络下的特殊利益集团不仅成功地阻止了改革，而且阻挠了为适应金融现实所进行的必要的调整（例如，排除银行不良贷款），结果日本陷入了长期低迷；（b）自民党下台，但不牢固的联盟和继任的少数派政府缺少政治支持和经济智慧以实施必要的改革，结果日本进入长期萧条期。就像在加拿大研究中一样，我们为余值留出了空间，在这里参与者可以抛弃其他所有的可能性路径，具体指出结果的超常类型。

Ⅵ.历史反事实的分拆实验（第7章）

本节的目的是评估关于过去可能的多种情景基础上的思考对事后之明偏见（研究1和研究2），以及判断历史结果的变化有多快（必然性曲线）或判断替代性结果变得不可能（不可能性曲线）的影响（研究3和研究4）。

本组研究中的认知方式（刺猬—狐狸）的测量

受访者在9分值量表中表示同意或不同意，共9个条目：（a）“工作中清晰的规则和秩序对成功来说是必不可少的”；（b）“即使在某一件事上我下定了决心，我还是总想考虑不同的意见”；（c）“我不喜欢有多种答案的问题”；（d）“我通常在做重要决定时，能够很快做出，而且非常有信心”；（e）“当考虑大多数的冲突情况时，我通常考虑双方的正确的方面”；（f）“我更喜欢与不同观点的人互动”；（g）“当试着解决一个问题时，我常常考虑许多让我困惑的可能性选择”；（h）“相比于对这个世界的复杂性估计不足的学者，夸大这个世界的复杂性的学者通常要冒更大的风险”；（i）“以赛亚·伯林将知识分子分为刺猬和狐狸。刺猬知道一件大事，就试着把多样化的视角整合到以不变应万变的、狭隘的视角内，而狐狸知道许多小事并尝试着在一个个案例的基础上提高解释。按此测量，我把自己置于刺猬或狐狸一端”。

研究1和研究2中的参与者

参与者是从第7章中描述的对朝鲜的地区性预测练习中选取的。这项研究始于1997—1998年，是在为第Ⅱ节描述的信念更新练习而回访的背景下完成的。样本量为14。

研究程序

在第4章里我们记录了10个信念更新练习中的5个，我们要求参与者回忆他们以前的预测，此后，我们提醒参与者回忆他们以前实际的预测是什么，并要求他们回答“回顾调查表”（结果见第4章）。在这5个练习中的1个中，我们在参与者试着回忆起他们的预测之后，但在提醒他们真相之前，告知他们下述情况：“回顾过去5年间在朝鲜发生的事，我们将评估你们专家的观点，评估距离我们体验可替代性的结果有多近——与现有情况相比，这些可替代性结果在政治上和经济上不是显著改善就是显著恶化。你想到了什么样的具体情景？”考虑练习的时间和背景时，营造一个社会氛围是很重要的，在其中：（a）专家们对在表述他们的观点后不久就修正他们的回忆，并不感觉到丢脸；（b）专家们，不管怎样，对在一个方向上改变他们的回忆没有感到压力，这证实了反事实的情景练习有助于检测事后之明效应的实验假说。相应地，我们也提供下述的补充信息：“围绕着这类情景练习的有用性存在大量的争论。一些人说这样的练习在我们知道事情是怎样发生之前使我们更愿意了解世界是什么样的。另外一些人说这样的练习使我们更愿意了解为什么事情的结果如他们所说。还有一些人说这样的练习很难让人改变他或她的主意。我们做这项研究，部分原因是发现这些想法中的哪些是正确的。”

随后参与者用大约20分钟草拟对现实的反事实可替代性选择［我们可以对这些不同情景的数量、情景的效价（更好或更坏的世界）以及情景内和情景间的细节的数量进行的回答进行编码］。在这个练习后，我们接着问参与者：“根据你刚才所做的练习，你想改变你对5年前的预期所赋予的主观概率值吗？”

研究3和研究4中的参与者

受访者最初从两所中西部大学的全体教员里抽取（控制组），但是在古巴导弹危机的研究中，受访者随后从美国政治学学会中的第18分会（国际冲突）和19分会（国际安全与军备控制）以及外交和军事历史学会的成员名单中随机地抽取，在西方兴起的研究中，受访者从美国世界史协会会员名录中随机地抽取。

受访者在导弹危机研究中填写：（a）9条目版本的闭合需求量表（见第Ⅰ节）；（b）核威慑强度的信心测量（同样测量在第Ⅳ节的研究5使用过）。在西方兴起研究中的受访者完成了同样的9条目形式的闭合需求量表以及在第Ⅳ节的研究6中的最适者生存文明量表。

古巴导弹危机实验的研究程序（研究3）

64位被试者被随机地分配到：（a）不分拆的控制组（n=30），被试对“必然性知觉”（perceptions-of-inevitability）量表进行答复，以判断危机的实际和平结果；对“不可能性知觉”（perceptions-of-impossibility）量表进行答复，以判断其他更具暴力性的结果。（b）可替代性暴力结果的分拆组（n=34），本组里，在判断任何事情之前，参与者把可替代的集合分拆成局限于加勒比地区或传播到加勒比地区外的子集，然后把这些子集分拆成声称人员伤亡少于或多于100的子集，最后将这些人员伤亡为100或更多的子集分拆成只使用常规武器或有一两个超级大国使用核武器的子集。然后受访者判断6个情景子集的每个子集的“可想象程度”（9分值：容易—困难），产生关于和平的必然性曲线和关于战争的不可能性曲线。引出必然性判断和不可能性判断的顺序通常是相互平衡的。

背景信息

为了帮助参与者回忆，我们提供了一个关键事件的时间表，始于1962年10月16日上午8点45分邦迪（Bundy）告诉约翰·肯尼迪苏联开始在古巴部署地对地导弹，终于1962年10月29日史蒂文森（Stevenson）和麦克洛伊（McCloy）与库兹涅佐夫（Kuznetsov）在纽约会面并制定实施肯尼迪和赫鲁晓夫达成协议的详细计划。

必然性和不可能性的回顾性知觉

这些问题的实施的顺序通常是相互平衡的。必然性曲线练习的说明如下：“让我们把这场危机的结束时间定在1962年10月29日，这时肯尼迪与苏联领导层沟通同意赫鲁晓夫的10月28日无线电报的内容。此刻，我们可以说，除了执行协议时的一些无法预料的问题，某种和平的解决方式已经确定——1.0的主观概率值。按时间顺序倒推，从10月29日到10月16日，在这次危机的关键的14天中，在图表上追溯你对危机和平解决的可能性知觉的升高或降低。如果你认为美国和苏联在14天中从来没有近乎军事冲突，就在所有的日期里一致性地赋予和平解决以高概率来表明此观点（事实上，只要你愿意，高确定性可达1.0）。如果你认为两个超级大国在危机中非常近乎军事冲突，就在所有的日期里一致性地赋予和平解决以低概率值来表明此观点。最后，如果你认为在这次危机中和平解决的可能性随着情景变化忽高忽低，那么在危机的不同时间上，根据你对两国间近乎军事冲突的程度的直觉，赋予的概率升高或降低来表明此观点。在开始时，我们设定10月29日的和平的主观概率值为1.0（必然），表明这次危机的结束。”

填写不可能性曲线的说明如下：“让我们从一个不同的视角来考虑古巴导弹危机。不是聚焦于已经发生的结果（某种和平解决方式的争论），而是这次危机中所有的可能更加暴力结果的集合。因此，我们把这场危机结束时间定在10月29日，这时肯尼迪与苏联领导层沟通同意赫鲁晓夫在10月28日无线电报的内容（提出撤回导弹，作为交换公开承诺不入侵古巴，和秘密承诺撤回美国在土耳其的导弹）。在那个时刻，我们可以说，除了执行协议时的一些无法预料的问题，这次危机的可替代性的更加暴力结果的可能性已将降至0。实际上，已经变得不可能了。现在，按时间顺序倒推，从10月29日到10月16日，在这次危机的关键的14天中，在图表上追溯你对危机的所有可替代性的更加暴力的结果的可能性知觉的升高或降低。如果你相信美国和苏联在14天中任何时刻都从没有近乎军事冲突，那么可以在所有的日期里一致性地赋予暴力性的结果以低概率值自由地来表明此观点（事实上，只要你愿意，不可能性可以低至0）。如果你认为两个超级大国在这次危机中非常近乎军事冲突，那么可以在所有的日期里一致性地赋予暴力性的结果以高概率自由地来表明此观点。最后，如果你认为在这次危机中和平解决的可能性随着情景变化忽高忽低，那么根据你的直觉赋值升高或降低自由地来表明此观点。在开始时，我们设定10月29日战争的主观概率值为0.0（不可能），表明这次危机的结束。”

西方兴起实验的研究程序（研究4）

这项研究包含两个条件组：（a）一个不分拆控制条件组（n=30），在这里专家得出了有关西方地缘政治统治的某些形式的必然性曲线，以及所有可能的可替代选择集合的不可能性曲线（两种顺序相互平衡）；（b）一个强烈的分拆条件组（n=36），在这里专家首先被要求将西方地缘政治统治的所有可能的可替代性选择的子集逐步地分拆成更细微的子集。这以对可能世界的分类为开始，在这个分类中世界上没有一个地区取得全球霸权（或因为一个衰弱的欧洲或来自欧洲以外较顽强的抵抗，而转变到一个非西方文明取得全球霸权的可能世界的分类——也许是中国、奥斯曼帝国或者蒙古人或者一个我们不熟悉的可替代选择），随后对每个子集的情景的“可想象程度”进行评估，然后完成必然性曲线与不可能性曲线，这条曲线始于公元1000年，每50年增量一次直到1850年（在这里西方统治的主观概率值固定在1.0，而可替代选择的值为0.0）。同样，必然性和不可能性判断的顺序通常是相互平衡的。

[1]有关整合复杂性编码，参见P.Suedfeld，P.E.Tetlock，and S.Streufert，“Conceptual/Integrative Complexity，”in Motivation and Personality：Handbook of Thematic Content Analysis，ed.C.P.Smith（Cambridge：Cambridge University Press，1992）。

[2]贝特曼-霍尔维格，当时的德国首相。——译者注