潜龙在渊

2026年07月27日

版权

潜龙在渊

一件非常奇怪的事情是，我们中几乎所有的人都以为拥有了正确的测量方法。我们中的许多人认为我们如此幸运以至于我们有义务与人分享。但即使那些来自学术机构、政府和思想智库的专家，在参与本书中列举的研究时对此的界定也需要一番挣扎。当迫切需要一个准确的答案时，令人不安的数字就会出现，如同求助于波特·斯图尔特（Potter Stewart）给色情作品所作的解释：“眼见为实。”而且，那些斗胆超越透明的、反复出现的、好的数字的人，即使给出了解释，也会坠入深深的、不可调和的矛盾中。然而，在我们确立的观点范围里——自由者与保守者、现实主义者与理想主义者、锋芒者与悲观者——我们发现他们在谁拥有或者拥有什么观点时很少取得一致意见。

令人难以捉摸的是好的政治判断。一些评论家早已发出警告，我所选择的所有领域——如药学或金融学——本身就有无可争议的评价准确性的标准，但我在选择好的政治判断时对科学的判断提出了质疑。按照他们的观点，我几乎不能选择这样的项目：过于完全主观性，不适合科学的分析。将来的职业守门人应该做好阻止科学的闯入者诸如本人的工作，以免浪费大家的时间——如同中世纪的绘图者常常为了阻止探索者考察地球之外的事所贴的警示标语：潜龙在渊。

“相对主义者”的挑战击中了这项研究的概念的核心。因为，如果具有最强烈形式的挑战是正确的，那么接下来的一切都将归于无意义。强烈的相对主义者申明在自己对世界假定的框架中具有判定每种世界观的义务，但这项义务（理论家强调）把一个群体的合理性的标准强加到其他群体上是不合适的。[5]不管精确的推理如何，该教条全面禁止了提倡不同世界观要为共同的判断标准所做的努力。我们被禁止做即使是最明显的观察：禁止建议预测者运用经济模型比气象图表更好，禁止评论证据不足的希特勒的“雅利安人种优越理论”等。

如果对极端相对主义的反应是愤怒，那么这是可以理解的。实际上，早在两个半世纪以前，正是这种愤怒才使塞缪尔·约翰逊（Samuel Johnson）抛弃了贝克莱主教（Bishop Berkeley）的形而上学教条，并宣布：“我因此而反驳他。”依据此精神，我们可能胡思乱想，并追问：为什么政治判断如此特殊？为什么政治的观察者与精确和严密性的标准绝缘，而该标准却能够要求其他领域的专家？

但是如果我们排除了相对主义更加细微的形式，那么可能是错的。因为在关键的方面，政治判断（忽略细节）尤其成问题。问题的根源并不仅仅是观点差异，困难在于各个观点的倡导者在争论中互相牵制。当各个党派对自由贸易或武器控制或对外援助的意见不同时，这种不同更多取决于早期就已经确定的关于贸易赤字或导弹的计算或者可流动的资金的观点。这种争论也取决于很难反驳的反事实声明：如果采取不同的政策路线，将来会发生什么；也取决于无法反驳的道德声明：我们希望成为什么样的人。他们所运用的所有声明都用来强化他们的立场而无法证伪。我们不可能退回到完全的相对主义，而是必须认识到政治信念体系逐渐发展成自身永久的世界观存在着的以下持久的危险：为自利设定判断和得分的标准、储存自己喜欢的历史类比，以及在自己的万神殿里陈列英雄和无赖。

有关模糊的事情如何变化我们已经有了一个清晰的图像，我们遇到的这些困境，即使有思想的观察者，当他们试图［自修昔底德（Thucydides）以来］在关键的历史节点上评价领导的行为质量时也会遇到。如果他们坚持表示，错误的判断就是直接的“我因此反驳他”的练习，那么大型的案例研究文章强调——大量的方法——约翰逊式的一脚踢开是多么错误。[6]为了使对政治判断的控诉让人信服，案例研究的运用者需要展示的不仅仅是决策者对形势的错误估计，而且作为一种结果，与过去的可能性相比所呈现的是一种明显的次优选择。如果对当时提供的信息分析足够努力，那么他们可能可以避免这些错误。

这些分值承载的“反事实”和“决策过程”判断为主观性创造了机遇，以便更加深入到仔细考察过的案例的历史评估中。以下为四个例证，各个派别就它们的潜能互相攻击：

a.我们现在能够有多少信心——60年以后，而且所有的记录被公开之后——认为哈里·杜鲁门1945年8月命令在日本投下原子弹是正确的？这个问题，观察者至今仍然处于两个极端，部分因为他们的回答取决于猜测，如果日本的官员被邀请目睹一次原子弹爆炸，日本将多快投降，部分因为他们的回答取决于对美国人和日本人生命道德的权衡，以及我们是否认为核爆炸和辐射所导致的死亡要比其他方式所导致的死亡更糟糕，部分因为他们的回答取决于模糊的“过程”判断——如果杜鲁门再详加考虑他是否明智地推测到已经过了收益递减点，或者他的行为是不是一时冲动，或者是否应该听取更多的意见。[7]

b.我们现在能够有多少信心——40年以后——认为肯尼迪政府处理古巴导弹危机时运用的技巧是完美的？是否既显示了迫使苏联的导弹撤出的决心，又显示了阻止其升级为战争的信心，从而实现了两者完美的结合？我们的回答不仅取决于我们对冒险的宽容，而且取决于我们如下的直觉：肯尼迪是否在避免危机的急剧升级方面仅仅是运气（左翼的批评者认为他玩的边缘政策游戏是危险的），或者肯尼迪是否错失了消灭卡斯特罗政权、动摇苏联政府的机会（右翼的批评者认为他放弃的多于应得的）。[8]

c.我们现在能够有多少信心——20年以后——认为里根的崇拜者的预测是正确的，“星球大战”的启动是天才的一击，官僚间竞争的结束动摇了苏联，最终加速了冷战的结束，或者里根的批评者认为他们的预测是正确的，星球大战的启动是一个步入老年的男人愚蠢的异想天开，该想法耗费了数十亿美元，导致冷战的急剧升级？我们的回答取决于无法回避的推测性判断：没有里根，历史将如何展开，历史条件如何重建？[9]

d我们能够有多少信心——2004年春——认为布什政府是否短视：面对2001年夏基地组织发出的威胁，没有听取秘密备忘录大胆宣布的“本·拉登攻击美国的计划”，或者完全如同美国广播公司（ABC）的“20/20”电视栏目那样的事后之明意在让总统下台？难道我们忘记了警告是多么模糊，反对FBI与CIA相互合作的抗议声是多么强烈，或者民主、共和两党在攻击发生之后都多么震惊？[10]

那么我们将何去何从？如果说达到众所认同的点异乎寻常的困难，那么相对主义就是正确的：政治判断很难做到无争议。许多案例研究经历了几十年，所获得的经验教训的争议直到现在仍然余音未绝：一观察者认为头脑简单，另一个尊奉为原则；一个称之为群体思维，另一个则称之为成功的聚会。

但我们不应该被相对主义的批评吓倒。就此“放弃”才是严重的错误，要接近好的判断只有从第一人称代词的视角入手，根据我们的直觉判断什么是好的判断，这些直觉从产生疑问开始直到结束怎样才能更好地累积起来。(https://www.daowen.com)

这本书的预测基于如下的假定，即使我们不能抓住好判断所有反事实和道德微妙的方面，也能够提出如下原则：政治观察者根据实证的准确性和逻辑的严密性等独立的标准，对持有的观点进行说明。不管他们忠于的是什么，好的判断应该经过两类测试：

1.实证主义的一致性测试（correspondence tests）。他们个人的信念如何更好地在可以公开观察到的世界中有所反映？

2.逻辑的一贯性和过程测试（coherence and process tests）。他们的信念内在一致吗？他们会根据证据更新他们的信念吗？

用直白的话说，好的判断应该是“预测正确”和“思维正确”。[11]

这本书的预测也基于这样的假定：为了完成这项雄心勃勃的事业，我们的眼光不能狭隘。我们的对策在于多方法三角互证（multimethod triangulation）——该方法通过利用社会科学工具箱所有的方法互相补足以确定微妙的结构。我们对拥有独到观点的信心随着多方面收集的证据质量的提高而有所提升，而且，就目前我们提出的许多相互依赖的观点而言，我们对整个观点建构的信心与收集来的证据间相互强有力的联结密切相关。[12]

研究者精通某种工具胜过其他工具是非常自然的。作为心理学研究者，我相对的优势并不在案例研究，因为它需要预先假定深入了解了在具体的时间和地点出现的主要行为体所面临的挑战。[13]我的优势在于我所运用的独特的技术是心理学集体智慧的结晶，并以此应对挑战性的题目：该技术经过一个世纪的经验的磨炼，能够把人类判断中模糊的思考转变为可以验证的假定。本书每一章所运用的概念均来自实验心理学，结合了评估好判断的抽象目标与操作性的内容，这样我们可以超越名人轶事去测量：观察者预测的准确性、预测结果出现或没有出现时推论的准确性、评估证据的公正性、对发生什么或可能发生答复的一致性。[14]

我们的目标是发现我们能够把相对主义的“怀疑的托马斯”（doubting Thomases）[15]推及多远，通过询问大量的专家关于大量的案例大量的问题，并把没有偏好的测量规则运用到这些答复中。我们知道无法回避充斥在这些案例中有关解释的争执。但是通过多数原则以消除预测具体案例时产生错误的特殊原则，以揭示好判断中不变的特质。[16]总体的奇迹允许我们忽略痛苦的失败者的抱怨，如我们期望的，他们试图以如下方式为他们的答案作论证：抱怨我们标准的问题无法把握住特殊条件下细微的方面，或者抱怨我们标准的测量规则无法对预测——在毫无经验者看来是错的，但更深层的意义上是正确的——进行正确的评价。这种结果一定是自说自话，但我们将继续沿着笔直和狭窄的实证主义小路往前走。在第3、4、5章我们将对好判断进行多方面综合的描述，对该课题中一体适用的基本规则的抱怨赋予零权重（zero weight），并要求统计检验后才能通过。如果我坚持这条路，那么我的生活将会更加简单，本书内容将变少。但是当我倾听参与此课题的有思想的专家提出的反事实判断时，越发感觉到要抛弃每种抱怨，并把其看作摆脱预测不一致的窘境所做的努力是霸道的。我的课题参与者知道如果我的测量——尽是以量化示人——是有问题的，他们不需要经过我的允许就可以指出我的程序中存在的问题，而不是体现在他们的回答中。

关于在调和这些不同的意见上将走多远，我们会面对越来越多的这样的判断请示。而且我们为了对专家的预测进行测量，需要探讨越来越多的程序调整，包括需要回应预测者如下异议的分值调整（value adjustments）：认为他们所犯的错误是“正确的错误”，要考虑其他方向错误的代价；争议调整（controversy adjustments），指回应预测者认为他们是正确的、检查是错误的异议；难度调整（difficulty adjustments）指回应预测者认为他们所处理的任务比其他人要艰巨的异议；模糊集调整（fuzzy-set adjustments），给预测者部分得分，无论何时他们声明没有发生的事情几乎发生或可能发生。

我们可以把这些得分的调整看作相对主义的报复。上述列举当然已经超出了我们对不确定性的容忍度：它要求承认合理性和合理化的界限通常是模糊不清的。但是，话说回来，我们不应该让步过多。无法事事都学习并不等同于什么都没有学到。上述列举，作为科学如何运作的客观经验，更为合理：告诉我们你们的担心，我们将这种担心转化为测量程序，评估我们好判断的结论对不同调整的敏感程度。实际上，这些敏感性分析将揭示，好判断综合统计的描述在系列印象深刻的得分调整的过程中是非常强烈的，这些模式随机出现的条件似然度在5%以下（关于无效假定的条件似然度是正确的情况下）。

相互矛盾的世界观的持有者要对共同的标准负责的观点是合适的，然而，大量的统计检验并没有使顽固的相对主义者改变他们的看法，有关这点我们将在最后一章总结时说清楚。但多数读者最终并不会成为哲学家——而且成为相对主义者会更少。

本书所面对的大量实用主义的受众已经认识到社会科学的混乱、不完美，并能够与之共处（而且在认识论透明的瓶子中，他们因1/3是满的而高兴，而不是因2/3是空的而生气）。我们的发现将面向心理学家，他们怀疑实验中认知方式、偏见和结果的修正等的发现如何能够应用于现实世界；决策理论家关心我们运用的判断标准；政治科学家怀疑谁能够采取什么措施“弥合”学术抽象性与现实世界的差距；记者、风险顾问和情报分析员依赖“实时”（real time）思考而生存，他们可能好奇谁能够“击败”投掷飞镖的猩猩。

我向这些受众承诺“交付”的产品是实实在在的。我们将学习怎样设计一致性和一贯性测量，使学者们更加对他们的预测负责，即使我们不能完全限定他们摇摆的范围。我们将学习“专家们思考的内容”作为预测精确性的指标为什么如此零乱，为什么“专家们思考的方式”作为指标是如此一致，为什么自称为狐狸的专家在如此广泛的任务中的表现要比刺猬好（当刺猬式的专家占优势时是重要的例外）。最后，我们将学习这种模式的个体差异怎样解释所有的历史推理中基本的权衡：维护我们的世界观与根据不一致的证据对之进行调整之间的紧张。