并非糟糕的预言者

2026年07月27日

版权

并非糟糕的预言者

在第3章中，狐狸在预测准确性的基本指标上都超过了刺猬。但是刺猬的维护者认为这种胜利是错误的，狐狸做得“很好”并不是因为他们有更好的判断力而是因为：（a）刺猬更可能倾向于错误避免的优先性，同时可能为了避免预测有所遗漏而容忍了很多虚报，或者为了避免很多虚报而容忍了预测时很多的遗漏；（b）刺猬使用概率的标尺时更大胆，为了在预测时能够实现“本垒打”，预测的曲线摆动更为剧烈，把预测未发生事件归于0，把预测发生事件归于1.0；（c）刺猬在预测赋值时更加严格；（d）预测编码的对与错偏向于狐狸；（e）我们的现实检验基于预测能够被编码为对与错的“单纯”假定，当我们采取了更为精密的计分系统，狐狸和刺猬表现的差异就会消失。最后，我们有了新奇的发现，它源于旧有分析水平的困境。尽管统计学极力提高刺猬个体的平均准确性使其与狐狸个体的平均准确性持平，但就总体的平均水平来看，很容易发现刺猬的平均准确性与狐狸几乎一致。

分值调整的需求

一些刺猬的辩护者认为狐狸的优势是一种幻觉——是对所有错误都平等看待的严格中立的概率计分规则的副产品。刺猬得到糟糕的分数是因为他们很少关注总体精确度，更多关注他们认为的真正严重错误的最小化，即使以犯许多稍微不太重要的错误为代价。也许一些刺猬信奉着“相安无事比事后道歉更好”的哲学，也就更倾向于这种说法：“我从来没有因为事态更糟而遭受意外打击。”而其他的刺猬可能会认同“不要老是喊狼来了”的哲学，所以更倾向于避免变得更坏的警告，但这样可能使他的长期信誉受损。

技术附录描述了隐含在分值调整后的概率得分中的一个基本观点：给予专家们一些怀疑的好处，他们犯的错误如果根据他们自己的分值优先性判断就是正确的错误。因此，如果刺猬过度预测了变坏的方面，就会对k值进行调整，使他们的预测与观察到的变坏的基准率保持一致。到目前为止，因为刺猬比狐狸更容易犯这种错误，所以分值调整帮助他们在这项任务中“迎头赶上”。

但是通过k值调整拯救刺猬被证明是徒劳无益的，原因很简单：无论在低估还是高估方面，狐狸犯的错误都比刺猬少。图6—1显示不存在恒定的概率得分，“中立”曲线与以下假定一致，即狐狸和刺猬都是好的预测者，对高估和低估有不同的偏好。更糟的是，图6—1显示很容易假定恒定概率得分中立曲线与以下假定一致，即刺猬和掷飞镖的猩猩有同样的预测技巧，只是“选择”了不同的糅合错误。最后，图6—1表明尽管引入了k值调整，刺猬还是“输”给了狐狸，无论是预测的焦点是识别变好、变坏，还是任何一方。[7]

图6—1

刺猬永远不会通过全面的k值调整而迎头赶上。公平起见，我们用a0/a1的方法使分值调整和特殊形式的错误结合（参见技术附录）。但是我们何时才能意识到为了追求公平，我们已经在扭曲计分规则的路上走得太远了？图6—2表明仅当我们以一种非常特殊的方式界定预测的目标时相交才是可能的，这种方式就是把变化（无论任何方向）与维持现状区分开来，并且仅当我们认为低估变化比高估变化至少严重七倍时。相交的发生有两个原因：（a）刺猬的总体表现被两个亚群体拖了后腿。一个是极端的乐观主义者，夸大变好的可能性；另一个是极端悲观主义者，夸大变坏的可能性。（b）调整极大地支持了每个亚群体被证明是正确变化的大胆预测，但同时轻视了每个亚群体被证明是错误的大胆预测。

没有规则告诉我们多大程度上采用分值调整：原则上，我们可以使它们与预测者对每一个情形的概率估计一致（譬如，纠正高估的失业率和低估的通货膨胀率）。但是几乎可以肯定，这种有特殊目的的调整给了预测者有关怀疑方面太多的好处。这种调整使关于认知平等性的无效假设变得不可证伪（他们甚至可以使掷飞镖的猩猩完美校准）。因此我自己倾向于不要超出一般的k值调整太远。刺猬全面落败于狐狸——在结果变量、时间框架和地区范围内——以至于无法支持貌似合理的假定，即表现的差异应归结于不同的分值优先性。

图6—1（续）

k值调整对刺猬式专家（HE）、刺猬式业余爱好者（HD）、狐狸式专家（FE）和狐狸式业余爱好者（FD）以及黑猩猩（chimp）的影响，体现在三个不同的预测任务中：维持现状与变好或变坏相区分（面板1中每个人都从减少对维持现状的预测不足中受益）、变好与维持现状或变坏相区分（面板2中每个人都从减少对变坏的预测过度中受益）、变坏与维持现状或变好相区分（面板3中每个人都从减少对变好的预测过度中受益）。k值调整使所有群体的总体预测表现都有所提高，但是无法使刺猬与狐狸的表现相当。

概率加权调整的需求

刺猬也可能遭遇到不公平的处罚，因为他们在试图实现预测的“本垒打”方面更加努力：赋予极端值0（不可能的）和1.0（必然的）比狐狸更频繁，后者满足于预测中的安全击打（赋予未发生的事以低概率但不是0，赋予发生的事以高概率但不是1.0）。以此来看，刺猬应该因他们的勇气而受到赞扬。当预言者不加掩饰地警告说一些事情将要发生或者不会发生时，人们才会注意到。但是当预言者将概率尺度中这些端点转向可能或不可能更加模糊的范围时，其效果却直线下降，而当我们转移到“去猜”的范围时，下降得更为厉害。

刺猬的辩护者认为计分调整更符合实际。他们还指出最近的实证研究揭示了在实践中做决策时人们是怎样利用主观概率的。预期效用理论还是习惯地认为概率从0.10到0.11变化，与从0.99到1.0变化，在做最后的决策时同样重要；相比之下，累积性的前景理论假定人们是通过显著的非线性的方式来使用主观概率的。[8]中奖概率从0.10增加到0.11与从0.99增加到1.0相比，人们更愿意在后者情况下花更多的钱买彩票。而且他们也愿意花更多的钱来使不幸发生的概率从0.0001降低到0，而不是使其概率从0.0011降低到0.001。根据这些观察所体现的精神，我们引进了概率得分的加权调整：（a）赋予“本垒打”预测（对发生的事件赋值1.0，对没有发生的事件赋值0）以专门的正向权重；（b）赋予“出局”的预测（对没有发生的事件赋值1.0，对发生的事件赋值0）以专门的负向权重；（c）计算移动时，与在错误方向上移动到居于概率的中间值范围（也就是说，从0.6移动到0.4或是从0.4移动到0.6）相比，在错误的方向上移动到极端点是一个更严重的错误（当x发生，从1.0移动到0.8；当x不发生，从0移动到0.2）。

图6—2

图6—2（续）

当我们运用调整值a0时，即对虚报［过度预测维持现状（顶端面板）、变好（中间面板）、变坏（底端面板）］逐渐强硬时，刺猬和狐狸两者的差距在缩小，甚至消失。相交发生在极端的调整情况下，即当我们把预测的任务界定为把维持现状与任意一个方向的变化（变好或变坏）相区分时。

刺猬们从这些分值调整中受益。就像在第3章中提到的，他们得到益处，部分原因是他们比狐狸更频繁地转向“本垒打”预测：他们宣称确定的结果（1.0）1479次，而狐狸只宣称了798次。同时，他们宣称不可能的结果（0）6929次，而狐狸只宣称了4022次。刺猬从中受益还因为事实上大部分情况下他们在赋予极端值时是正确的：他们认为“不可能”的结果中约85%真的没有发生，而且他们认为“必然的事情”中约74%真的成为了现实。从逻辑必然性方面来看，刺猬比狐狸要“正确”得多：狐狸永远达不到这个维度，即使他们从未犯错。

但是对于刺猬来说，好消息到此为止。刺猬在主要方面的预测失误（宣称一些事是不可能的，但随后发生了）要远远超过狐狸在主要方面的失误（14%对4%），而且刺猬在主要方面的虚报也远比狐狸多（26%对14%）。这些大的失误使得刺猬通过概率加权调整来追赶狐狸的速度放慢了。如图6—3所示，持平只出现在加权参数γ在极端值（大概0.2）时，所以与直觉相悖的极端值事实上把巨大错误［判断者A声称x很可能发生（0.9），但是x并没有发生］看作仅仅比小的错误［判断者B声称x不大可能发生（0.1），而x并没有发生）］稍微严重。这种幅度的调整违背了我们大多数人的直觉，我们有两个极其不同的感觉：我们认为判断者A几乎是错的，而判断者B几乎是对的。这种幅度的调整同样表明，如果我们的目标是迎头赶上，我们需要一个更加曲折的S形加权函数，而不是在前景理论中的更趋心理现实的S形。最后，即使当我们对这种极端值实现了调整，迎头赶上的局面也只是发生在当我们确定了预测目标，并把维持现状与变好和变坏的可能性区分开来时（不是当我们寻找方向的准确性——预测事态变好或变坏的能力）。

图6—3

图6—3（续）

第一个和第二个面板中，狐狸和刺猬间的差距在缩小，但从未不相上下；而在第三个面板中出现了逆转，这种情况出现在当我们在加权概率中不断使γ趋于极端，并带入到概率测量函数中时。γ的极端值将所有错误的程度看作逐渐相当，并都放在“可能区域”（0.1～0.9）之中。

难度调整的需求

刺猬也可能倾向于变坏的预测，因为他们更专于对世界上不稳定的地区预测，当他们以专家的身份预测时，他们更多地纠缠于试图预测那些不可预知的事。表6—1显示上述异见在一定程度上是正确的。尽管刺猬和狐狸预测环境的相似性大于差异性——对狐狸和刺猬来说，无论是短期还是长期预测，维持现状是正确答案的次数要多于变好（总是第二个答案）和变坏——但还是存在一些差异。刺猬处理过少量更艰辛的预测任务（这里的更艰辛指如果所有可能的结果——维持现状、变好和变坏是等概率的，个人的预期接近33/33/33的分类）。

表6—1　　　“事件”发生的频率（维持现状、变多或变少）

注：该表总结了当刺猬和狐狸在专业领域内外做短期和长期预测时对可能未来（维持现状和变好或变坏）预测发生的频率（百分比）。

通过考虑环境变化的变量，技术附录制造了这样一种情况：难度调整后的概率得分使竞争更公平。图6—4显示的结果是：难度调整后的得分复制了未调整的概率得分时，刺猬—狐狸两者表现的差距。这个结果强化了这样的观念：刺猬为他们的自信、推理的演绎方式付出了很高的代价。低于0的难度调整后的概率得分表明，与仅仅预测基准率相比，过低的预测准确性。同时，下降最为剧烈并延伸到负领域的预测发生在刺猬做超出他们专业之外的长期预测时。

但是，就像对在多大程度上实施分值调整是合理的存在争议一样，对在多大程度上进行难度调整也有争议。[9]计算难度调整的“正确”的基准率取决于预测结果时的判断。例如，核扩散基准率的迅速下降已经到达一定程度，我们扩大了通常怀疑的范围，不仅限于即时风险（比如巴勒斯坦、朝鲜、伊朗），也包括长期风险（巴西、阿根廷、利比亚、日本、韩国等）。相似地，政权的更迭很少发生在稳定的地区，但是在较长一段时间里适度发生在动荡的地区、高度发生在（如果我们限定比较的范围的话）20世纪80年代末90年代初的苏联。同样，跨边境的战争、境内的种族屠杀、债务拖欠等也都可以套用。

不幸的是，对刺猬的辩护者来说，图6—4表明刺猬在一个有关基准率看来合理的假设范围内输给了狐狸：在整个的数据集中，分值范围从低于基准率的50%到高于基准率的50%。置信带揭示了递增的基准率逐渐提升了刺猬和狐狸的预测技巧得分，而递减的基准率逐渐降低了这些分值。我们同样可以看到，尽管刺猬比狐狸从递增的基准率中获益更多，但刺猬依然获得了更差的难度调整分值。只有当我们给刺猬关于目标事件的基准率最有利的可能假设，而给狐狸最不利的假设的——竞争几乎是不公平的——情况下，刺猬才赶了上来。[10](https://www.daowen.com)

图6—4

刺猬和狐狸在专业领域内外作短期和长期预测时难度调整后的预测技巧。越高的得分显示越好的表现，置信带显示预测技巧怎样随着基准率的变化而改变（越低的置信带与越低的估计相对应，越高的置信带与越高的估计相对应）。在基准率的调整中，刺猬和狐狸得失相似，但在表现上从未趋同。

争议调整的需求

刺猬的辩护者声称刺猬犯的一些错误应该归咎于我们。尽管只有通过了洞知力测试的问题我们才试图提出，但在未来实现的可能性上争议仍然存在。朝鲜在1998年的时候是否拥有原子弹？意大利政府是否为了迎合《马斯特里赫特条约》的标准而作假？

争议调整表明当我们注意到“我的确是对的”的抗议并对发生的事情的假设做出可替代性选择时，预测者的概率得分是如何变化的。然而，刺猬在这里并没有获得牵引动力。关于现实检验，刺猬和狐狸都没有表达过多的抱怨。他们大概只质疑了这些检验中的15%，而且被一些相似的事件困扰。因此，刺猬和狐狸在调整中获得了大致均等的好处。

模糊集调整的需求

刺猬的辩护者们可能争辩道，尽管刺猬并不擅长预测发生了什么，但是当我们给他们一些即将发生事情的证据时，他们就可以做到与狐狸一样好。就像我们在第4章中所看到的，错误的预测者总是坚持他们的预测应该归类于接近正确，而不是明显错误——接近正确是因为尽管可预期的未来并没有实现，但是它也几乎发生了（魁北克几乎独立），或者马上就要发生了（南非并没有发生部落大屠杀，但它即将发生）。无论何时当专家调动起三分之一的信念体系辩护时（几乎成功的反事实、适时脱离以及外源性震荡），模糊集调整通过减少事前概率判断和事后现实分类的差距，认真地对待了这样的抗议。

在所有拙劣地修补概率得分的可能路径中，模糊集调整多数使本书评论者的观点出现分化。实证主义者发出打开潘多拉盒子的警告。如果我们降低限制，承认所有解释都是真的，聪明的人就会想方设法挽回面子，我们也就永远不能推断出谁犯错了。相比之下，建构主义者把模糊集调整视为与把现实划分为开始/结束、0/1截然二分的“天真”解读的可喜决裂。我们生活在灰色阴影的世界里。有时这样说是有道理的：没有发生的事情几乎发生了，或者没有发生的事情仍然有可能发生，或者外源性的震荡把正确理论所做的预测抛弃了。

我们的概率计分程序足够灵活，能把不可调和的哲学矛盾改造成易于处理的、可测量的问题。就像在技术附录中所描述的那样，我们利用模糊集理论使二元变量转换为连续的。[11]如果在没有调整的情况下，一个专家赋值未来0.6的可能性不会发生，他的概率得分就是0.36（得分越高表明判断和现实越不符）。但是，与不同群体的专家援引不同的信念体系辩护相比，以及与我们赋予这些辩护的可信度权重相比，通过调整以缩小现实—概率间的鸿沟，概率得分就会减半甚至更多。

慷慨的模糊集调整能弥合刺猬和狐狸间固有的差距吗？这取决于信念体系辩护能起多大的保护作用。刺猬从模糊集调整中获得领地，原因有三：首先，概率判断和现实的差距对于刺猬来说更大（所以，在绝对项上，刺猬从百分率收缩和模糊集调整中获得了更多）；其次，这些概率与现实的差距在最初时更大，因为刺猬在夸大变好或变坏的可能性更趋一贯（因此，刺猬只有在我们界定了预言目标，并把现状从任一方向的变化中区分出来才赶得上）；最后，刺猬向信念体系辩护求助并引发模糊集调整的频率大约是狐狸的两倍（所以，刺猬从调整中多获得了大约两倍的好处）。图6—5展示了预测的结果：当我们把注意力放在区分维持现状与变化，并赋予大的可信度权重给信念体系辩护时（大于0.6），狐狸擅长的预测技巧的优势消失了。

图6—5

刺猬的“胜利”是买来的，尽管，很多人认为价格过高。实证主义者怀疑我现在已经从具有学院的开放思想转变为具有怯懦温和的唯我论的胡话。模糊集调整意味着，如果我们把差劲的预测者提供的不合适的解释当真的话，这些预测者看起来就会像他们的更少辩护却非常准确预测的同行一样。实证主义批评者也提醒我们，一些有选择性的专家，特别是刺猬，是如何提出几乎成功的反事实、外源性震荡和适时脱离辩护来解释政治结果的。第4章表明当专家面临需要缩小主观概率和客观现实之间尴尬的巨大鸿沟时，这些解释的策略就变得非常流行。但对于把赌注压在错误结果上的聪明的竞争对手，在提出几乎成功的疑问时，专家们却很少给以同等的好处。大的模糊集调整因此在推理中有谋求私利的偏见。如果我们与有选择性的援引信念体系辩护相比减少调整（以此来惩罚谋求私利的推理），那么预测技巧中的表现差异就会再次出现。

那么模糊集调整还有什么用？答案是：适当的模糊。建构主义者是对的：对于预言失灵的基本原理，一些不可消除的模糊应该被摈弃，就像合理化应该被认真地对待一样。但是实证主义者也是对的：只有当我们允许超乎想象的大模糊集调整来反映刺猬更强烈的偏好，继而通过解释消除错误时，刺猬才能获得认知平等。

图6—5（续）

当我们运用模糊集调整，赋予信念体系辩护的可信度权重不断增加时，刺猬和狐狸间的差距就会缩小，甚至消失。相交发生在极端调整的情况下，即当我们把预测任务从现状的延续与任意一个方向上的变化区分开来时。

悖论：为什么与群体的平均水平相比，平均水平的个体的追赶更难以实现

之前的辩护十分徒劳地试图提高平均水平的刺猬预测者的水平，从而使其与平均水平的狐狸预测者持平。但是上述所有的分值调整都是应用在个体的分析层次上的。也许还会有更好的方式来拯救刺猬在预测领域的整体声誉。

有一个有趣的数学事实：一个群体中的平均水平的预测者的劣势，并不一定意味着那个群体的平均预测水平的劣势。[12]关于现有的数据集，比如，延森不等式告诉我们，对于类似于概率得分的二次变量，个人预测的平均准确度通常会比整体预测的平均准确度要差。延森不等式同样意味着在一些群体（如刺猬）中，平均水平的个人预测者的水平与整体的平均水平之间的鸿沟将会变大，从而产生了更多极端（更大的变异）的预测者。与这个分析一致，我们发现：全体狐狸预测者的平均概率得分只比平均狐狸个体的得分高一点（0.186对0.181），而全体刺猬预测者的平均概率得分却比平均刺猬个体的得分高很多（0.218对0.184）。平均狐狸个体击败了70%的狐狸；平均刺猬个体击败了95%的刺猬。

为什么最后我们发现刺猬能够赶得上？在这个结果背后的政治心理学的直觉是：相对于天性注重平衡的狐狸，心智上好斗的刺猬在所有可能的方向上都犯了严重的错误，而且当我们让他们的错误彼此抵消以形成一个综合的预测时，获得了不成比例的好处。统计结果显示狐狸整体水平和平均水平基本一致，而刺猬个体却远远没有做到：与并不冗长的预测信息相伴随的是融合的视角。刺猬的拥护者把此视为证明合理的证据：国家安全顾问做的评估并不糟糕是因为他们依赖的是刺猬分析师的评价预测，而不是狐狸的。但是在作者看来，把这个结果看做强化第3章的分析更为合理，即：为什么刺猬的表现始终弱于狐狸。刺猬失败是因为他们的认知方式没有办法很好地跟随复杂的、发展的社会系统的轨迹。