揭穿谎言的假设：人类对不同精密程度的算法

2026年07月27日

版权

图2—5描绘了人类预测者的平均校准和鉴别值，其中四种机械简单的竞争形式包括：（a）赋予相同概率的黑猩猩策略；（b）扩展和限制性的基准率策略，所赋予的概率与我们评估人类表现的预测期前五年的结果频率相对应（插入值来源于整个数据集或者受限制的案例子集，例如苏联集团）；（c）同期的基准率策略，所赋予的概率与实际预测期的结果的频率相对应；（d）谨慎而又积极的具体案例策略，将较高或很高的概率赋予以下假设，即一个特定国家的最近的趋势将会持续和利用了自回归分布滞后模型的复杂竞争。

图2—5

人类预测者（专家和业余爱好者）、机械简单的竞争（黑猩猩的任意猜测、受限和扩展的基准率演算、谨慎和积极的具体案例外推法）、复杂的统计竞争等所获得的校准和鉴别分。每条曲线代表了在所有预测技巧（概率得分）不恒定的情况下，一系列相同权重的校准—鉴别权衡。较高的曲线代表了整体表现的提高。

激进怀疑论者通常应该接受最初的结果。人类勉强打败了黑猩猩，在一个主要变量上失败了而在其他方面胜过它们。我们在校准得分上失败了。人类概率判断与现实的平均差距要比假想的黑猩猩与现实的平均差距大。但是我们在鉴别值上获胜了。在赋予高概率值上，我们对发生的事件比未发生的事件做得好，而且这两点都比黑猩猩做得好。我们在鉴别上赢得的分值足以抵消在校准上的失分，同时也给了人类一个较高的整体概率得分（在恒定概率得分对角线中所反映出来的人类数据点的聚类正好高于黑猩猩）。

当我们把人类预测的准确性与算法的预测比较时，我们的集体认知尊严也得到了些许的安慰，算法的预测只是机械地把概率值赋予一些事件，这些事件与对它们基准率的频率的评估相对应。人类极力取代受限制和扩展的基准率算法，该算法认为接近中期的未来——汇总之后——会看上去恰好接近于中期的过去。但是人类只能竭力维持与同时代基准率策略对等的局面，该策略直到现在仍然通过利用聚合的结果知识，以达到事实上的完美校准。当然，有人可能会认为这点损失并不算耻辱。达到好校准的捷径就是所赋予的概率值对应于基准率的最优可行性数据，通常是三分法——现状的持久性（50.5%）、比之更多的事情（28.5%）、更少的事情（21%）。在当前预测期内预测的基准率频率为51%的事件在同一时期有51%的发生可能性这一现时的基准率算法所做出的成绩并没有什么大不了的。因为这个算法“作弊”了：它“偷看了”结果数据，而其他竞争者没有提前接触到这些数据。

总的来说，我们可以对这些结果给以积极或消极的评价。消极的评价讲述了一个傲慢的故事：人们预感某些低频率事件将会发生，而在这种具体案例上下注，同时他们以较低的校准值的形式为这种偏见——忽视基准率——付出了代价。人类概率判断的主要力量不是这类事件的发生有多么普遍；恰恰相反，它是“引人入胜的因果情景是多么简单地浮现在脑海的”。

积极的评价是一个勇敢的观察者义无反顾地冒险告诉我们一个我们曾经所不知道的动荡世界的故事。人类过度预测了较低频率事件：偏离现状——或者比之更少的事情［这些，反过来又可以是坏的（例如，较低的GDP增长）或好的（例如，腐败的评定等级下降）］，或者比之更多的事情［这些，反过来也可以是坏的（例如，更多的中央政府债务）或好的（例如，更多的政治自由）］。(https://www.daowen.com)

积极的评价分析意味着我们应该“原谅”人类预测者在校准上的失败，祝贺他们在鉴别上的胜利。黑猩猩和基准率算法甚至没有在鉴别上做象征性的努力。政策方面，他们通常全部一致地赋予相同的概率值而得到最低的概率值——0。相反，人类试着去鉴别而且还会获得少许的成功（在y轴上0.03的值可以转化为“解释”大约预测结果的18%的总变异）。图2—5的概率得分曲线（绘出了在保持总体准确性不变的情况下，校准和鉴别间的逻辑上可能的取舍）表明人们可能确实付出了合理的校准代价来达到如下水平的鉴别度：人类概率得分的函数比黑猩猩的高，而与同时代基准率算法大约相同。有人可能会指出，这些概率得分曲线低估了人类的净优势，因为他们把校准和鉴别看做一样的，然而鉴别的重要性应该超过校准。[45]在许多真实世界的环境里，赋予发生的事件以极高的概率值是更重要的——即使以尴尬的虚报或没有预测为代价——与将概率赋值于以下的事件相比，该事件随着发生的客观似然性在0～1刻度内的变化而紧密共变。

但是当转向具体案例的外推算法时我们失去了这些“借口”，这种外推算法赋予结果不同的概率值，以作为每个案例的不同历史结果的函数。人类此刻在校准和鉴别上都失败了。

后一个结果推翻了人类的两种最主要的辩护。它中和了以下的观点：“预测者在校准上的审慎是一个因为冒失而值得付出的代价，只有人类才能实现大致准确的预测（而这也是他们先前在鉴别上获胜的原因）。”同时也应该给这个令人欣慰的观点泼冷水：预测者不能胜过最低限度的基准点是因为他们被分配了一个不可能的任务——实际上在预测不可预测的。通过将具体案例概略外推法的预测以及复杂的时间序列预测方程转换为主观概率相等物，我们发现，最好的预测者非常费劲地预测了比总变异的20%要多的结果［用的是技术附录中的鉴别指数/变异指数这种“全知”（omniscience）指标］，具体案例的概略外推法可以预测变异的25%至30%，而一般自回归分布滞后模型平均解释了变异的47%。[46]

这些结果将人类预测者掷入了一个不利的境地，沿着表现的连续体，人类预测表现的惨状更接近黑猩猩而不是正式的统计模型。更重要的是，这些结果不可能作为误差而被排除掉：图2—4表明人类的校准和鉴别值在跨政策领域的长期和短期预测上，以及处于稳定（北美、西欧和日本）和混乱状态（东欧、中东、非洲、南亚和拉丁美洲）的地区中没有大的变化。通过地区、时间段和结果变量考察这些得分，我们寻求揭穿谎言假设的其中一个最强的支持：在任何领域都无法发现人类明显优于概略推算法，更不用说那些复杂的统计模型。[47]