方法论背景

2026年07月27日

版权

方法论背景

对结果比方法更感兴趣的读者可以直接跳到标题为“证据”的章节。但是，这样做对一个严肃的学者来说是一个错误。事实是没有单独的最优的方法来检验这6个假设。对于喜欢发现问题的人来说，没有哪个研究会没有“致命的缺陷”。评论家通常相互猜疑预测者的资格，或者预测练习中的基本规则和内容。因此这章没有断言结语。

但是，方法论附录确实给了我们四个理由，让我们认为当前数据集非常适合检验激进怀疑论的核心原则。这些理由如下：

1.同意扮演预测者角色的研究参与者（无可否认，参与的热情有异）的经验。很难说如果我们吸收了“真正的重量级选手”，我们现在讲述的故事就可能与吹捧专家的专长有关。而且，尽管专长的辩护者总是认为，一个智力更为发达的人或一个与政治联系更紧密的样本能够做得更好，但我们可以说——没有违背我们在附录中详细说明的保密承诺——我们样本的284位参与者在几个方面是令人印象深刻的。参与者是受过高等教育的［他们中的大部分拥有博士学位而且几乎全都有过诸如政治学（尤其是国际关系和区域研究的各个分支）、经济学、国际法律与外交、工商管理、公共政策以及新闻学等领域的研究生训练］；他们平均有12年的相关工作经验；来自许多专门的行业，包括学术界、智库、政府和国际机构；在谈话中他们展现了他们自己，是世界舞台上的引人注目的富有思想和表达清晰的观察者。

2.在1988年至2003年间我们邀请预测者试着预测横跨政治、经济和国家安全领域的辽阔的历史画卷的结果。很难说出现在这里的好判断的描绘只适用于最近的几个孤立的历史情景：典型的反对形式是“当然，他们算出苏联的解体和1992年美国的大选结果，但是他们是否能算出……”。一个典型预测练习得到的观点基于以下不同的话题：阿根廷的GDP增长、南亚次大陆的核战争危险，以及前东欧国家的“民主化”和“私有化”进程。许多参与者做出了100多个预测，这其中，大约一半的题目在他们自我报告的专业领域内，另一半在专业领域外。

3.在设计预测练习时必须表现出来微妙的平衡行为。一方面，我们想避免可笑的、非常容易的、每个人都能够做出正确预测的问题：“是的，我百分之百确定稳定的民主制度将会继续举行竞争性的选举。”另一方面，我们想避免可笑的、非常难的、每个人都知道不可能做出正确预测的问题（或者甚至比几率做得好）：“不，我给你的信心仅限于猜测层次，猜猜哪个政党会在2012年总统选举中获胜。”因此，在探索正确的平衡中，我们想给予专家一些灵活性，来表达他们对未来的不确定程度。为此，我们采用了标准化格式和主观概率尺度。在三个可能未来练习中判断每一个的概率尺度如下所示［还有一个添加选项，当预测者感到他们没有基础以评估一种概率比其他任何一个更大的时候，预测者可以赋予所有的概率（通过检查“最大不确定性盒子”）的值为0.33］：

在探索正确的平衡中，我们也制定了回应选项，为的是不让专家感到他们被要求做出可笑的精确到点的预测。为此，我们把可能未来的范围切割成唯一的、排他性的类别，来获得在结果变量中过去变化的幅度。方法论附录根据问题的区域、主题和时间框架列举了主要的类别。这些问题探讨对以下的看法：“谁有可能在下次选举之后掌管立法机构或政府行政部门”［例如，在下一次选举后，以下可能性有多大：现在政府立法部门有最多席位的政党继续维持这种地位（在看似合理的范围内再增加或减少一些席位、丢掉这种地位，或者巩固它的地位？）］；“政府负债到什么程度”［例如，以下的可能性有多大：在3年或6年的时间里，每年中央政府的财政赤字占GDP的百分比与一个比较范围内的指定值（根据在过去的6年里数值的变动）相比，是低、相同还是高？］；“国家安全威胁”［例如，以下的可能性有多大：在3年或6年的时间里，国防开支占中央政府支出的百分比与一个比较范围内的指定值（依然紧接着上面设定的模式）相比，是低、相同还是高？］。

4.评估预测准确性时规则的透明度和严格。透明度让人很难说这个游戏受到操纵，因此对特别的几个思想派别不利。严格让失败的预测者很难坚持认为，尽管他们看来似乎错了，但他们——在一些更深层的意义上——是对的。我们依靠本章的全部和后面章节的大部分建立起预测准确性的总体指标，它逻辑上源于数千次的预测。

然而，一些读者也许还是想确切地知道，我们如何能评估单个事件概率判断的准确度。答案就是通过聚合的奇迹。假定，每一个已经发生的结果的真实概率依然笼罩在神秘的面纱里（我们只知道这个值不是0），而每一个没有出现的结果的真实概率也一样（我们只知道不是1.0）。但是，如果我们收集到足够的预测，我们依然可以测量出那些赋予不同概率的已发生和没有发生结果的相对频率。举一个极端的例子，某人对可能结果的概率赋值紧紧跟随那些结果的相对频率（大约在x%时间内，事件被赋值x%发生的可能性），与某人认为可能结果的概率赋值与结果发生的频率没有关系相比，前者应该被认为是一个更好的预测者，对此人们很少有争议。(https://www.daowen.com)

技术附录详细说明了计算预测准确性的主要措施、概率计分的程序，概率得分被定义为专家赋予可能未来的事前概率和一旦我们得知确实发生（1.0）或没有发生（0.0）时研究者赋予这些未来的事后确定值之间的平均偏差。[44]为了达到最好的概率得分——0——一个人一定要有洞知力：赋予所有随后发生的事1.0的可能性，而对所有没有发生的事则赋予0的可能性。而为了达到最坏的概率得分——1.0——一个人一定是有洞知力的反面，言之确凿地宣称不可能的每件事随后却发生，宣称不可避免的每件事却没有发生。

但是，概率得分提供的只是有关主观概率和客观现实的差距有多大的大概的指标。如果回答更细微的问题就需要把概率得分分解成更精确的指标。读者应该注意三个曲线球式的难题。

a.一些预测者是否通过谨慎的下注，赋予接近于猜测的概率值而达到更好的（更小的）概率得分？为了探求这种可能性，我们需要将概率得分分解为两部分的指标——校准与鉴别，它们经常被认为是在一个平衡的关系中的。校准指数探讨主观概率与客观概率相匹配的程度。当在主客观概率之间有准确的对应关系时（这样平方差的总和为0），观察者是完美校准的。这些在80%的时间里结果发生的可能性赋值为80%，那些在70%的时间里结果发生的可能性赋值为70%，诸如此类。鉴别指数考察预测者比简单的预测基准率策略做得更好的能力。当观察者准确无误地赋予发生的事件以1.0的概率而赋予没发生的事件以0的概率的时候，他们得到了完美的鉴别值。

为使校准指数最大，我们需要小心谨慎，即赋予接近于基准率的概率；为最大化鉴别指数，我们需要大胆一些，即赋予极端概率。图2—3的第一个面板显示出一种谨慎行事的策略——赋予从不偏离中间值的概率为0.4、0.5和0.6——是如何能够得出极好的（小的）校准值但是差的（小的）鉴别值的。第二和第三个面板展示的是达到好的校准和鉴别是如何实现的。尽管这样做需要技巧——将概率值映射到真实世界结果的变化上。

图2—3

b.一些预测者做得很好仅仅是否因为他们处理更简单的任务？概率得分被夸大，或是因为专家的错误倾向或是因为工作的难度。区别这两种原因需评估的统计程序如下：（1）任务难度（以下情况下说任务是简单的，结果在程度上没有变化——比如说预测菲尼克斯下雨，或者有变化，但是在简单的统计模型里能够获得——比如说预测多伦多的温度季节性的变化）；（2）观察者的表现差异可以归因于技巧的不同而不是工作的难度。

c.一些预测者得到很差的概率得分，是否因为他们宁愿在一种类型上犯许多错误，也不愿意在其他类型上哪怕是犯很少的错误？预测者得到差的分值是因为他们预测过度（赋予从来没有发生的事件以高概率值）或预测不足（赋予确实发生过的事件以低概率值）。但是，某些最初看起来是错误之事可能是政策优先性的一种反映。比如，专家有时坚持认为夸大变坏的可能性，甚至以虚报为高昂的代价是审慎的做法。对这样的主张进行评估需要概率得分的分值调整，方式是专家低估或高估特定结果时根据他们的质疑而给予不同的权重。

图2—3（续）

校准分可能是完美的但鉴别分变化很大：很差（骑墙的策略）、很好（正确使用宽范围的值时）、完美（只有正确使用极端值时）。