技术附录

2026年01月22日

版权

技术附录

菲利普·雷斯克伯　　菲利普·E·泰特洛克

我们分两篇介绍我们的分析：A篇围绕着好判断的一致性指标，聚焦于概率判断反映外部世界规律性的程度。B篇围绕逻辑一贯性指标，聚焦于概率判断遵循概率论已有形式公理的程度。

A篇：好判断的一致性指标

概率得分

我们主要的一致性指标是概率得分（PS）。我们将发现这个指标非常有用：（1）主观概率与客观现实的拟合度的测量，可分解为多种指标（如变异度、校准度和鉴别度）；（2）根据各种反对意见对这种测量进行调整（针对五种类型的反对意见，我们将考察五种类型的得分调整方案）。

最简单的表达式是：

（pi-xi）2

式中，xi是一个虚拟变量：当结果i发生，x=1，否则为0。pi是对给定结果i的预测概率。理想的得分是这样的：当结果不发生时，我们将pi赋值为0，此时很容易看出（pi-xi）2=（0-0）2=0；反之，当结果发生时，我们将pi赋值为1，此时很容易看出（pi-xi）2=（1-1）2=0。

当预测者对事件作出多个二分预测结果的时候，此时概率得分表达式为：

式中，恒有。

我们可以很容易运用此程序来预测有多重结果的问题。假设一个预测者将pA=0.1，pB=0.4，pC=0.5赋予三个两两不相容的可能事件，一个结果的未来值必定会：（a）比当前好；（b）和当前一样；（c）比当前坏。下面假设（c）情况发生，此时概率得分为：

概率得分分解

概率得分表达式有一定的简洁性。可是该表达式并没有告诉我们在判断表现中我们需要知道的几个关键问题的答案。所以需要另外采取以下两个步骤：（a）分解概率得分的变异以得到更加精确的估计，这个估计是人们将现实概率赋予可能的未来时做得有多好（测量环境变异度、预测者的校准度以及鉴别度）；（b）调整概率得分以处理一些潜在的有效反对情况（如引进难度、分值、争议、模糊集以及概率权重调整）。

由于许多可辨识的影响，概率得分可高可低。我们分析的出发点是墨菲分解（Murphy decomposition）[1]，它能将概率得分分解成三个组成成分：变异度指数（VI）、校准度指数（CI）以及鉴别度指数（DI）。在二分结果情形下的分解方程式如下：

上式中最后三项分别对应变异度指数（VI）、校准度指数（CI）以及鉴别度指数（DI）。其中b是某一特定结果的基准率（某一结果在所有事件中发生的次数的比例）。bt是某一特定事件预测类的基准率，例如预测10个事件将以概率X发生，其中最后有6个事件真实发生，此时bt=0.6。N是事件的总数。nt是第t个预测类的数目。T是预测类的数目。pt是第t个预测类的预测值。

概率得分的构成：变异度、校准度以及鉴别度

图附—1展示了变异度、校准度以及鉴别度这三个构成所引起的解释性的质疑。

图附—1

不同概率得分构成的可能解释。

变异度是环境的（不可）预测性的测量，变异度指数的范围在0到0.25之间。

情形1　容易预测的环境：当基准率非0即1时，此时变异度为0，而且一种简单的一直预测基准率的方法（always-predict-thebase-rate strategy）是非常准确的，会获得完美的概率得分——0。

情形2　预测难度递增的环境：随着基准率逼近0.5，此时很难预测到底哪种结果会发生。假设基准率是0.8，这种情况比基准率为0.5的时候预测起来要简单。因为在0.8这种情况下某结果发生的概率是不发生概率的4倍（0.8/0.2），还有此时一直预测基准率的方法产生了较好的预期概率得分0.16，这也要比基准率为0.5时的0.25要好。更普遍的是，随着基准率逼近0.5，变异度指数也会逐渐增大到最大值0.25，概率得分也会递增。

校准度是每一个预测类的准确率与概率值之间的均方差的加权平均值。校准度指数范围在0到1之间，其中取值为0的时候称为完美校准度，并代表着最好的可能得分。

在二分结果模型下的五种理想情况类型如下：

情形1　完美校准度可以由以下途径实现：假设所有事件没有发生时赋值为0，10%的事件发生时赋值为0.1，依此类推。如果预测者敏锐地意识到自己知识的局限（通过经验了解到事件的发生次数为x%的时候，其置信度为x）。或者预测类的概率值和该类的基准率相差不大的时候，采取一种谨慎中立的态度。

存在很多种不充分的校准度，情形2～5（见图附—2）就代表四种（很差的）校准得分均为0.48的情况。

图附—2

四种形式的不完美校准度。资料来源于D.Koehler et al，The calibration of expertjudgment.In T.Gilovich et al.（eds），Heuristics and biases.Cambridge，2002。

情形2　预测过度是指在整个概率尺度内，主观概率值永远比客观概率值大。

情形3　预测不足是指在整个概率尺度内，主观概率值永远比客观概率值小。

情形4　高极端情形是指对主观概率值的预测不足在0.5以下，对主观概率值的预测过度在0.5以上。

情形5　低极端情形是指对主观概率值的预测过度在0.5以下，对主观概率值的预测不足在0.5以上。

鉴别度能将判断的能力进行量化并且将这些预测值分成不同的概率类（0、0.1等），这些在所有类别上正确答案的比例彼此之间都有很大的不同。越高的得分代表使用概率尺度来区分发生事件和不发生事件的能力越强，而不是仅仅通过特定目标事件的发生基准率（b）来预测是否达到这个效果。

鉴别度指数取值范围在0～b（1-b）之间，其中b（1-b）代表最佳鉴别，也就是最好的可能得分。注意，不等式可以重写成0≤DI≤VI，其中VI也就是上文所提到的变异度指数。

在二分结果模型下的五种理想情况类型如下：

情形1　完美鉴别度可以由以下途径实现：假设有足够的先见之明，将所有不发生的事件的概率赋值为0，将所有可能发生的事件的概率赋值为1。

情形2　作为一个平方指标，鉴别度指数对事件所在的概率类发生的频率和基准率间鉴别的方向不敏感。因此，我们得到的完美鉴别度可能是明显不准确的，可能将所有不发生的事件的频率赋值为1，而将所有可能发生的事件的概率赋值为0。

情形3　完美鉴别度还可以这样达到：当遍历所有的主观概率值，预测结果的概率值在0至1之间随机选取任意一个即可变成现实时。

最坏的一种情况是鉴别得分为0，可以这样达到：在每个主观概率类下预测结果变为现实的概率总是等于总体基准率。它在下面两种情形下都能达到：

情形4　当预测者不作任何的鉴别，对所有的可能的结果都赋予一个相同的概率值，这个值可以是基准率，可以是随机预测，或者是其他任何一个值。此时T=1，bt=b。

情形5　当预测者对事件有不同的主观概率，但是这些区分并不具有预测价值：每个概率类内的基准率等于总体基准率，也就是说，T＞1，bt=b，t=1，2，...，T。

标准化鉴别度指数（NDI）

根据预测者对事件的熟悉程度，从一无所知到无所不知，鉴别度得分跨度范围可以从0到VI。因此标准化鉴别度指数能够告诉我们，相对于无所不知的标准，预测者鉴别发生与不发生事件的程度。定义式为：

校准度对鉴别度：从自我意识到骑墙派

如果让一个骑墙派做判断，一般其预测值的变化范围会很小，大约在0.4到0.6之间。而当某目标事件的发生概率也刚好在0.4到0.6之间，此时他可能会拥有一个很好的校准度和一个很差的鉴别度。当然，如果一个人总是习惯于做出差别很大的错误预测，则他可能会拥有一个很差的校准度和一个很好的鉴别度。所以说一个拥有好的校准度和好的鉴别度的预测者给我们的是最好的两个方面：他们能够传递一种现实感，并有能力区分高低概率事件。

过度自信对趋均回归：从现实到假象

证明过度自信需要的不只是证明如下这一点：当专家们将x发生的概率赋值为100%时，x不会100%发生；或者是当将x发生的概率赋值为0时，x时有发生。我们还应该预期这些效应从趋均回归。例如，我们假设“过度自信”仅只是主观概率和客观频率之间的测量误差的副产品。对于一个给定的主观概率（xi），其最佳客观频率（y）估计为：

式中，是主观概率的平均值；sx和sy分别代表主观概率和客观频率的标准差；rxy是主观概率和客观频率之间的相关系数；是客观频率的平均值。

接下来的一个很现实的问题是，预测者在概率值上是否过度自信以至于将其看作“仅仅是回归的假象”而错误地抛弃掉。如果能证明在事件很容易确定的类别上，概率判断均值与客观频率或者基准率均值之间显著不同，我们就有令人信服的理由推翻此说法。这里的显著不同证明系统预测误差在逻辑上独立于回归。

式中，是平均预测值；b是基准率；N是预测总数目。另外，是预测样本的无偏方差，其表达式为：

是基准率的方差，其表达式为：

另外一种避免趋均回归的批评的方法是去证明任何两个预测组之间的预测误差都不相同。为了做到这一点，用下式可以比较主观概率和客观频率之间的差异：

式中，i是第i组的平均预测值；bi是第i组的基准率；Ni是第i组的预测总数目。另外，是第i组的预测样本的无偏方差，其表达式为：

一个实质性的而不是运气驱动下的解释能够得到支持，它在于人们能够在多大程度展示在测量误差基本保持不变的情况下，概率—现实差距的变化可预见性地作为被假定可以加重过度自信的独立变量（认知方式、专业知识、极端主义、短期与长期预测等）的函数——实际上，这是一种结构效度的论证。

扩展到多重结果的情形

在有三种结果的情形下，我们可以用平均所有可能成对的辨别任务来计算变异度、校准度和鉴别度：能够将维持现状与变得更好或更坏区别开来，能够将变得更坏与维持现状或变得更好区别开来，能够将变得更好与维持现状或变得更坏区别开来。

“无心”竞争的操作化

我们本可以根据随机数表选择概率预测值使掷飞镖的黑猩猩测量具有可操作性。然而，假设我们把三种可能未来所赋予的概率值做平均，会发现在这种方法下其长期预期值会收敛于0.33。为了计算概率得分，现在的表达式为：

式中，ci是猜想的长期预期值，为1/M；xi根据问题中事件的发生与否取0或1；M是特定事件的所有输出结果数目。

很显然这种方法在结果某种程度上不是等概率的情形下，运用基准率外推算法时表现不佳。

我们通过选择概率预测使基准率预测方法能够操作化，这里的概率预测与特定的变量下结果发生的频率相一致，也与比较案例中的总体相一致。表6—1（第6章）呈现了运用同期的基准率法则运算得出的比例：在预测期间我们评估人类预测者的准确性时所有的结果变量中维持现状、变得更好和变得更坏的频率。计算一个事件中M种结果下的概率得分的公式如下：

式中，bi是概率预测的基准率；xi根据问题中事件的发生与否取0或1；M是特定事件的所有结果数目。

基准率的估计依赖于我们界定比较性总体时的广义或狭义、历史上或现时期的程度。但是就像我们在第6章所注意到的，在广泛的看似合理的估计（用来计算难度调整后的概率得分）中，现有的结果是可靠的。

我们根据具体的变量和国家的趋势线，使具体案例和时间序列的外推演算法操作化。谨慎的具体案例外推法对可能的未来赋值50%（大于猜测的0.33），简单的做法是由近期的趋势推演。对于三分模式的未来，所赋值因此分别是50%（趋势的延续）、25%、25%。积极性的具体案例外推法所赋予的概率两倍于猜测（67%、16.5%、16.5%）。高度积极性的外推法在下列命题中会置信100%：X国的近期也将是它不久的将来。

复杂竞争的操作化

如果专家们不能击败非正式的预测过去的运算法则，人们可能会怀疑，什么动机（幸灾乐祸除外）能够促使我们迎接更为可怕的来自形式统计运算法则的竞争。

结果证明，尽管专家们的确大幅度输给了形式统计模型（一般自回归分布滞后模型），但没有输得很惨。这是因为形式模型，尽管其表现优于非形式模型，但并没有显现出巨大幅度的波动。这一结果表明，证实了许多预测变量（称它们为yt）的真正的随机过程，非常接近一阶的自回归过程。在此条件下，预测者运用简单的规则就能够做得很好，如“ρ×yt-1+（1-ρ）×m”。其中ρ代表小于或等于1的一些常数，以显示变量的“持久性”；m是无条件的，意指经过一段时间会返回的均值（譬如当p=1时，变量会紧跟着随机游动）。

有其他好的理由可以至少大概决定预测者所面临的结果变量的可预测性（之所以说“大概”是因为无法保证任何的统计模型可以整合所有事前提供的信息）。为了获得对可预测性的粗略估计，我们求助于一般自回归模型，它能使每种结果变量滞后，这既可以通过两个时间段使有关自身的变量滞后来实现（一阶和二阶自相关），也可以通过一个时间段对我们数据集中三个最相关的变量滞后来实现［这些变量在纯粹的一阶自回归过程中不具有预测力，但这里偶尔会有预测力］：

Yt=α+β1yt-1+β2yt-2+γ1x1，t1+γ2x2，t-1+γ3x3，t-1

这些“最佳”预测方程中的多重平方相关的范围从0.21（关于通货膨胀的长期预测）到0.78（政府支出何者优先的短期预测）。这些方程确定了每个结果变量的合理的最大表现上限。实际上，如果我们对待结果变量的统计预测值就像对待主观概率预测一样，我们就能够直接比较人类预测者与这些方程。例如，一条转换规则规定，一旦统计预测值落入三种可能未来值的范围内，并且围绕预测值的95%的置信带没有超过可能未来间的界限，就赋值1.0，否则0.75。在实施这条规则，并考察所有的结果变量后，我们发现方程中鉴别得分非常轻易地超过了所有类别的人类预测者（方程的范围为0.05～0.10，人类的为0.01～0.04）；校准度的得分与最好的人类预测者大致相当（方程平均的校准度得分是0.011）。这些结果显示，不管认知方式如何，有相当重要的预测能力是专家们无法具备的（有关这一点在图2—5和图3—2中已有所强调）。

作为结果变量的相对预测力函数，这些方程式允许我们评估群体在预测表现上的差异有多大（譬如，通过考察从小到大的多重平方相关的结果变量，我们发现狐狸对刺猬的优势呈相对均匀分布）。这些方程式也提醒我们，尽管专家们在三种政策领域都做了许多短期和长期的预测，但每种预测的成功不应该被看作预测能力独立统计评估的结果——因此对于自由度的显著性检验，做出保守的假定是非常重要的（把预测者而不是预测作为主要的观察单位）。

调整概率得分以处理概念性反对意见

我们至少可以举出五类对概率计分的反对意见，每类都可以作为一种对预测技巧的有效衡量。

1.概率得分会对一些不相关的因素很敏感，像政治环境下的可预测性的变化范围（因此，需要概率得分的难度调整）。

2.概率得分会对一些相关的因素不敏感，像预测者想要达到的政治价值观的变异（因此，概率得分的分值调整会反映强加在专家身上的避免过高估计和过低估计的权重转移）。

3.用来表明准确性的现实检查是有缺陷的，因此需要争议调整来反映真实发生的不同意见。

4.用来表明准确性的现实检查是有缺陷的，因此需要模糊集的调整来反映那些几乎发生或者可能要发生的不同意见。

5.概率得分基于主观概率是有简单的线性比例特征这一假定，但是大量证据表明主观概率是没有线性比例这一特征的，而且表明人们认为中等规模情形下的误差没有极端下的误差严重。

概率得分的难度调整

概率得分的夸大，受两种不同逻辑来源变异的影响：预测者的自身限制和世界的不可预测性。对第二种来源的变异可通过难度调整进行“控制”，这样我们就会拥有一个“更加清晰”的预测技术的测量方法。这个道理很简单。譬如，一个气象预报员的工作，在亚利桑那（降水概率5%）比在俄勒冈（降水概率50%）要轻松得多。概率得分难度调整的温克勒（Winkler）方法[2]在预测中会将这些变异考虑进去，告诉我们在校准完各自作用的领域以后，各个群体之间的差异表现是否依然存在。我们将温克勒原始的难度调整方程稍许改动，如下：

式中，S*（p）是专家预测的技巧得分，S（p）是基于二次得分法则的专家概率得分，S（b）是基于基准率的专家概率得分。T（b）作为分母，其值取决于预测值与基准率的比较所产生的大小［如果预测值大于或者等于基准率就取（1-b）2，反之取b2］。得分0表明预测者对世界未来的状态一无所知，因此我们不能从过去状态的基准率大致总结中得到哪怕是一丁点的提示。譬如，一个在菲尼克斯的天气预报员有很大的可能性会得到完美概率得分（近乎为0，更具体的是0.0025），但是如果其基准预测——注意到当地的阳光天气是95%——也如此的话，其技巧得分就为0，即此时S*（p）=（0.0025-0.0025）/Tb=0。不难知道高的技巧得分会更好一些。相应地，一个在波特兰的同行也有相同的概率得分，同为0.0025。但是此时基准预测——注意到当地的阳光天气是50%——的概率得分低到0.25的话，其技巧得分要好一些。此时Tb取相对要小的值，因为预测者为了在波特兰这个高方差的环境中得到较好的概率得分，不得不在基准率和正确方向上作出一些偏移。

当基准率趋向于极端情况时，任何人都会对未来有清晰的认识，预测很少出现的情况不会发现，经常出现的情况会发生，有关这一点难度调整都考虑进去了。为了让专家能有超过可预测的有效基准率的动力，我们需要降低两种情形下——孤立无援和较低基准率的事件没有出现而过高估计——的惩罚值。反之，在两种情形下——无意中利用基准率和在对较低基准率的事件确实出现的过低估计——都增加其惩罚值。难度调整得分就是起上述作用。图附—3标示出关于事件发生与否的难度调整得分曲线总会相交，并且交点的横坐标恰好就是基准率，纵坐标为0。实际上，“如果你告诉我们的事情，并没有超过我们从基准率所观察到的，你就应该得0分”。得分曲线在偏离基准率环境下的相交点处的尖点有两个目的：一是它惩罚那些错失不寻常结果的专家，因为他们依据基准率预测（因此对于那些很少发生的事件却发生了而赋值近乎为0的专家们，以及那些经常发生的事件却没有发生而赋值为1.0的专家们，尖点以斜坡形滑入负面区域）；二是奖励那些有勇气以高于基准率的概率赋予不寻常事件但发生的事件的专家们，以及以低于基准率的概率赋予寻常的但却没有发生的事件的专家们（因此，与依据基准率预测成功预测的专家们的曲线相比，这些专家的曲线上升到正面区域要相对容易得多）。

在二分情形下去计算技巧得分，S*（p）的计算式采取以下特定形式：

图附—3还表明在所有可能值的范围内，主观概率预测值是怎样转换成难度调整预测技巧的。最容易的环境是类似第一和第三个面板中这两种极端基准率。特定的结果发生的概率为10%或者90%。最困难的环境是第二个面板，此时基准率没有能提供任何有用的指导，因为在模棱两可的情况下，基准率是0.5。

图附—3

当目标事件发生或没有发生时，以及目标事件的基准率低（0.1）、中（0.5）或高（0.9）时，主观概率预测如何转换为难度调整后的预测得分。高得分代表着更好的表现，当预测不足极少发生的事件却发生了和预测过度常常发生的事件却没有发生时，得分急剧下降。

难度调整方程式将专家在各个不同难度环境下各自擅长领域的预测能力的比较都拉到一个水平线上。不管怎样，都有好的理由谨慎地来解释这些得分。首先，上述计分程序对一般挑战是公开的。通过积极鼓励专家们寻找超越案例预测基准率方法的规律，在自由寻找模式时，公式减少了施加在次优预测方式中的惩罚分值（有关概率匹配的讨论见第2章）。批评者可能反驳说，实际上，难度调整鼓励的这种特殊的推理类型，导致了耶鲁大学的本科生在猜测T型迷宫中哪一边有美味的小丸子时，还不如挪威的老鼠。

其次，上述难度调整得分对反对意见是开放性的。不像在放射性学科，对恶性肿瘤的基准率进行估计时什么是正确的参照人数是有共识的；而在政治观察家那里，统计概括（如果真存在的话）应用于什么方面存在着尖锐的对立。一部分原因在于有多种因素造成了这个结果，比如说政治观、文化观、经济实体；另一部分原因在于缺乏行之有效的法则来指导判断。

我们对冲我们的赌注。我们以前论述过一系列的难度调整，它反映了专家们作判断时哪一种基准率与特定的国家和时期最相关。例如在伊朗、朝鲜、巴基斯坦这些核扩散风险大约在33%的高风险国家，特别是在1988—1998年间，就需要通过限制参考人数来提高估计基准率。而在利比亚、埃及、巴西这些核扩散风险低于10%的国家，就需要通过扩大人数来降低基准率。第6章就是用基准率参数的不同变化值来评估难度调整的稳定性。

概率得分的分值调整

当预测者高估或低估维持现状、变得更坏和变得更好的结果时，分值调整可以使预测者因怀疑而获得不同的好处。无论何时，当一个预测者对一个不发生的事件赋值高于0时，预测过度（或“虚报”）就会出现。而预测不足（“漏报”）则发生在对一个发生的事件赋值低于1.0时。预测过度的数学公式为：

式中，pj是对第j类事件没有发生的预测，N0是所有没有发生的事件的数目。

类似地，预测不足的数学公式是：

式中，pj是对第j类事件发生的预测，N1是所有发生的事件的数目。我们探讨两种不同概率得分的分值调整方法：

（1）k方法（为了寻找主观概率与客观现实之间的最小差距而得到的单个值k）。

（2）“差分加权”（differential-weighting）法［在对a0与a1具有特定的数学约束框架内，探讨大幅度的调整预测过度（a0）和预测不足（a1）的误差所产生的广泛影响］。

前一种方法侧重给予预测者的怀疑无条件的好处：不管专家所犯的错误是有意无意，都将被看成是有目的性的。在这里，引入修正因子k，将主观概率与客观频率之间的差距进行平均以达到减小这个差距的效果。后一种方法需要研究者分辨出需要修正的偏移的方向以及程度（比方说，利用专家表述的避免错误最优先考虑的事），而不考虑专家实际所犯的错误。

k方法(https://www.daowen.com)

这种分值调整方法的表达式如下：

式中，PSj是第j类事件的概率得分，此时M个结果中必须要有一个发生；pi是对第i个结果的预测概率（概率估计）；ki是对第i个结果的分值调整；xi取决于第i个结果发生与否取1或0；M是对于一个给定的类别，所有可能发生的结果数目。

于是，显然有：

对ki进行微分

考虑第j类的总共M个可能结果。调整前的概率得分为：

将所有的N类情况相加，我们将有：

式中，pij是对第j类的第i个结果的预测概率（概率估计）；xi取决于第j类的第i个结果发生与否取1或0。

调整后的概率得分为：

然后对上述表达式进行微分，可求得函数在极小值时候的ki值：

因此，最佳分值调整方案为：对第l个结果，kl的值等于其平均预测值和基准率之间的差值。参数k利用不同于观测结果的平均值的总和来调整专家的概率估计。注意到此时这种方法会将单独预测值改变到大于1或者小于0，因此k方法的概率得分调整只能在综合层面进行解释。

例如，假设有三种可能的结果：维持现状（SQ）、变得更好（UP）、变得更坏（DOWN）。假设一个预测者对上述三种情况的预测概率分别为0.8、0.1、0.1，其基准率分别为0.5、0.25、0.25。

此时，调整值应为：

调整前的概率得分预期为：

调整后的概率得分预期为：

这种概率得分的分值调整方法告诉预测者，不管你是预测过度还是不足都没有关系，我们将会指出你的平均预测值与结果基准率之间的差异。这种分值调整对预测者在相同的方向和相同的程度上反复犯错有着很大的影响。

但可以理解的是，在多大程度上来应用上述调整方法还存在些争议。例如，一个人可能让步说“犯过正确的错误”，并将其运用到预测过度和不足的单独调整上，以修正每个方向上的平均误差。但这种让步太草率。一方面，它使破钟式的预测（经常犯同样的错误）看起来完美无损地被校准；另一方面，单独调整“会逃避预测问题”。他们求助于以下牵强附会的假设：预测者事先总是知道自己将犯哪些错误。因此，我们在这里选择单个，也就是一对多的预测调整，但是我们应该认识到其他人会通过把分值调整与具体的国家变量相结合的方法而达到更好的效果。

在前文中我们提到过概率得分能被分解成VI、CI和DI，同理，在利用k方法进行分值调整后，对于N个二分结果事件的概率得分也能被分解为：

式中，最后三项表达式分别对应VI、CI和DI。注意，调整前后的分解式中只有CI项出现参数k。因此k方法实际上是通过改进校准得分来改善概率得分的。

差分加权法

另外一种概率得分调整的方法可以避免k方法的逻辑悖论，主要是将预测过度（a0）和预测不足（a1）误差进行差分权重赋值：

式中，N0是那些没有发生事件的数目，N1是那些发生事件的数目，N=N0+N1。当a0=a1=1时，上述值就是以前的没有经过调整的概率得分。当a0和a1取不同值的时候，调整后的概率得分就很可能偏离原来的值，这取决于a0和a1之间的差距以及预测过度和预测不足误差之间的大小。

我们试验一些a0和a1的组合使之服从“约束函数”γ（a1，a0）。由于a0=a1=1也就是未经过调整的概率得分是一种特殊情况，所以点（1，1）必须落在这个方程的定义域内。所有其他的（a1，a0）也必须满足等式γ（a1，a0）=γ（1，1）。

例如，假设γ（a1，a0）=a1+a0，此时应该有γ（1，1）=2。因此所有满足a1+a0=2的点（a1，a0）都将被列出来。正如图附—4所表明的，我们还有其他两个约束函数γ（a1，a0）=a1a0和γ（a1，a0）=exp（a0）+exp（a1）。

回顾一下预测过度的定义：

同时也回顾一下预测不足的定义：

在图附—4中展示了新的a0和a1乘以预测过度和预测不足的不同结果。其中圆形区域表示未经调整的值，也就是a0=a1=1。

图附—4

应用于数据的三种分值调整函数：线性的、乘法的和自然对数的。每个函数都受圈中所列举的权重的限制。函数曲线下降时，他们逐级地减少分值以避免虚报（低值的a0）和逐级增加重要性以避免漏报（高值的a1）。函数在价值中立时相交。

a0和a1的约束区域多少有些任意性，但是如果我们遍历合理范围里面所有的（a1，a0）点，考察群体不同的预测技巧得到的结论相同，我们就有充足的理由来证明是预测技巧而非优先政策造成了这种差异性。

概率得分的概率权重调整

根据预期效用理论，概率估计在计算效用时往往采取简单的线性形式。而根据决策理论，概率估计在制定信念权重函数的时候，将复杂性引入到决策权重上去。[3]

根据第二种传统处理方法，我们根据主观概率的非线性特征发展出一种新的方法来调整概率得分。举例来说，前景理论假设概率权重函数的形成由心理的递减感应度决定，随着参考点的距离边际影响递减。用货币的结果表示，现状作为辨别收益和损失的唯一参考点，作为结果的分值函数是收益的凹函数和损失的凸函数。但是对于概率评估来说，有两个参考点：不可能点（即0点）和确定点（即1点）。在这里，递减感应度意味着权重函数在靠近零点时候是凹的，而靠近1点时候是凸的。也就是说概率估计的权重随着与0点和1点的距离逐渐地减小。除此以外，概率权重函数能帮助解释在阿莱斯悖论里面，将获奖的概率从0.99增加到1.0往往比相应从0.10增加到0.11的影响要大得多。

我们将此方程式直接用于概率p的预测，如下：

式中，0＜γ≤1。同时我们将调整后的主观概率预测值代入概率得分函数里面，就有：

［w（p，γ）-x］2

当γ=1时，调整预测值就等于原始值［w（p，γ）=p］，相应地，此时调整后的概率得分也就等于原始值。当γ趋近于0时，我们将所有的怀疑预测都当成增长等价物，此时主观概率的定义范围为0.1至0.9。换句话说，当γ趋近0的时候，在定义范围内的主观概率权重之间的差距急剧缩小。问题是，γ的极值点到底是怎样的？

最极端的心理学论据表明：（a）人们确实至少能够鉴别三种层次的主观概率：不可能（0）、确定（1），再就是一系列的都差不多相等的中间可能值。（b）在三分模式的预测任务中，很自然的默认概率权重赋予的最大不确定性是0.33，这也是指数LN3/LN2的理性值。更多修正的心理学论据允许人们在0到1连续的区间上，可以鉴别出不同层次的主观概率（见图附—5）。

图附—5

不同极端的γ值调整对概率得分的影响。极端γ值调整使S曲线的中间部分变平，它通过以下方式实现：将广义上界定的不确定区域（从0.1到0.9）中所有概率判断，彼此之间逐渐相等。y值调整越极端，处在概率标度的中间范围的概率得分就会变得对准确性越不敏感。反之，如果处于标度的两端，那么结果不可能或不可避免地变得对准确性越发敏感。

从这一点出发，正确的γ值可能等于累计前景理论中假设的在0.5到0.7之间，即能得到相似的函数形式。

这些概率权重调整后的总的效果体现在以下三方面：

（a）对做出正确判断的专家进行奖励，比如对预测赋值时没有掺杂以概率的附加说明，没有发生的事情赋值为零，发生的事情赋值为1.0。（b）对做出错误判断的专家进行惩罚，比如预测为0的事件最后发生，但是预测为1的事件没有发生。（c）把错误方向上的极端值的变动看作一个特别严重的错误，比如从1.0到0.8的变动就比0.8到0.6的变动会让预测看上去更不精确。

概率得分的争议调整

不管是否使用传统计分方式，还是调整式，或权重计分系统，我们的计算都依靠对整个世界状态的假设：x或者发生（此时取值为1）或者不发生（此时取值为0）。尽管我们尽力使陈述的预测都通过了洞知力测试，争议有时还是不可避免地伴随而来。不确定性体现在以下几方面：

（a）对鲜有报道的冲突中伤亡的估计。在1992至1997年间，尼日利亚、利比里亚或者刚果这些国家有多少人因教派暴力而丧生？

（b）在权力转交或斗争中谁真正掌权？如20世纪90年代初的伊朗，是哈塔米（Khatami）还是哈梅内伊（Khamenei）是真正的领导人？

（c）是否按照核能力分类？比方说1998年的朝鲜。

（d）政府官方在开支、债务和宏观经济上的表现的统计数据的真实性。为了符合加入欧洲货币联盟的《马斯特里赫特条约》中的标准，意大利政府是否在压缩政府财政上“造假账”？

（e）对待跨境冲突的态度。我们是否应该考虑俄罗斯对格鲁吉亚境内的阿布哈兹的分裂势力和俄罗斯人将车臣武装赶入格鲁吉亚的支持？

当看似可信的挑战出现后（一般认为发生几率为15%），我们需要重新计算概率得分以保证专家表现的结论不是武断做出的。这种争议性的调整包含估计准确性的上限和下限。下限估计表明如果我们根据群体预测的最大缺点而对现实进行分类，则该群体的表现有多么糟糕。上限估计正好相反，它表明如果一贯致力于根据群体优点进行分类，则该群体有多么好。值得注意的是，在下节我们会提出另外一种争议调整的方法，它以同样的方式操作，但称为模糊集调整，该方法需要修正我们对于必然事件和不可能事件的赋值，以达到：（a）不可能事件的赋值会上移而必然事件的赋值会下降；（b）变化的幅度与争议性挑战的频率和可信度成正比。

模糊集调整

最后一种概率得分调整方法更加激进，甚至具有后现代的特征：模糊集调整直接挑战概率得分的客观二分性的方法。模糊集测量模型的拥护者认为，将不确定的且连续的结果都强塞到完全确定的二分类别是一种严重的误导。该模型促使我们按照结果的本来面目对待它们：观察角度（正式承认不确定性，且对现实的赋值随着观察者的优势点的变化而变化）和程度的问题（正式承认这些结果的连续特征，对现实的赋值介于0至1之间，并且根据正确与否对预测打分以改变程度的级别）。[4]

然而，这种测量方法所面临的挑战却让人畏惧，但我们需要去度量到底哪种事件几乎要发生，需要弄清楚各种辩护方式（像在争议调整中提到的，不确定性超过了实际发生的事件）。尽管没有一个最终的答案，但是我们会提供一种临时性的解决方法，这就是采取严肃的态度对待预测者在事后所告知我们的，他们感觉到个人预测偏离现实有多远。就像在第4章提到的，预测者广征博引如下的一些论证（尽管未预料到的事件发生了，但是他们可能显得并没有那么错不可恕）：（a）他们最可能的结果几乎发生（几乎成功的辩护）；（b）结果仍有可能发生（适时脱离辩护）；（c）因为任何一个理性的人都无法预见到的外源性震荡，结果本该发生却没有发生（外源性震荡辩护）。

我们最初将模糊集调整简单地与预测者依靠的每个信念体系辩护成比例。假设预先将不发生的事件的概率赋值为0.9，这样未经过调整的概率得分就是：

（p-x）2=（0.9-0）2=0.81

预测者可能也会一种或一种以上的信念体系辩护。模糊集继续给怀疑的预测者一些好处。不同于将x赋值为0，我们会估计预测者群体（刺猬与狐狸）提供信念体系辩护的次数比，然后相应地调整现实的分类。比如说当预测者将不可能发生事件赋值0.9，30%的时间会辩护，因此相应的对现实分类值从0调高到0.3。故此时概率得分为：

（p-x）2=（0.9-0.3）2=0.36

相反，假设预测者将发生的事件的概率赋值为0，此时的概率得分为：

（p-x）2=（0-1）2=1

此时如果预测者认为x“几乎不会发生或者转瞬即逝”的发生次数在30%，则此时x=0.7，相应的概率得分为：

（p-x）2=（0-0.7）2=0.49

因此，在这里其实我们默认预测者会随时提供辩护，但是也可以用一个可信度权重来赋值辩护，从完全拒绝（此时为0）到完全接受（此时为1）。

在调整概率得分过程中，我们通过将可信度权重赋予辩护和提供辩护的频率来减小主观概率与客观现实之间的差距，其一般方程式为：

式中，“adj.”是“adjustment”（调整）的缩写，还有“E”是“Event”（事件）的缩写。

下面举例来说明：假设预测者对100个预测中的每一个的概率赋值为0.3，进一步假设事件的发生率为40%。在剩下的60个不可能事件中，预测者的信念体系辩护为20次也就是1/3的比例。如果我们将信念体系辩护的可信度权重定义为0的话，上式中分子的第一部分的计算表达式就为：

如果我们将信念体系辩护的权重定义为75%，也就是专家判断为真时的接受度为75%，那么这60个事件的表达式应为：

相反，事件的发生率为40%意味着预测者对这40个必然发生事件错误的估计为一个很低的概率（p＜1）。在这40个不可能事件中，预测者的信念体系辩护为10次也就是1/4的比例。同理，利用模糊集来调整概率得分表达式，我们可以将信念体系的可信度权重从0变化到1。当我们将信念体系辩护的可信度权重定义为0时，上式中分子的第二部分的计算表达式就为：

如果我们将信念体系辩护的权重定义为50%，也就是专家判断为真时的接受度为50%，那么这40个事件的表达式应为：

上面的例子是计算当pt=0.3时基于模糊集的概率得分调整的全过程。更一般的情况是，对于每一个pt=｛0，0.1，0.2，...，1｝的主观概率分类，我们可以根据事件发生与否将这些预测值分开。在每一个子类中，信念体系的辩护可以存在也可以不存在，然后我们可以对这些辩护的可信度权重有很大的空间进行选择。

下面我们提出基于模糊集调整的更加一般的过程。假设代表当事件发生时，第k个概率分类中的信念体系辩护次数百分比；代表当事件不发生时，第k个概率分类中的信念体系辩护次数百分比；代表当事件发生时，第k个概率分类的预测数目；代表当事件不发生时，第k个概率分类的预测数目。故概率得分表达式为：

至此，基于模糊集的调整已经应用于预测所提供多长时间的比例方向。但是很显然，预测者很少会使用几乎成功辩护来证明他们正确的时候是足够幸运的（其实他们的预测差点就出错）。为了回应这种反对意见，我们提出一个自修正因子去减少可信度权重，该函数定义如下：“专家们说某事近乎发生并最后预测正确的事件（赋值发生的事件为0.8、0.9或1.0，不发生的事件为0.0、0.1或0.2）百分比”除以“专家们说某事近乎发生并最后预测错误的事件（赋值发生的事件为0.0、0.1或0.2，不发生的事件为0.8、0.9或1.0）百分比”。该比值越小，表明我们赋予该信念体系辩护的可信度权重值越低。

概率得分调整的总结

预测技巧的评估依靠于外部世界（事件的基准率和现实的归类）和预测者自身（他们的分值以及如何运用概率评估）的假设。这就是为什么我们在概率得分调整这个宽泛的范围里面，一直致力于检验如下结论的坚实性：在大量的概率得分调整中，狐狸具有较高的预测技巧。换一个问法就是：什么时候刺猬可以追上狐狸，以及原因是什么？

在现有的数据集里，并不容易产生追上狐狸的效果。但是如果使用蒙特卡洛模拟方法也许可能达到这个效果，即我们将把现有的数据集看成在预测环境和预测者反应方式两种基本的参数作用下宽阔的变化范围里面的一种特殊情形。这其中包括事件的基准率分布（维持现状、变得更好或更坏）、所有概率测量中预测者判断的答复的分布、预测者避免虚报或漏报时的分值优先性。

B篇：良好判断的逻辑一贯性和过程相关指标

本篇开始我们的焦点从检验判断的实证准确性，转到这些判断逻辑的可辩护性。除此之外，好判断还需要满足概率论中以下一些基本准则：

a.加法法则在定义任意两个互斥事件的概率值时满足：P（A∪B）=P（A）+P（B）。如果扩充到全空间就有P（A∪B）=P（A）+P（B）=1。在本篇的第Ⅰ和第Ⅱ部分中，我们将处理由于信念分拆效应而膨胀的主观概率、对不可能和必然性曲线的曲解，以及对违背该法则的描述。

b.乘法法则在定义两个独立事件的联合概率时满足：P（A∩B）=P（A）P（B）。更一般的情况是，如果考虑事件的不独立的可能性将有：P（A∩B）=P（A/B）P（B）=P（B/A）P（A）。在本节的第Ⅲ部分中，我们将处理由于情景效应而膨胀的主观概率值，以及对违背该法则的描述。

c.贝叶斯定理告诉我们，如果结果D的发生仅取决于两个互相排斥的事件，即假设H和～H，那么有恒等式：P（D）=P（D/H）P（H）+P（D/～H）P（～H）。在本篇的第Ⅳ部分中，我们将处理人们对真实结果发生的似然性和那些用全公式得到的数值之间的自我中心差距，以及对违背该法则的描述。

d.贝叶斯定理进一步告诉我们，假设H基于结果D的概率表达式为：

贝叶斯定理表明在已知结果D会出现的前提下，人们应该对上述两种假设的相对有效性保有多少信心。这个自信度函数变量为每个假设为真的先验几率［即P（H）/P（～H）］，以及该事件在两个假设下的条件似然比（或“声誉投注”）［即P（D/H）/P（D/～H）］。记为：

在本节的第Ⅴ部分中，我们将处理信念更新失败情形（也就是无法尊崇声誉投注）以及对违背该法则的描述。

第Ⅰ部分：违背加法法则：信念分拆效应（第7章）

阿莫斯·特沃斯基的支持理论断言，人们在做“次可加性”判断时通常会违反加法法则。[5]支持理论认为一个假设A判断的似然性是人们对这个假设强度的单调函数s（A）。在只有一个假设是正确的前提下，假设A比B大的判断概率表达式P（A，B）为：

该理论还假设在将事件A（譬如，在棒球比赛中获胜）的描述分拆成不相交的两个元素A1∪A2（譬如以一分险胜，或一分以上获胜）后，一般都会增加其支持度。也就是说，和假设成分有关的支持度一定比各自两两不相交的支持度之和要小或相等，即：

s（A）≤s（A1）+s（A2）

式中，（A1，A2）是A的一个分割。心理学原理告诉我们，分拆总是提醒未分拆情况下我们会忽视的各种可能性及其证据。因此全集的判断似然性往往比各个成分之和小。就像在图附—6中所刻画的，分拆会将不规则的种类放大。

图附—6

在x轴上三种唯一和穷尽可能性的概率：A（0.1）、B（0.1）和C（0.8）。它展示了次可加性判断如何源于概率加权函数，该函数整合了递减敏感性原则，其中赋予事件的决策权重随着自然参考点（0和1.0）界限的距离急剧下降。譬如，A的概率0.1转换为决策权重w（0.1）；B也有一个概率0.1，如果仅就自身判断，收到的决策权重也为w（0.1），但是如果与A相加，就会出现w（0.2）-w（0.1）。当我们计算A或B（概率0.2）的似然性的决策权重时，结果w（0.2）要远小于w（0.1）+w（0.1）。同理，C有一个概率0.8，当我们仅从它自身判断，则转换为决策权重w（0.8）。但是当我们计算C或A，或者C或B（概率0.9）似然性的决策权重时，w（0.9）远小于w（0.8）+w（0.1）。

第Ⅱ部分：进一步违背加法法则——不可能和必然性曲线的分析框架

图7—8和图7—9表明鼓励观测者将反事实的概率分拆至渐近更特定的（容易想象到的）子概率后的概率判断的影响。两个不可能曲线之间的区域表明了随着时间推移，分拆在膨胀似然性判断时所起的作用。

在图7—8和图7—9中，点（xi，yi）由不可能曲线的分拆和无分拆数组成，其中xi是已有数据，而yi是主观概率。无分拆的不可能曲线也就是那些反现实的概率判断，可以被一个低阶的多项式时间函数很好地模拟：

f无分拆=-1.6294x3+5.7373x2-7.0071x+3.6173

而有分拆的不可能曲线也就是那些反现实的概率判断，可以被一个高阶的多项式时间函数很好地模拟：

在对上述两个单独的函数模拟完后，我们就利用积分来计算各自区域的面积：

为了得到阴影区域的面积，只需要简单计算这两个区域的面积差即可。

第Ⅲ部分：违背乘法法则——情景效应（第7章）

无论我们何时利用事件之间的偶然联系（比如说事件A可能导致B，同时B可能引出事件C）来设计情景，都需要警惕人们总是不那么充分地考虑一个可能性，那就是哪个整体的似然性降低得更快一些。

图附—7说明了当人们想要用逻辑一贯性的方式来判断加拿大未来情景时，人们需要满足的逻辑约束条件的数目。当然，就像第7章所述，这些约束条件总是被忽略，以至于人们对那些低层分支的概率赋值时总比本身应有的要大很多。例如当事件A、B、C独立的时候，最底层最左边节点的概率值应该等于P（A1）P（B1）P（C1）。即当每个事件的发生概率为0.7时，这三个的联合似然性为0.73=0.343。在事件A、B、C之间有相关性时，上述概率值会变小，但是通常还是会比多重输出概率值的预测估计值要大。因此，在网状结果中就会违背加法法则，更具体说是次可加性。例如：

第Ⅳ部分：违背事件概率值的定义（第4章）

在前面方程里提到的违背事件概率值定义是因为观察者总是将P（A）简单地看成和P（A|B）一样，这其中A代表专家最有可能的未来，B代表专家有关事件根本力量方面他们最喜欢的可用的假设。这个结果其实是一个自我中心差距，其中观察者坚持将那些他们最有可能的未来［P（A）］的似然性赋值更大，而考虑一些相关因子以后反而要小些，因为如果仔细考虑，那些他们最喜欢的假设［P（B）］有可能是错误的。

图附—7

图附—8中的倾斜直线强调了可以修复这个差距大小的两个因子：两个极端比率。一个是先验几率比，一个是似然比。前者是专家们对偏爱的假设（与证明为真的根本力量相关）的主观概率估计［P（H）］，除以那些最有影响力的可选假设证明为真时的估计［P（～H）］；后者是当专家最偏爱的假设为真的前提下，那些最有可能的未来发生的主观概率［P（D|H）］，除以在其对立的假设是真的前提下，那些最有可能的未来发生的主观概率［P（D|～H）］。

图附—8

唯一源自P（D/H）的估计值P（D），产生的自我中心差距如何具有理论的潜在力，进而成为似然比（所有可能的分子值0.5、0.7及0.9和分母值0.1、0.3及0.5的结合，产生的比率从1∶1到9∶1），以及谨慎的先验几率［P（H）值从0.5到0.7到0.9，产生的几率从1∶1到9∶1］的极端函数。当专家给出极端的似然比判断和谨慎的先验几率判断时，两者差距具有加大的潜能。刺猬和狐狸自我中心差距最大的潜能值大致相当，自我中心差距的实际潜能值则揭示了狐狸比刺猬更少受该效应的影响。

图附—8表明：（a）当似然比P（D|H）/P（D|～H）增加至1以上时（反映渐增的声誉投注的信心），此时大的自我中心差距有着很大的潜能。这个数学上的必然性导致我们预期在更聪明进取的刺猬间的差距大于更谨慎的狐狸间的差距。通常狐狸的最有可能的似然比在2.3∶1左右徘徊，而刺猬的在3.2∶1左右。（b）当先验几率比P（H）/P（～H）从0.5增加至1.0时（反映个人世界观的正确性的信心逐渐增强），此时自我中心差距的潜在大小随着该比例而收缩。这个数学上的必然性导致我们预期在有自信的刺猬间的差距，比经常踌躇的狐狸间的差距要小一些。通常狐狸的先验几率比在2.2∶1左右徘徊，而刺猬的在3.1∶1左右。（c）抵消（a）和（b）的作用，再加上狐狸和刺猬在似然比和先验几率比之间的真实差距，意味着如果他们都依靠P（D|H）去估计P（D），那么对于真实的自我中心差距，狐狸的要比刺猬的稍大。图附—8还表明：（a）狐狸和刺猬的自我中心差距的预测值大致相等，也就是-0.16对-0.149。（b）狐狸的自我中心差距的真实值实际上没有刺猬的大，也就是-0.12对-0.07。因为“狐狸圈”要比“刺猬三角”上升得更快一些，所以上述结论成立，而且这个结论还与下面一个假设相一致：在判断最可能发生的未来的似然性时，狐狸更少可能依赖“只考虑自己的视角”的启发。

如果我们把第Ⅰ部分中专家在所有地区性的预测练习的真实值，替换为第Ⅱ部分中那些本来预测值（前提是在信誉更新练习的前面部分的自我中心差距为0），那么主观概率与客观现实之间的差距将会极大缩小，而且对“最有可能的未来”似然性的过高估计也会低一点。其中狐狸差距的缩小大约在18%，而刺猬大约在32%。而且两者之间的差距也会明显地缩小，但是仍然保持统计上的显著水平。

第Ⅴ部分：违背信念更新法则

我们依靠第一个时间段提出的声誉投注（也就是似然比）去评估，一个遵循贝叶斯定理的专家，在第二时间段内当他们最有可能的未来实现或没有实现时，改变主意的意愿有多强烈。

第4章提到的贝叶斯信念更新方程告诉我们，如果过去所想到的证据具有足够的证据力区分相互竞争的假设，那么当人们面对这些证据时，我们应该在多大程度上改变对这些竞争的假设的看法。图附—9表明，当新证据不管是中等的或者是有强烈诊断性时（例如似然比分别为0.6/0.4、0.8/0.2、0.95/0.05共三种情形），一个贝叶斯者应该增减自信的程度大小。当比例靠近1.0时，曲线随着越弱的证据上升得越缓慢。从一个低的基准出发（譬如说0.1）显然比一个高的基准（譬如说0.9，此时上限效应开始限制潜在的改变）有更大的上升空间。

但是在极端概率赋值情形下，比如对以前假设赋值为1或者极端自信，对其对立假设赋值为0或没有信心，该框架就会存在问题。因为在预测者宣称有不可动摇的自信时，其中的关键术语（如先验几率比例）就会变得不可定义。当这类问题出现的时候，我们用0.95/0.05作为代替值。

为了计算专家们实际多大程度上更新他们的信念和贝叶斯理论中提到的应该多大程度上更新之间的矛盾，下面有个直接的程序来解决。基于贝叶斯的信念改变分以下三步完成：第一，计算投注前的似然比。用专家对每一个情景的最初的条件似然性估计（其中假设专家对根本力量的理解是正确的），除以专家对同一个情景的估计（此时假设对根本力量的最有影响的可替代性观点的理解是正确的）。第二，计算先验几率比。用专家对根本力量的理解的主观概率，除以在这些根本力量中最有影响的对立观点的主观概率。第三，用先验几率比乘以对每个受访者预测的可诊断性比率来得到后验几率比，这个比率告诉了我们在已有证据的前提下，这两个假设的相对似然性。

就像模糊集调整支持预测者相信他们的预测几乎是正确的，并以此来“修正”他们的概率得分，同样过程在信念更新方程上也能做到。虽然在下面的情形中，该修正效果作用在似然比上。比如，我们可以允许一个声誉投注失败者调低似然比让其靠近单位1，以便使得投注的结果对任何观点的正确性有着微弱的影响。这个调整和预测者提供的信念体系辩护的频率成比例，也和预测者对这个辩护的可信度权重值成比例，也和预测者对该辩护给自己提供多少好处成比例。想象一个刚刚输掉声誉投注的预测者，他们早期预测的结果是，其对立观点为正确的可能性是其自身观点的3倍，这个3∶1的比例可以根据专家声称那些事件将会发生或者可能发生的频率成比例减少。因此当预测者在50%的时间内提供了辩护，并且我们对该声明的可信度为100%时，这个3∶1的比例可以减小一半。当专家面临声誉投注的得失时，倾向于提供更多的理由，如果我们根据这个“理由”成比例地对模糊集进行调整，前文所提到的被二分的原始似然比就会很快颠倒过来。如果专家在发现他们错误后要求模糊集调整的次数为9倍或者更多，那么专家们在似然比上获得的好处将会在原始50%减小的基础上再下降1/9，也就是减小5.5%。

图附—9

弱、强和极强（似然比从1.5∶1到4∶1到19∶1）的证据不断呈现对以前假设中最初赋予的低、中和高概率（从0.1到0.5到0.9）的信念更新的影响。在第15次尝试中信念间的交集最终出现，当相信以前假设强以及证据是可证明时这种出现更为迅速。

显然，在所有概率得分调整和贝叶斯信念更新指标中，基于模糊集的调整明显是最具有争议的。

最终思考

古语有云：“直到拥有得太多，你才知道已经足够。”我们已经将好判断的客观化推到接近效益递减点，再往前一步就会超过。当然，我们认识到，并不是所有的人都会做出相同的认识判断。一些读者会认为自己走得不够远（对提出辩护的预测者及其后现代的卫道士让步太多），而另外一些人则认为我们走得太远（主要呈现的是自命不凡的“唯科学主义”）。我们并没有掩饰分析方法的缺点或者抛弃看起来明显的错误：如果按照完美的标准来判断，我们的努力还远远不够。但是如果我们采取一种更加现实的标准，那么能否会变得更好：提出一种最初的框架，它能够在复杂的现实环境中使专家在作准确性的判断时不断汲取教训？这项研究只是抛砖引玉，而不是结束。

[1]A.H.Murphy and R.L.Winkler，“Probability Forecasts：A survey of National Weather Service Forecasters，”Bulletin of the American Meteorological Society 55（1974）：1449～53；Murphy，“Probability Forecasts.”

[2]R.Winkler，“Evaluating Probabilities：Asymmetric Scoring Rules，”Management Science 40（1994）：1395-1405.

[3]A.Tversky and D.Kahneman，“Advance in Project Theory：Cumulative Representation of Uncertainty，”Journal of Risk and Uncertainty 5（1992）：297-323；A.Tversky and C.R.Fox，“Weighting Risk and Uncertainty，”PsychologicalReview 102（1995）：269-83.

[4]C.Ragin，Fuzzy-set Social Science（Chicago：University of Chicago Press，2000）.

[5]A.Tversky and D.Koehler，“Support Theory：A Nonextensional Representation of Subjective Probability，”Psychological Review 101（1994）：547-67.