边际预测效益递减假设

2026年07月27日

版权

边际预测效益递减假设

图2—5和图2—6支持了激进怀疑论的另一个有悖常理的预测。图2—5表明，所有的判断都失灵了。与业余爱好者相比，专家在他们自己的领域既没有更好的校准也没有更多的鉴别预测。而图2—6表明，在从0到1.0的主观概率尺度的每一级，专家和业余爱好者的校准曲线惊人地相似。在将现实的概率用于未来的预测时，在一个领域投入了几年艰苦研究的人就像从其他领域偶然闯入这个领域的同行一样吃力。

图2—6

专家和业余爱好者的表现相当，这样的案例很强有力。但是专家有几条可能的辩护阵线。一条是认为我们没有从这些专家中识别出“真正的专家”，如果界定专长时做更多的选择，我们将会发现它具有了真正的预测优势。但当我们对专业知识的程度和类型做出规范的区别时，该理由就站不住脚了。更多细致的统计比较也无法对校准和鉴别产生影响，这种校准和鉴别可以追溯至经验的积累（年资）或者专业知识的类型（学术性、政府部门或私人部门背景、机密情报可获得性、是否有博士学位，或者大学隶属状态）。当我们将预测的问题拆分为子类型的时候——短期与长期，稳定地区与混乱地区，国内政治、经济政策/表现，以及国家安全议题等，几乎没有迹象表明专业知识自身，或者体现专业知识程度指标的表现提高了。

图2—6（续）

第一个面板比较了几种类型的人类预测者的校准函数（在58个国家进行的长达14年的涉及几千次的预测中全面败北）。第二个面板比较了几种统计算法在同一结果变量上的校准函数。

第二条辩护阵线显得更有希望，它从鉴别超级专家转向提高所谓业余爱好者的地位。毕竟，这些业余爱好者自己也是专家——富有经验的专业人员，通晓任何通用的政治或经济理论，从而对他们的预测施加影响。他们唯一的劣势就是对世界上的某个特定区域的了解少了许多。尽管这样，这个劣势也会因大多数的爱好者通过精英的新闻渠道跟踪大范围的时事而有所减弱。

为了进一步弄清楚专家意见的边际预测效益递减点在哪里，以及我们在不削弱预测技巧的情况下沿着认知复杂性的阶梯能走多远，我们将专家与一群谦卑者（但仍旧属于人类），即伯克利的本科生作为参照。1992年，我们给心理学专业学生“小资料”（facts on file）的摘要，每个有三段长，呈现的是俄罗斯、印度、加拿大、南非和尼日利亚的政治、经济的基本信息。我们随后要求学生在结果变量的标准阵里面做出他们最好的猜测。结果使专家免遭进一步的尴尬。图2—5表明，无论是与专业内还是专业外的人员的工作相比，大学生在校准和鉴别上均略逊一筹。图2—6表明，大学生的校准曲线比专家或业余爱好者的曲线偏离完美校准的对角线更远（因此有更差的校准值）。

这些结果表明，尽管专业知识并不能使预测方面的表现有很大的提高，但并不是不相关。如果一个人坚持像人类而不是统计算法那样思考，试图逐项搞清楚支持一项或另一项结果的力量独特平衡的基础，那么像大学生这样只具备少量知识基础的情况是非常危险的。专业人员——专家和业余爱好者——拥有特别精密的方法帮助他们彻底地胜过大学生，同时避免羞辱性地大比分败给黑猩猩和概略外推法。超级精密的方法看起来将会限定在精明的读者周围，所读信息来自高质量的刊物，诸如《经济学人》（Economist）、《华尔街日报》（Wall Street Journal），以及《纽约时报》，这些刊物是业余爱好者最频繁提到的，以作为他们的专业领域之外信息的有用来源。

此时，专业知识的辩护者在概率得分框架内已经用完了他们所有的辩护，所以他们把所有的错误——向更好或更坏方向变化的预测过度或不足——看作相等的。为了进行这场科学的争论，他们必须表明，尽管专家犯了像业余爱好者一样多且大的“错误”——在这里更大的错误意味着在主观概率和客观频率之间更大的差距，但专家所犯的大多数是“正确的错误”，并且这些错误总与良好的政策依据相伴，比如“安全胜过遗憾”和“不要过于频繁地大喊‘狼来了’”，然而业余爱好者预测过度和不足都毫无章法。

不幸的是，该辩护中专家和业余爱好者有相似的错误量变曲线。他们都夸大了变坏的可能性。[48]这样的结果在23%的时间里存在，但是专家赋予的平均概率值为0.35，业余爱好者为0.29。他们都夸大了变好的可能性。这样的结果在28%的时间里存在，而专家赋予的平均主观概率值为0.34，业余爱好者为0.31。因此，通过互补的差额可以得出结论，专家和业余爱好者一定是低估了维持现状的可能性。

但是专家与业余爱好者、人类与黑猩猩的错误量变曲线并不完全相同。专家预测过度的变化要大大超过业余爱好者和黑猩猩的策略。因此，专家会通过概率得分的分值调整，享受不确定性所带来的各种好处，从而具有了弥补与其他两者差距的能力。技术附录展现了如何得到概率得分：（a）通过识别出总体上预测者最容易犯的错误；（b）通过求出k值，即根据主要错误平均大小的程度可以缩小主观概率和客观现实的差距（很大方地假定预测者的主要错误，总的来说是基于避免主要错误的情况下所犯正确的错误）。(https://www.daowen.com)

图2—7展现的是分值调整后的概率得分的影响。未调整的概率值是每个箭头的基点。这些得分是预测过度（赋予没有发生的事件以高概率值）和预测不足（赋予发生的事件以低概率值）的总和。因此更好的得分是向上和向右移动的。而具体案例的算法（A）未调整的得分又再一次落在了一个比人类得分（专家或者业余爱好者）要高的概率得分函数上，反过来，人类的未调整的得分落在了一个比黑猩猩要高的概率得分函数上。

图2—7

图2—7（续）

k值调整（程序）对专家（E）、业余爱好者（D）、黑猩猩（C）以及具体案例的算法（A）预测表现的影响，体现在三种不同的任务中：维持现状与变好或变坏相区分、变好与维持现状或变坏相区分、变坏与维持现状或变好相区分。

更长的箭头意味着更大的价值调整影响，每个箭头的尖端是分值调整后的概率得分。面板1表明，当我们集中于预测维持现状时（与变好或变坏形成对照），最优的分值分值调整以付出一些预测过度的代价来减少预测不足的“惩罚”。面板2表明，当我们集中于预测变好时，最优的分值调整以付出一些预测不足的代价来减少预测过度的“惩罚”。面板3表明，当我们集中于预测变坏时，最优的分值调整以付出一些预测不足的代价来减少对预测过度的“惩罚”。

差距的弥补是难以捉摸的，黑猩猩是调整的最大受益者，因为黑猩猩策略中长期的预期值犯错的概率最稳定（通常低估在高于33%的时间里发生的事件的概率，或者高估在低于33%的时间里发生的事件的概率）。因此调整使黑猩猩与人类大致相当。专家、业余爱好者和具体案例的外推算法受益较少，因为它们所犯错误混杂，在对向更好或更坏的变化预测时，预测不足或过度交替出现。

最终结果就是，一般来说，分值调整没有为专家，或者总体上来说的人类带来多大提高。当然，求助于分值调整依然有大量的理由。当前一轮的分值调整只适用于纠正一个预测者所犯的主要错误，也许并不适用于在预测变好或变坏时预测不足或过度审慎交替的情况。有人可能因此会支持进行更彻底（可以说是极度渴望）的分值调整，因为这样可以给质疑他们的错误是“正确的错误”的预测者更多的好处。因此与分值调整的这次碰撞不会是我们最后的一次。但是，对于在技术附录和第6章中所陈列的原因，我们应该小心：做分值调整时越慷慨，我们成为差预测辩护者的危险就越大。而归谬法就是，分值调整被裁减得如此精美，以至于无论我们犯了什么错误，我们都要坚持纠正它们。

限制性条件指明，在专家和业余爱好者间的始终如一的相同表现——甚至在分值调整后——表明了激进的怀疑论者是正确的，即我们令人不安地迅速到达了知识的边际效益预测递减点。