以下各章预览
本书的大量内容致力于确定专家是如何表现的,依据的标准是好判断的一致性和一贯性。
第2和第3章探讨了一致性指标。为了综合关于判断准确性的相关研究成果,我把导向性的假定分为两类:一类根源于激进怀疑论(radical skepticism),即把好判断等同于好运气;另一类根源于社会改善论(meliorism),即主张寻求好判断的预测指标和自我改善的方式,并不是堂吉诃德式的,并且思维方式的好和坏能够转换为判断的好和坏。
第2章介绍了激进怀疑论者和他们信奉反直觉信条的各种原因。他们的座右铭是,尽管我们经常说服自己相信人类生活在可以预测的世界上,但其实是在自我欺骗:历史说到底就是一件该死的事件接着另一件,如同光点上下任意浮动,但其主题缺少延续性。政治如同其他碰运气的游戏一样无法预测。在任何旋转的历史轮盘赌上,变化是随意性的,但愚蠢的人迷信变化是有规律的,并竭尽所能进行论证。但这些规律无法交叉验证。今天起作用,但明天就会让人失望。[36]
这里,有一个触及人类本性的信条:人类共同的需求,是相信生活在一个可以理解的、可以控制的世界上。[37]纯粹的激进怀疑论者要求我们相信,要真正地相信,当面临争议的政策选项供选择时——支持中国加入世界贸易组织,或轰炸巴格达和贝尔格莱德,或建立一个导弹防御基地——我们掷硬币做出的决定就像咨询专家的结果一样。[38]
第2章提出的证据来自地区性的预测性练习,它与揭露真相的视角一致。它追踪成百的专家有关几十个国家预测问题的准确性,这些问题涉及各方面,譬如向民主和资本主义国家的转型、经济增长、国家间暴力和核扩散。我们把专家们与最低预测经历的基准——譬如业余爱好者、掷飞镖的猩猩和组合推算法——互相对照,我们发现很少有证据表明专家们在“很好的校准度”或“鉴别度”的预测方面有超出其他几者的能力。
激进怀疑论者欢迎这些结果,但当我们开始发现“谁在什么方面预测正确”的模式存在一致性时,他们也感到困窘。激进怀疑论者告诉我们什么都不要指望(相伴的是下面的警告:即使我们掷的硬币足够多,最终也是毫无规律可言)。但从预测者以往预测记录的数据来看,他们远比称之为运气的,有更多的一致性。改善论根据这些发现认为,原始的人类,与猩猩相比,在好的判断上掩盖了系统的个体差异。
尽管改善论者同意怀疑论者在把好判断看作浮云方面走得太远,但在其他方面他们很难达成共识。在认知内容方面,改善论者把好判断等同于一种独特的世界观,但究竟哪一种观点接近或远离真理,他们为此争吵不休。在认知方式方面,改善论者并不把好判断等同于想什么,而是如何想,但他们却为哪种推理方式能够快速而直接(与综合和三思相对)强化或弱化判断而争论不止。
第3章验证了改善论的多种假定——多数没有获得支持。虽然专家有诸多差异——职业背景、地位,诸如此类——但在预测的准确性方面没有任何的差异。专家在想什么这一因素——他们是不是自由者或保守者、现实主义者或制度主义者、乐观主义者或悲观主义者——也同样如此。但这种探求是有成效的,并且与专家们如何思维——他们的推理方式——有极大的关系。第3章向读者们展示了根据一个大致的认知方式连续体划分专家的好处:一端是以赛亚·伯林所说的以刺猬为原型的思维方式;另一端是以狐狸为原型的思维方式。[39]刺猬式的思维方式是进取的,只知一件大事,在简约的名义下,寻求和扩大此事的解释力,以“掩盖”新的案例;狐狸式的思维方式更加折中,知道很多小事,与瞬息万变的世界保持同步,满足于根据时代找出合适的解决之道。
如果把地区性的预测练习看作感知世界的各种相互竞争策略之间的十项全能比赛,那么狐狸式的专家会全面胜过刺猬式的专家,但他们更享受在他们擅长的领域,以及在有关长远的预测练习中所取得的决定性胜利。对他们预测的解释所做的分析,显示了狐狸如何使这种认知方式让人惊讶。狐狸的自我批评、观点—对立观点的思维方式,避免了像刺猬尤其是见识多的刺猬所展示的对于他们的预测积累过多的热情。狐狸面对正反两方面的力量都比较敏感,会产生相对的平衡。结果,即使“预测过度”也很少偏离现状过多(无论是好的还是坏的)。但是狐狸对于过去的预测很少漫不经心,他们认识到许多平衡都是不稳定的,因此两面下注,使得任何事情很少作为“不可能”而被排除掉。
这些结果支持改善论胜过怀疑论,并且支持改善论中赞成复杂性的方面,即宣称狐狸所支持的尝试性的、平衡的思维方式具有适应性的优势[40],超过了赞成简单性的方面;而后者宣称刺猬所支持的自信的、决断的思维方式具有优越性。[41]这些结果教训了激进怀疑论者:他们用狂野的眼神暗示专家告诉我们的未来一无是处,没有超过我们从掷硬币或杀死山羊以观察其内脏以预测未来所学到的。温和的怀疑——怀疑改善论——仍然警惕自大的危险,但允许一种自我批评的、辩证的思维方式,这样让专家避免了犯大的错误,确保他们预测的准确性超过心智上过于丰富的同行们。
第4章叙述的重点由预测者是否预测准确转向他们是否改变他们的想法,就像他们犯错之后应该改变一样。以专家的声誉投注作为参照物,我们发现专家们,尤其是刺猬,在不准确的预测之后,在应该改变他们导向性的观念时要慢半拍。[42]第4章同样记述了在事实发生之后,专家们运用信念体系辩护以论证他们对声誉投注的重写,他们争辩道:尽管预测的事件没有发生,它最终……(为时尚早)或几乎发生,若是没有……(外在的出人意料的因素)。与预测成功归于好运气相比,预测失败归于坏运气被证明是一种非常流行的解释。
第5章详细讲述了如下的困境:与狐狸相比,刺猬在进行历史的反事实判断时更有可能运用双重标准。这种双重标准的困境本身就是双刃剑。首先,对于几乎成功的声明存在着选择性开放。第4章的研究已经表明刺猬只对几乎成功的观点开放,而与否定他们的观点绝缘(这就是“我几乎是对的”辩护)。相类似地,第5章显示了刺猬拒绝接受模糊的观点,这些观点会影响自己喜欢的历史经验教训(这就是“我几乎没有错”辩护)。其次,与狐狸相比,刺猬更少能够为思想转变测试的失败而道歉,与他们不赞成的证据相比,他们更少运用严苛的标准对待支持自己的证据。他们挑战性的态度是,“如果证据有利于我方,那么我获胜”,但是“如果证据有利于他方,那么方法肯定有问题”。
第4和5章强化了一种对证据道德剧式的阅读,明显地刻画了好人(敏捷的狐狸)和坏蛋(自以为是的刺猬)。第6章要求我们在做出最后判断前把辩护听完。该辩护从逻辑上反对事实的、道德的和形而上的假设,含蓄地声称“一个群体比另一个群体能做出更为准确的判断”,并以难度、分值、争议和模糊集测量规则调整为由要求补偿。该辩护也从心理上反对如下观点:没有适用于各种条件的单一的、最好的认知方式。[43]过于自信对于达到后人称赞为有远见的惊人的预测可能是关键的。但是大胆的却不断预测错误的刺猬如果在全垒打方面保持高的击中率,是可以原谅的,因为它是理性权衡的产品,而不是不顾及其他队友而被逐出队。两个层面的辩护能够产生部分的理性怀疑,但最终并不能免除刺猬所有的问题。他们在太多的问题上犯了太多的错误。
第6章突出了刺猬因对世界“闭合思维”而获得的一些好处,而第7章则详细列举了狐狸因“开放思维”而付出的一些代价。商业和政治领域的一些顾问常常运用情景训练,鼓励决策者放下戒心,想象平常不敢想的更多的可能性。[44]从有利的方面看,这些训练能够克制一些形式的过度自信,因为过度自信并不意味着成绩。从不利的方面看,这些训练促使专家——一旦他们打开可能的世界——会在太多的情景中设计太多的可能性。[45]开放思维没有什么值得炫耀的,譬如同意A事件的概率少于A和B事件的复合概率,或者x是不可避免的,但替代x的选择仍存在可能性。流行的开放思维看上去像过时的乱象,与闭合思维的刺猬相比,持开放思维的狐狸更容易受这种乱象的影响。
留给我们的故事更加忧郁。刺猬最主要的危险仍然是自大,因为闭合思维最大的问题是,太快地抛弃了与自己不一致的选择。狐狸也存在认知混乱的危险,过于开放的思维最大的问题是,看到太多的故事中太多的美德。好的判断现在逐渐变成元认知的技术——类似于“自我倾听的艺术”[46]。好的判断者需要与自己心灵的对话,在他们如何做决定时,以及是否支持打破权衡时,它发生在传统的开发—探索均衡的行为时,发生在利用已有的知识和探索新的可能性之间。
第8章展现了这项研究更为宽广的意蕴。从科学哲学的视角看,存在一个价值评估的问题,即评估这类练习到什么程度。我们无法做到把所有的主观性从好判断中清除出去,但通过以下几方面可以推进“客观化”的进程:发展好判断的有效的一致性和一贯性的测量,发现如何思维和如何测量之间的联系,通过测量调整确定这些联系之间的稳定性。从政策的角度来看,也存在一个价值评估问题,即用大家公认的已经证明的一致性和一贯性作为参照,评估公共讨论的质量。人们知道学者以往的记录越多,学者们通过提高自己产品的认知(真理的)价值来参与竞争的动机就越强,而不是仅仅去迎合与自己信念相同的群体。
以上是我的主要观点。像其他任何一位作者一样,我希望它们能够经得起时间的考验。即使刺猬在21世纪初期的每项预测的竞争中胜出,我也不愿意把这项研究看作失败的。实际上,本书解释了偶尔会出现相反结果的原因。只有在无法鼓动那些相信他们能够做得更好而进行后续研究的学者的情况下,本书才可以看作一种失败、一种死结。
[1]昆斯贝里侯爵规则,即英国侯爵昆斯贝里于1867年制定的拳击规则,3分钟为一回合,击倒10秒钟不起就失败。——译者注
[2]对于这些辩护狂热的肯定,参见W.Safire,“The New Groupthink,”New York Times,July 14,2004,A27。
[3]在对理性化的人类而不是理性动物的描绘者中,与古老如亚里士多德一样,新鲜如实验社会心理学家,参见Z.Kunda,Social Cognition:Making Sense of People(Boston:MIT Press,1999)。
[4]I.Berlin,“The Hedgehog and the Fox,”in The Proper Study of Mankind(New York:Farrar,Straus & Giroux,1997),436-98.伯林将这种区分——经伊拉斯谟(Erasmus)——追溯到2600年前,据当时记载,希腊历史的末期就已经有模糊的论述,论述者就是士兵兼诗人阿基洛克斯(Archilocus)。隐喻的含义随着时代而有所变化,但从没有偏离折中、狡猾(狐狸)和教条、顽固(刺猬)的含义。
[5]极端的相对主义者可能融合了人类学和认识论的方法。但是杰出的学者提出了强烈的“不可比较的观点”,声称朴素冲突的世界观所需的证据标准如此不同,导致相互间的理解是不可能的。有关这方面的论证和科学哲学方面的著作参见P.Feyerabend,Against Method:Outline of an Anarchistic Theory of Knowledge(London:Humanities Press,1975);道德理论方面的著作参见A.MacIntyre,Whose Justice?Which Rationality?(London:Duckworth,1988)。这些观点对于如何研究都有强有力的结论。我们应该采取没有判断的方法对它们进行判断,并且这种判断要受限于已整理的丰富多彩的民族志目录所列举的在不同的时间、地点流行的不同的观点。
[6]对这些观点很好的整理和精彩的分析,参见R.Jervis,Perception and Misperception in International Politics(Princeton,NJ:Princeton University Press,1976);R.E.Neustadt and E.R.May,Thinking in Time(New York:Free Press,1986);Y.Vertzberger,The World in Their Minds(Stanford,CA:Stanford University Press,1990);Y.F.Khong,Analogies at War(Princeton,NJ:Princeton University Press,1993);B.W.Jentleson,ed.,Opportunities Missed,Opportunities Seized:Preventive Diplomacy in the Post-Cold War World(Lanham,MD:Rowman & Littlefield,1999);F.I.Greenstein,The Presidential Difference:Leadership Styles from FDR to Clinton(New York:Free Press,2000);D.W.Larson and S.A.Renshon,Good Judgment in Foreign Policy(Lanham,MD:Rowman & Littlefield,2003)。
[7]D.McCullough,Truman(New York:Simon & Schuster,1992);B.J.Bernstein,“The Atomic Bombing Reconsidered,”Foreign Affairs 74(1995):147.
[8]D.Welch and J.Blight,“The Eleventh Hour of the Cuban Missile Crisis:An Introduction to the ExComm Tapes,”International Security 12(1987/88):5-92;S.Stern,“Source Material:The 1997 Published Transcripts of the JFK Cuban Missile Crisis Tapes:Too Good to be True?”Presidential Studies Quarterly 3(1997):586-93.
[9]J.Matlock,Autopsy on an Empire:the American Ambassador's Account of the Collapse of the Soviet Union(New York:Random House,1995);B.Farnham,“Perceiving the End of Threat:Ronald Reagan and the Gorbachev Revolution,”in Good Judgment in Foreign Policy,153-90.R.L.Garthoff,The Great Transition:American-Soviet Relations and the End of the Cold War(Washington,DC:Brookings Institution,1994).
[10]有关此案例的争论刚刚开始。但是“9·11”总统委员会已经列举出一个很有思想的框架对此加以引导(The 9/11 Commission Report.New York:Norton,2004)。
[11]有关一致性和一贯性标准在做判断时的基础地位参见K.Hammond,Human Judgment and Social Policy:Irreducible Uncertainty,Inevitable Error,Unavoidable Injustice(New York:Oxford University Press,1996)。
[12]这项研究提供了许多相互联结、交集的例证:我们的刺猬—狐狸式认知方式的测量对好判断指标的预测与其他地方运用相似的测量方法所进行的预测相似;对预测者对自己预测所做的解释进行的定性分析,与我们对狐狸的预测表现为什么优于刺猬所进行的定量分析一致;我们发现信念更新慢的专家,尤其是刺猬,与“认知保守主义”所进行的实验研究结果相一致。心理学家在这里将会看到结构验证的累进逻辑,参见D.T.Campbell and D.W.Fiske,“Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix,”Psychological Bulletin 56(1959):81-105。
[13]在好判断中我避免使用显示雄心抱负的概念,譬如,要求我判断决策者怎样技巧性地平衡各种因素,譬如决策质量(如果按照国家利益的概念判断,这项政策是最好的吗?)、可接受性(我们能推销出去这项政策吗?)和及时性(怎样把时间延迟的因素考虑进去?)[A.L.George,Presidential Decision-Making in Foreign Policy(Boulder,CO:Westview,1980)]。同样,我也绕开了如下的概念,即要求我判断决策者是否抓住了“问题的本质,理解了它的意义”或“考虑了所有的变量选择”(S.Renshon,“Psychological Sources of Good Judgment in Political Leaders,”in Good Judgment in Foreign Policy,25-57)。
[14]我的研究方法代表着一种剧烈的转变,由具体案例“独特”的知识(在具体的时间和地点中谁是正确的?),向更具普遍化或“法则研究的”知识(超越时间和地点的情况下谁会是正确的?)转变。如果读者们希望知道“休克疗法”或“墨西哥紧急援助”报道中谁的预测是正确的,那么可能会失望。但如果他们好奇于为什么一些观察者在所有的论题中极力保持一致性的更具现实性的概率,他们就应该持续关注。
[15]托马斯,耶稣的十二个门徒之一,怀疑耶稣复活,表示要摸到耶稣的伤口才相信主。后来耶稣展示了其伤口,托马斯遂宣告对耶稣的信心,耶稣也称他为信徒。——译者注
[16]多数法则是统计学中一项基本的原则,斯蒂格勒(Stigler)把它追溯到18世纪。他引用伯努利(Bernoulli)的话道:“即使最愚蠢的人,出于一些自然的本能……相信所做的观察越多,偏离某个目标的危险就越小。”泊松(Poisson)说:“万事万物服从于一个我们称之为多数原则的普遍规律……如果我们发现同一性质的事件中的多数,依赖于持续一致的原因和变化不规则的原则……那么我们会发现这些事件的数量的比率大致一致。”[S.Stigler,1986,The History of Statistics:The Measurement of Uncertainty Before 1900(Cambridge:Harvard University Press,1986),65,185.]
[17]我们的一致性测量聚集于未来,既不是现在也不是过去,因为我们怀疑在我们的样本中那些有经验的专家可能会犯普通的民众那样的低级的事实错误[参见D.Green,B.Palmquist,and E.Schickler,Partisan Hearts and Minds(New Haven,CT:Yale U-niversity Press,2002)]。初步的研究验证了这些怀疑。即使在我们的样本中那些最顽固的民主党人也知道里根时代通货膨胀下降,即使最顽固的共和党人也知道在克林顿时代财政赤字大幅下降。为了能够记录样本中存在的这些偏见,我们需要一种更加复杂的测量方法。
[18]对一致性测量很有思想性的讨论参见A.Kruglanski,Lay Epistemics and Human Knowledge(New York:Plenum Press,1989);D.A.Kenny,Interpersonal Perception(New York:Guilford Press,1994)。
[19]John Swets,Signal Detection Theory and ROC Analysis in Psychology and Diagnostics(Mahwah,NJ:Lawrence Erlbaum,1996).
[20]J.Swets,R.Dawes,and J.Monahan,“Psychological Science Can Improve Diagnostic Decisions,”Psychological Science in the Public Interest,1(2000):1-26。这些方面的心智练习会迫使我们对于坦率说出我们的优先性标准感到不舒服。我们是应该屈从于功利主义的诱惑,对生命的拯救是以战略性的核打击清除敌方领导的形式以迅速结束长期的战争,还是应该确定好的判断,拒绝支持权衡的禁忌,明智地认识到一些最好的事物留下来是不可思议的?参见P.E.Tetlock,O.Kristel,B.Elson,M.Green,and J.Lerner,(2000).“The Psychology of the Unthinkable:Taboo Trade-Offs,Forbidden Base Rates,and Heretical Counterfactuals,”Journal of Personality and Social Psychology,78(2000):853-70。
[21]许多研究考察了人们对不确定性的语言表达时不同的含义:W.Bruine de Bruin,B.Fischhoff,S.G.Millstein,and B.L.Felscher,“Verbal and Numerical Expressions of Probability:‘It's a Fifty-Fifty Chance’”Organizational Behavior and Human Decision Processes 81(2000):115-23。
[22]开拓性的工作集中在对天气的预测上,参见A.H.Murphy,“Scalar and Vector Partitions of the Probability Score,Part Ⅰ,Two-Stage Situation,”Journal of Applied Meteorology 11(1972):273-82;A.H.Murphy,“Scalar and Vector Partitions of the Probability Score,Part Ⅱ,N-State Situation,”Journal of Applied Meteorology 12(1972):595-600。延展性的阅读参见R.L.Winkler,“Evaluating Probabilities:Asymmetric Scoring Rules,”Management Science 40(1994):1395-1405。
[23]附加性的说明是关键的。专家知道得越多,通常越难发现那些通过洞知力测试的指标。譬如GDP的测量有许多方式(我们依赖购买力平价),国防支出也是如此。
[24]F.Suppe,The Structure of Scientific Theories(Chicago:University of Chicago Press,1973);S.Toulmin,Foresight and Understanding:An Inquiry into the Aims of Science(New York:Harper & Row,1963).
[25]C.Cerf,and V.S.Navasky.eds.,The Experts Speak:The Definitive Compendium of Authoritative Misinformation(New York:Pantheon Books,1984).
[26]A.Sen,Poverty and Famines(New York:Oxford University Printing House,1981).
[27]M.Feldstein,“Clinton's Revenue Mirage,”Wall Street Journal,April 6,1993,A14.
[28]参见Lester Thurow,Head to Head:The Coming Economic Battle among Japan,Europe,and America(New York:Murrow,1992)。
[29]L.Savage,The Foundations of Statistics(New York:Wiley,1954);W.Edwards,“The Theory of Decision Making,”Psychological Bulletin 51(1954):380-417.
[30]安排这样的投注很少需要创造性,即让违反者把理性最低限度的标准转变为钱的注入。然而人们往往在这样的问题上出错。参见A.Tversky,and D.Koehler,“Support Theory:A Nonextensional Representation of Subjective Probability,”Psychological Review 101(1994):547-67。
[31]P.E.Tetlock,“Theory-Driven Reasoning about Possible Pasts and Possible Futures,”American Journal of Political Science 43(1999):335-36.谢尔曼·肯特(Sherman Kent)——一位情报分析方面的典范——是把模糊的预感转变为准确的概率可能性的早期倡导者[S.Kent,Collected Essays(U.S.Government:Center for the Study of Intelligence,1970),http://www.cia.gov/csi/books/shermankent/toc.html]。
[32]有关奥利克与西蒙打赌的论述参见John Tierney,“Betting on the Planet,”New York Times Magazine,December 2,1990,52-53,74-81。(https://www.daowen.com)
[33]Suppe,The Structure of Scientific Theories;P.Laudan.Progress and Its Problems(Berkeley:University of California Press,1986).
[34]当探讨支撑对领导人好判断或坏判断的归因时,我们发现了怎样去依赖隐含的反事实。最简单的规则——“如果根据你的预测发生了……”——具有减少对反事实依赖的优势,但不利的方面是决策者必须对超出他们控制的结果负责。我们中的多数对预测的可能性都留有余地:(a)一些领导人做的所有事都是正确的,但因为坏运气导致失败;(b)其他领导人违反了所有的理性法则,但因为好的运气而获胜。
[35]David K.Lewis,Counterfactuals(Cambridge:Harvard University Press,1973).
[36]尽管失望到来的确切时间可能有所变化,因为黑或红在一个轮盘赌上旋转出现的概率应该与以前的旋转无关,但政治经济的结果却往往是相互依赖的。如果一个人错误地预言了一个“波兰的庇隆”的崛起,那么对不断猛涨的中央政府责任与GDP的比率、通货膨胀、腐败的评估等的预测也会是错误的。由于这种相互依赖,怀疑论者在预测时对谁和什么方面是正确的预测应该尽量保持一致。
[37]这里所说的激进怀疑论者与前面所讲的激进相对主义者不应混为一谈。激进怀疑论者从不怀疑所持的不同观点接受一致性和一贯性测试的可欲性和可行性;他们只是怀疑,当运用这些测试时,专家们可能用专业知识论证他们的观点。
[38]虽然一种观点因无法接受而该拒绝的理由很牵强,但它常常促使我们对证据设置门槛[P.E.Tetlock,“Political or Politicized Psychology:Is the Road to Scientific Hell Paved with Good Moral Intentions?”Political Psychology 15(1994):509-30]。
[39]Berlin,“The Hedgehog and the Fox.”
[40]对认知方式进行评论的文章参见P.Suedfeld,and P.E.Tetlock,“Cognitive styles,”in Blackwell International Handbook of Social Psychology:Intra-Individual Processes,vol.1,ed.A.Tesser and N.Schwartz(London:Blackwell,2000)。
[41]G.Gigerenzer and P.M.Todd,Simple Heuristics That Make Us Smart(New York:Oxford University Press,2000).
[42]H.J.Einhorn and R.M.Hogarth,“Prediction,Diagnosis and Causal Thinking in Forecasting,”Journal of Forecasting 1(1982):23-36.
[43]对这种观点展开性的论述参见P.E.Tetlock.R.S.Peterson,and J.M.Berry,Flattering and Unflattering Personality Portraits of Integratively Simple and Complex Managers,”Journal of Personality and Social Psychology 64(1993):500-511;P.E.Tetlock and A.Tyler,“Winston Churchill's Cognitive and Rhetorical Style,”Political Psychology 17(1996):149-70.P.E.Tetlock,D.Armor,and R.Peterson,“The Slavery Debate in Antebellum America:Cognitive Style,Value Conflict,and the Limits of Compromise,”Journal of Personality and Social Psychology 66(1994):115-26。
[44]Peter Schwarz.The Art of the Long View(New York:Doubleday.1991).
[45]关于用一个数学模型理解概率判断中的“分解”效应,参见A.Tversky and D.Koehler,“Support Theory:A Nonextensional Representation of Subjective Probability.”Psychological Review101(1994):547-67。
[46]H.Bloom,Shakespeare:The Invention of the Human(New York:Riverhead,1998).