贝叶斯推理
全概率公式和贝叶斯公式
全概率公式
在概率统计学中,有全概率公式和贝叶斯公式。全概率公式用于计算多个原因性事件造成的结果事件的总概率。例如:
在一个城市中,有两家出租车公司。甲公司车辆占85%,乙公司占15%。根据记录知道,两公司司机被投诉的比率分别为5%和4%,现任意抽取一名司机,问他被投诉过的概率是多少?
这里,“被投诉”可以看作是“结果”,司机来自哪个公司可以看作是“原因”。这个问题涉及的事件比较复杂:这位司机可能是甲公司的,也可能是乙公司的,而两个公司的投诉率又不同。遇到这样的问题,就需要把复杂的事件分解为几个互斥的简单事件之和,在计算出各个简单事件的概率的基础上,再计算其总和,得出该复杂事件的概率。根据题意,可以将“司机被投诉过”这个事件分解为:(1)司机是甲公司且被投诉过;(2)司机是乙公司且被投诉过。将这两个事件的概率算出来,再求总和即可得到“司机被投诉过”的概率:
分别用H1表示抽到的司机属于甲公司,H2表示抽到的司机属于乙公司,用A表示“司机被投诉过”。用A∩H1、A∩H2分别表示“司机被投诉且是甲公司、乙公司的司机”,且A∩H1+A∩H2=A。根据题意可知:P(H1)=0.85,P(A|H1)=0.05,P(H2)=0.15,P(A|H2)=0.04。故
P(A∩H1)=P(H1)·P(A|H1)=0.85×0.05=0.042 5
P(A∩H2)=P(H2)·P(A|H2)=0.15×0.04=0.006 0
因此,任意抽取一名司机被投诉过的概率为
P(A)=P(A∩H1)+P(A∩H2)=0.042 5+0.006 0=0.048 5
以上计算公式可以推广到一般情况,即全概率公式:
如果事件组H1,H2,…,Hn为一完备事件组(即两两互斥,且组成基本空间Ω),则对于任一事件A都有

贝叶斯公式
全概率公式计算的是各种原因性事件(H1,H2,…,Hn)发生的条件下某结果性事件A发生的总概率。反过来,如果已知该事件A已经发生,各种“原因”发生的概率有多大?这就要用贝叶斯公式,亦称逆概率公式:
如果事件组H1,H2,…,Hn为一完备事件组(即两两互斥,且组成基本空间Ω),则对于任一事件A(P(A)≠0),有

可以看到,贝叶斯公式中的分母就是全概率公式。这样算出来的概率,就是以事件A为全集,各事件A∩Hi的发生比例。根据这个公式,可以将全概率公式中的问题反过来:从全体出租车司机中抽出一名司机,发现他被投诉过(结果性事件),问他是甲公司司机(原因性事件)的概率是多少?解答过程为:
已知司机抽自甲公司和乙公司的概率分别为P(H1)=0.85和P(H2)=0.15。根据贝叶斯公式,有

直觉性的贝叶斯推理
典型的贝叶斯推理任务
一个典型的贝叶斯推理任务,是乳腺癌问题:
参加常规X光透视检查的40岁妇女中,患乳腺癌的概率是1%。如果一个妇女患了乳腺癌,她的胸透片呈阳性的概率是80%。如果一个妇女没有患乳腺癌,她的胸透片呈阳性的概率是9.6%。现在,有一个40岁妇女,她的胸透片呈阳性,那么她实际患乳腺癌的概率有多少?
在实际生活中,经常会遇到这种根据结果性事件来判断其原因性事件的概率的问题,心理学家将这样的问题称为贝叶斯推理。心理学研究的贝叶斯推理一般是二元假设的模型,其公式习惯上表示为:

这是前文贝叶斯公式在两个原因性事件的情况下的书写形式,其中H和-H这两个原因性事件(或称为假设)互相排斥,并且构成了一个完全事件,A是指某一事件,与H,-H伴随发生。P(H)指假设H发生的概率,其值是预先给定的,习惯上称为基础概率。P(-H)指假设-H发生的概率(由于是二元假设,也可以指假设H不发生的概率),可知P(-H)=1-P(H)。P(A|H)是指假设H成立时事件A发生的概率;P(A|-H)是指假设H不成立,也就是-H成立时事件A发生的概率,P(A|H)和P(A|-H)的值也是已知的。P(H|A)指的是事件A发生时,假设H成立的概率,这是要通过公式求得的值。
在前面这个问题中,可以清楚地看到,H指的是患乳腺癌,A指的是胸透片呈阳性。题中P(H)、P(A|H)、P(A|-H)分别为1%、80%、9.6%,根据公式可以计算得到“胸透片呈阳性的妇女患乳腺癌”的概率P(H|A)为0.078,也就是7.8%。
20世纪60年代爱德华兹(W.Edwards)首先用实验方法研究人类推理是否遵循贝叶斯定理,最早研究的是基础比率受忽视的问题,到了20世纪90年代以来,心理学家开始对贝叶斯推理任务中信息表征的特点进行深入探讨。(https://www.daowen.com)
基础比率受忽视现象
特沃斯基和卡尼曼(Tversky&Kahneman,1974)在早期的概率推理研究中作出了突出贡献,他们介绍了一系列经典实验,其主要研究成果可概括为启发式与偏差(heuristics and bias)理论。他们认为直觉推理常常涉及一些独特的心理操作,他们把这些操作称为“判断启发式”。启发式通常是很有用的,但有时也会造成一些错误和偏差。例如,忽视基础比率的问题,在贝叶斯推理中表现得很突出。具体说来,就是被试进行直觉推理的时候,往往因为忽视低基础比率而作出远远高于标准答案的估计。除了特沃斯基和卡尼曼外,其他研究者也获得大量类似证据。例如埃迪(Eddy,1982)用上文提及的乳腺癌问题,让内科医生判断,结果95%的人判断介于70%~80%,这一值远远高于其标准答案7.8%。
对基础比率的过度强调
其实,基础比率并不总是被忽视的,有时也会出现过度强调基础比率的现象。泰根和克伦(Teigen&Keren,2007)曾要求被试回答以下问题:
弗雷德(Fred)每天乘坐巴士去上班。车站就在他家旁边,每个整点(即6点、7点和8点)发车。
根据长期的经验,他注意到,巴士每10班平均有1班会提前发车,平均有8班会晚0~10分钟,还有1班会晚点超过10分钟。
假设弗雷德在整点到达车站,等了10分钟也不见巴士到来,问原定于该整点发车的巴士还会来的概率是多大?
结果发现,大多数(63%)的回答是10%,其次(26%)是90%~100%,只有3%的回答是50%。
这个问题的正确答案正是50%。因为弗雷德在整点之后的10分钟内没有看到巴士,这就是说,这个整点的巴士要么早于整点开走了,要么还没有来。两个概率应该是相等的,各占50%。但是,被试似乎过于倚重题目中的基础比率(10%、80%和10%)。
自然频数理论
1995年,吉戈伦尔和霍夫雷格(Gigerenzer&Hoffrage,1995)发表了一篇后来被广泛引用的论文。该论文在分析了大量贝叶斯问题的解决结果后得出结论:使用自然频数格式时,贝叶斯推理比使用概率格式时计算起来要简单;信息以自然频数格式表征时,没有受过专门统计训练的被试用贝叶斯算法解决推理问题的比例上升到50%。
吉戈伦尔和霍夫雷格认为,在人们的直觉推理中,数学意义上等价的表征,可能会造成不一样的理解。要想知道人们是否能进行贝叶斯推理,是否掌握贝叶斯算法,就必须给人们正确的表征。他们认为,过去的研究中,被试之所以在贝叶斯推理任务中表现很差,是因为呈现给被试的信息是以概率形式表征的,而根据进化论的观点以及动物觅食的研究,自然频数才是适合人类思维的正确表征。
吉戈伦尔和霍夫雷格考虑了信息表征的两个方面:信息格式(information format)和信息菜单(information menu)。吉戈伦尔和霍夫雷格把信息格式分成三种类型:概率、自然频数、相对频数;把信息菜单也分为三种类型:标准菜单、混合菜单、短菜单。所谓菜单,是指信息分割的方式,也就是提供哪几项信息。信息格式和信息菜单这两个因素可以组合在一起,产生8种信息表征不同的贝叶斯任务(理论上应该是9种,不考虑频数格式和混合菜单的结合)。以乳腺癌问题为例,概率格式和标准菜单组合起来进行表征就构成前面的问题。这种组合提供的是1%、80%、9.6%这三项信息,分别对应着P(H)、P(A|H)和P(A|-H)。可以用以下公式计算:P(H|A)=P(H)P(A|H)/[P(H)P(A|H)+P(-H)P(A|-H)]=1%×80%/[1%×80%+(1-1%)×9.6%]=7.8%。
概率格式的短菜单提供P(A)和P(H∩A)。P(H∩A)指患乳腺癌且胸透呈阳性的概率,P(A)指胸透呈阳性的概率,包括患乳腺癌和不患乳腺癌两种情况下胸透呈阳性的概率。这种情况下可以用以下公式计算:P(H|A)=P(H∩A)/P(A)。
概率格式的混合菜单提供P(H)、P(A|H)和P(A)。这三项信息有两项来自标准菜单,有一项来自短菜单。可以用以下公式计算:P(H|A)=P(H)P(A|H)/P(A)。
自然频数格式下标准菜单的情况为:
自然频数格式,标准菜单
参加常规体检的40岁妇女每1 000个人有10个人得乳腺癌。患有乳腺癌的妇女每10个中有8个胸透呈阳性。没有患乳腺癌的妇女中每990个中有95个人的胸透呈阳性。现有一些40岁妇女在常规体检中胸透呈阳性。这些妇女中实际上会有多少人患了乳腺癌?
答:___中有____
可以看到,自然频数格式时,标准菜单提供的是10、8、95这三项信息,分别记为h、h&a和(-h&a)。可以用以下公式计算:P(H|A)=h&a/[h&a+(-h&a)],其中第一项信息h(10)并没有用到。
自然频数格式的短菜单提供的是8、103这两项信息,分别对应着h&a和a。可以用以下公式计算:P(H|A)=h&a/a。
再看相对频数的情况,其标准菜单表征如下:
相对频数格式,标准菜单
参加常规体检的40岁妇女中有1%的人患有乳腺癌。80%患乳腺癌的妇女其胸透呈阳性。9.6%没患乳腺癌的妇女胸透也呈阳性。这一组妇女中有一个人胸透呈阳性。她实际上得乳腺癌的概率是多少?
答:___%
相对频数格式和概率格式的表征方式十分相似,事实上,它们提供的信息、计算公式都完全一样。
吉戈伦尔和霍夫雷格得到的结果是:使用自然频数格式能使被试在直觉推理中更多地使用贝叶斯算法。从信息格式来说,采取概率格式和相对频数格式时,被试的成绩相等;采取自然频数格式时,被试的成绩最好,且提高的幅度很大。从信息菜单来说,采取自然频数格式时,菜单影响不大;采取概率格式和相对频数格式时,标准菜单、混合菜单、短菜单三种情况下,被试的成绩依次成倍上升。被试在直觉推理中不能正确使用贝叶斯算法,是因为没有得到恰当的信息表征,而自然频数就是一种恰当的信息表征。
吉戈伦尔和霍夫雷格提出的自然频数表征的作用是非常引人注目的,但是与特沃斯基和卡尼曼的启发式与偏差理论一样,自然频数理论也引发了众多争议和研究,这些研究都围绕着贝叶斯推理中的信息表征问题展开,并且大多怀疑频数的作用。他们从不同的角度出发提出不同的表征方式,都在一定程度上说明:在某些情况下,无论是频数格式还是概率格式,被试在贝叶斯推理任务中都能取得好的成绩;而在某些情况下,即使是使用了频数格式,被试的成绩也不理想甚至很差。