计算概率

计算概率

这样的扩散只是把有关概率的统计定律应用于分子运动问题的一个简单例子。下面,我们再来详细了解一下如何计算不同的简单或复杂事件的概率,然后,我们会做进一步的讨论,尝试介绍相当重要的熵定律。熵定律掌管着一切物质的热行为,不论是微小的液滴,还是恒星组成的巨大宇宙。

目前为止,最简单的概率问题就是掷硬币了。大家都知道,只要不作弊,掷出正面或反面的概率是一样的。在数学上,我们通常称这样的概率为五五分。把掷出正面和掷出反面的机会相加,即。概率论中相加得1意味着确定性。掷硬币时,你完全能确定,掷出的不是正面就是反面,除非它滚到沙发底下,无处可寻。

现在,请连续掷一枚硬币两次,或同时掷两枚硬币(这两种情况是一样的)。不难看出,这里一共有4种不同的可能性,如图8-7所示。

图8-7 掷两枚硬币的四种可能的组合

第一种情况,两次都是正面,最后一种情况,两次都是反面,中间两种情况其实是一样的,因为正反面出现的前后顺序(或哪枚正面,哪枚反面)并不重要。因此你可以说,得出两次正面的机会是,得出两次反面的机会也是,得出一正一反的机会是,即。而,这里又出现了相加得1的情况,也就是说,不管你怎么掷,都逃不出这三种组合。现在再来看掷3枚硬币的情况。以下总结了全部的8种可能:

第一枚 正 正 正 正 反 反 反 反

第二枚 正 正 反 反 正 正 反 反

第三枚 正 反 正 反 正 反 正 反

由上可以看出,掷出三次正面的几率是,掷出三次反面的概率也是剩下的概率被两正一反和一正两反平分,各得

不同可能性的数量增长得很快,但我们还可以再进一步,看看掷4枚硬币的情况。这一次,我们能得出以下16种可能性:

第一枚 正 正 正 正 正 正 正 正 反 反 反 反 反 反 反 反

第二枚 正 正 正 正 反 反 反 反 正 正 正 正 反 反 反 反

第三枚 正 正 反 反 正 正 反 反 正 正 反 反 正 正 反 反

第四枚 正 反 正 反 正 反 正 反 正 反 正 反 正 反 正 反

在这里,掷出四次正面的概率为,掷出四次反面的概率也一样。三正一反或三反一正的概率均为,即,正反数量相等的概率为,即

继续增加掷硬币的次数,得出的可能性会越来越多,很快,你的纸张就不够用了。比如,掷10次时,会有1 024种不同的可能(即2×2×2×2×2×2×2×2×2×2)。但完全没必要罗列出这些长长的数据,我们可以从上述简单的例子中总结出简单的概率法则,再将它们直接应用于更复杂的情况即可。

首先,两次掷得正面的概率等于第一次和第二次抛掷中分别掷得正面的概率的乘积,即。同样,连续掷得三次或四次正面的概率也是在每次抛掷中获得正面概率的乘积,即。如此,如果有人问你,掷10次硬币,每次都掷得正面的概率有多大,你只需将10个相乘,答案就出来了。结果是0.000 98,概率非常低,只有千分之一!这就是“概率相乘”法则,具体来说,当你想要几件不同的东西,可以通过将分别获得每一件东西的数学概率相乘,即可算出总的数学概率。如果你想要很多东西,而每件东西都很难到手,那么你获得所有这些东西的概率就会小得令人灰心!

此外,还有一个“概率相加”法则:如果你想要的只是几件东西中的一件(不论哪一件),那么你如愿的数学概率就是获得清单中各件东西的数学概率之和。

我们可以来看掷两次硬币得一正一反的例子。这种情况对应的就是“先正后反”或“先反后正”。而不管哪一种,概率都是,而得到其中任一种的概率就是。也就是说,如果你想要“这个,和这个,和这个……”,就把各个单项的概率相乘,但如果你想要“这个,或这个,或这个……”,就把各个单项的概率相加。

前一种什么都要的情况,你要的东西越多,全部得到的概率就越小;而后一种在一堆东西里只取一种的情况,你的选择清单越长,如愿的机会就越大。

试的次数越多,概率定律就越准确,关于这一点,掷硬币的实验正是一个很好的例子。图8-8显示了掷两次、三次、四次、十次和一百次硬币时不同的正反面比例的概率。你会看到,随着掷硬币次数的增加,概率曲线会越来越尖,正反面五五分的概率会越来越高。

图8-8 正反面的相对数量

由图8-8可见,在掷两次、三次乃至四次的情况下,全部掷出正面或反面的概率还是挺大的,但在掷10次的情况下,仅掷出正面或反面的概率已经小之又小;而次数更多的时候,比如掷100次或1 000次,概率曲线会尖得像针一样,在实际操作中,哪怕与五五分的比例稍微偏离少许都是几乎不可能的。

现在,让我们用刚刚学到的概率计算的简单法则,判断一下在一种著名的扑克游戏中,遇到五张牌的各种组合的相对概率。

你可能不了解这种玩法,我先说一下规则:每位玩家摸5张牌,获得最高分组合的玩家赢。在这里,我们不考虑一些额外的复杂问题,比如换牌,以期获得更好的组合;或虚张声势,使对手相信自己摸了一手好牌,让对手主动认输,这是一种心理攻势。其实,虚张声势才是这种玩法的重点,也因此丹麦物理学家尼尔斯·玻尔(Niels Bohr)曾提议一种全新玩法,完全不必使用纸牌,玩家只需相互吹嘘自己手中的组合即可,不过这已经完全超出了概率演算的范畴,成了纯心理学问题。

我们来做一些概率演算的练习,计算一下某些组合出现的概率。其中一种组合叫作“同花”,即5张牌同属一种花色(图8-9)。

图8-9 黑桃同花

想要一把同花,第一张牌的花色不重要,我们只需计算另外四张牌为同一花色的概率即可。一副牌共有52张,每种花色有13张[4],因此,摸完第一张后,还剩12张相同花色的牌。那么第二张牌还是相同花色的几率为。同样,第三、第四和第五张牌为相同花色的概率分别为。既然你想要所有5张牌都是同一花色,这里要采用的是概率乘法。即

但不要以为摸500次牌,一定会摸到一次同花。你可能一次也摸不到,也可能摸到两次。这里算的只是概率,你可能连摸500手,也摸不到一手想要的同花,你也可能第一手就如愿以偿。通过概率论,只能知道你在500手牌中有可能摸到一手同花。通过相同的计算方法,你也能了解到,每摸3 000万次牌,你大概有机会摸到10次5张A(包括王牌)。

“三带二”是另一种组合形式,更少见,也更有价值,被称为“全手牌”(full hand),更常称“满堂红”(full house)。“三带二”,顾名思义,由三张一样点数的牌和另外两张一样点数的牌组成,比如图8-10中的两张5和三张Q。

图8-10 三带二

要摸一手“三带二”,前两张牌不重要,重要的是后面三张,其中两张要和前两张中的一张点数一样,剩下那张要和前两张中的另一张点数一样。摸完两张牌后,还有6张牌符合要求(比如前两张是一张Q和一张5,那么剩下的牌里还有3张Q和3张5),因此,第三张牌符合要求的概率即6/50。以此类推,第四张牌符合要求的概率为5/49,第五张牌符合要求的概率是4/48。综上,摸到一手三带二的总概率为:

大约为摸到同花概率的一半。

通过类似的方式,我们还可以计算其他组合的概率,例如“顺子”(一手点数顺连的牌),我们也可以把其他因素考虑进来,比如加入王牌或允许换牌带来的更多可能性。

从这些计算可以看出,扑克游戏中牌的好坏都是与数学概率的高低相呼应的。至于这样的安排是基于某个古代数学家的提议,还是纯粹建立在全球千百万在光鲜的沙龙或阴暗的赌档里的赌徒们的真金白银之上,作者不得而知。如果情况是后者,那我们必须说这是一份非常好的关于复杂问题相对概率的统计学研究!

“生日重合”问题是另一个有趣的概率运算问题,这个问题的答案也很出人意料。你有没有同一天收到过两个生日聚会的邀请?你可能会说,邀请重合的机会很小,因为你大约只有24个朋友会邀请你出席他们的生日聚会,而一年有365天。既然有这么多日子可供选择,你的24个好朋友中有两人在同一天过生日的概率想必小之又小。

但是,你的判断完全是错的,虽然听起来难以置信,但事实是,在24人里,有一对甚至几对生日重合的可能性相当高。实际上,有重合的概率甚至高过没有重合的概率。

要证明这一点,你可以登记24个人的生日看一看,或者找一本名人录,随意列出其中24个人的生日,对照一下。或者,我们也可以诉诸上文的掷硬币和扑克问题中使用的简单概率演算法则,算出相应的概率来。

我们可以尝试计算一下24个人的生日都不相同的概率。先来问一下他们当中第一个人的生日。当然,这个日子可以是一年365天中的任何一天。然后请思考一下,第二个人的生日与第一个人不同的概率有多大呢?我们知道,第二个人也可能在一年中的任何一天出生,在其中一天,他的生日会跟第一个人的生日相同,而在另外364天,两人的生日都会不一样,也就是说,两人生日不一样的概率为。同样,第三个人的出生日期与前两个人都不同的概率为,因为有两天已经被占了。以此类推,接下来的人的出生日期与前面的人不同的概率分别是:,一直到最后一个人的概率:

,即

既然我们想知道存在一组生日重合的概率,我们要先将上述分式相乘,算出所有人生日都不相同的概率为:

通过高等数学的方法,我们可以在几分钟内得出上述乘积,即便不会高等数学,也可以直接通过两两相乘计算出来,[5]这也花不了太多时间。结果为0.46,这意味着生日完全不重合的概率略小于一半。换句话说,在你的这24位朋友中,没有人生日重合的概率只有46%,而有两个或更多朋友生日重合的概率为54%。因此,如果你有25个或更多的朋友,但却从未在同一天收到过两个生日聚会的邀请,那么很有可能你的多数朋友都不举行生日聚会,或者他们没邀请你!

生日重合问题给我们提了个醒,在判断复杂事件的概率时,想当然是会犯大错的。我本人曾向很多人提出这个问题,包括许多著名科学家,除其中一位外,其余所有人都信誓旦旦地给出了从2:1到15:1的赌注,认为这种重合不会发生。如果那位回答正确的人接受了所有这些赌注,他应该已经发财了!

必须一再强调:哪怕我们能根据上述法则算出不同事件的概率,并找出概率最高的可能性,但这绝不意味着,这个可能性就一定会发生。除非把试验重复数千遍,数百万遍,乃至数十亿遍(越多越好),否则,我们的预测结果仅仅是“可能”,而绝不是“确定”。在试验数量相对较少时,概率法则的效力是很有限的。例如,将统计分析应用于解密时,只能尝试破解相对较长的密文。让我们来检视一下爱伦·坡(Edgar Allan Poe)在其著名小说《金甲虫》中描述的著名案例。书中的勒格朗先生在南卡罗来纳州一处荒凉的海滩漫步,捡到一张半埋在沙中的羊皮纸。勒格朗先生将羊皮纸带回了其位于海边的小屋,屋里燃着炉火,很温暖,羊皮纸上显现了一些用墨水写的神秘符号,这些符号在温度低时是看不见的,加热后会变红从而变得清晰可见。其中画着一具骷髅头,说明它出自海盗之手,还有一个山羊头,这证明那位海盗不是别人,正是著名的基德船长,另有几行印刷字体符号,显然指示着宝藏的下落(见图 8-11 )。

图8-11 基德船长的手稿

我们不妨尊重爱伦·坡的权威,设定17世纪的海盗熟识分号和引号等印刷符号,也熟悉诸如‡、†、¶之类的符号。

急需用钱的勒格朗先生绞尽脑汁想要破解这段密文,他最终根据英语中不同字母出现的相对频率,完成了破解。他的方法基于这样一个事实:找来任意一份英语文本,不论是莎士比亚的十四行诗还是埃德加·华莱士的推理小说,数一数其中不同字母的数量,你会发现字母“e”出现的次数总是遥遥领先。接下来最常用字母的顺序如下:

a、o、i、d、h、n、r、s、t、u、y、c、f、g、l、m、w、b、k、p、q、x、z。

勒格朗先生数了数基德船长密码中不同符号出现的次数,他发现出现次数最多的符号是数字8。“啊哈,”他说,“这表示8最有可能代表字母e。”

好吧,他猜对了。当然,他当时并没有把握,只觉得这种可能性很大。事实上,如果那段密码写的是:“You will find a lot of gold and coins in an iron box in woods two thousand yards south from an old hut on Bird Island’s north tip”(你会在伯德岛北端的一间旧屋以南两千码处森林中的铁箱内找到大量的金子和硬币)。里面可一个“e”也没有!但好在勒格朗先生运气不错,他猜的是对的。

第一个字母猜对了,勒格朗先生信心满满,他开始计算其余字符出现的频率。表8-1中,我们根据频率高低,列出了基德船长密文中的字符:

表8-1

第三列是根据英语中出现频率高低排列的字母。因此可以合理假设,第一列中列出的符号对应着第三列中的字母。但替换后,我们发现基德船长的密文开头变成了:ngiiugynddrhaoefr…

毫无意义!

怎么回事?难道那位老海盗心机太深,使用了一些与英语普通文本中出现频率不同的特殊词吗?并非如此。只是因为这段密文太短了,其中字母出现的频率高低不足以呼应普通文本中的字母频率。如果基德船长写下一篇长文详细介绍藏宝地,甚至写下一整本书,那么勒格朗先生将更有希望利用这种频率对应的方式破解密文。

掷一百次硬币,你或许能确定掷出正面的次数约为50次,但只掷4次的话,很可能掷出3次正面,1次反面,或3次反面,1次正面。概率定律作为一种规则,只有试的次数越多,才会越准确。

由于密文的字母数量太少,不足以应用简单的统计方法进行分析,因此,勒格朗先生不得不基于英语中不同单词的具体结构进行分析。首先,他坚定了字符8代表e的设想,因为他发现在这短短篇幅内出现了5次字符组合88,众所周知,字母e经常在英语中成对出现(比如:meet、fleet、speed、seen、been、agree,等等);而且,如果8真的表示e,它会经常出现在单词“the”里。浏览密文,我们发现字符组合“;48”在短短几行字中出现了7次。如果这一推导没错的话,“;”一定代表“t”,“4”一定代表“h”。

读者可以自己去看爱伦·坡的那篇小说,了解进一步的解密故事,那段密文最终的破解版为:“A good glass in the bishop’s hostel in the devil’s seat. Forty-one degrees and thirteen minutes northeast by north. Main branch seventh limb east side. Shoot from the left eye of the death’s head. A beeline from the tree through the shot fifty feet out”(主教客栈的魔鬼座上有一个好玻璃杯。北偏东41度13分。主干东侧的第七根树杈。从死者头颅的左眼向外射击。从树所在的位置沿射击方向走50英尺)。

勒格朗先生最终破解出的正确字母列在表8-1的最后一栏,你会发现它们与经由概率推断出的字母顺序并不完全一致。这当然是因为密文的篇幅太短,概率法则没有充分的机会发挥作用。但是,即便在这个小“统计样本”中,我们也可以注意到字母存在按概率顺序排列的趋势,如果密文中字母的数量大大增加,这种趋势将变成近乎颠扑不破的铁律。

用大量实验检验概率论预测的例子似乎只有一个,即那个著名的美国国旗和一盒火柴的问题。

要处理这个概率问题,可以取一张大纸,在上面画一些平行且等距的线条。接着,我们需要一盒任意类型的火柴,只要火柴长度比条纹宽度短即可。还需要一个希腊“派”,不是吃的那种“派”,而是希腊字母π,等于英文中的“p”。除了作为希腊字母外,π还表示圆的周长与直径之比。你大概知道它的数值是3.141 592 653 5…(我们已经算出了很多小数位,但这里不需要全部写出来。)

现在,把旗子铺在桌上,往空中扔一根火柴,看着它落在旗子上(图 8-12)。它可能落在一个条带内,也可能横跨两个条带。这两种情况的概率如何呢?

图8-12

确定这一概率和确定其他概率的流程是一样的,我们首先要数一数这两种可能性分别出现的次数。但火柴落在旗子上的方式是无穷无尽的,我们要如何数出各种可能性出现的次数呢?

我们来仔细研究一下这个问题。我们可以用两个数字来表示下落的火柴相对于条带的位置,一是火柴中心点与最近的边界线的距离,二是火柴与条带构成的角度,如图 8-13所示。图中显示了三种典型的情况,为简单起见,我们假设火柴的长度等于条带的宽度,比如都为2英寸。如果中心点靠近边线,且角度较大(如8-13a所示),火柴就会与边线相交。相反,如果角度较小(如8-13b所示)或距离较远(如8-13c所示),火柴就会局限在一根条带的边界之内。我们可以换一种更准确的说法,即如果火柴的半长在垂直方向的投影长度大于中心点到最近边界的距离,火柴就会与边线相交(如8-13a所示),反之,就不会相交(如8-13b所示)。图8-13的下半部分就描绘了上面这句话的意思。其中,横轴是火柴下落后的角度,这里表示为半径为1的相应圆弧的长度。纵轴表示火柴的半长在垂直方向上的投影,在三角学中,此长度称为与给定弧对应的正弦。很明显,当弧长为零时,正弦也为零,此时,火柴占据一个水平放置。当弧长为(对应于直角)a时,正弦等于1,此时,火柴占据一个垂直位置,其长度与投影的长度一致。对于中间的弧长,我们可通过一种熟悉的数学波浪曲线(正弦曲线)得出相应的正弦。(图 8-13只显示了0到之间的曲线,即完整曲线的四分之一。)

图8-13

① 圆的周长是直径的π倍,因此,当半径为1时,周长就等于2π。四分之一圆弧的长度就等于,即

有了这套机制,我们就能方便地估算出火柴落在或不落在边线上的概率了。事实上,正如我们在上面看到的(再看一下图8-13上半部分的三个示例),当火柴的中心点到边界线的距离小于对应重直方向上的投影时,即小于弧的正弦时,火柴就会与条带的边线相交。在坐标里画出相应的距离与弧长,两者的交点一定位于正弦曲线下方。反之,落在条带边界内的火柴对应的点则一定位于正弦曲线上方。

因此,根据我们计算概率的规则,相交的概率与不相交的概率之比刚好等于曲线下方与曲线上方的面积之比。也可以说,两种情况的概率均等于各自部分的面积与整个矩形面积之比。通过数学方法可以证明,图中正弦曲线下方的面积恰好等于1。而矩形的总面积等于,因此火柴(长度等于条带宽度)与边线相交的概率就等于

π居然出现在了这个最让人意想不到的地方,这一点是18世纪的科学家布丰(Buffon)最早发现的,因此,火柴条带问题也被称为布丰问题。

真正的实验则是由一位不辞辛苦的意大利数学家拉泽里尼(Lazzerini)进行的,他一共掷了3 408次火柴,其中2 169次,火柴都与边线相交。将这些数字套入布丰的公式,可推导出,即3.1415929[6]——小数点后第七位才出现差错!

当然,这正是对概率定律有效性的最有趣的证明,同样的,当你投掷数千次硬币,并用总的投掷次数除以正面朝上的次数,也会得出一个数字“2”来,这也一样是非常有趣的。此时,你无疑会得出一个2.000 000…这样的数字来,其误差也不会比拉泽里尼算出的π的误差更大。