二十世纪的归纳逻辑

第二节 二十世纪的归纳逻辑

现代归纳逻辑的特征是沿着耶方斯和皮耳士所开创的方向把概率概念引进归纳逻辑中,使统计理论和归纳逻辑发生密切关系。现代归纳逻辑中的主要论争基本上是数理统计理论中贝叶斯派和非贝叶斯派之间的论争,是这两派对于科学推理与实际决策的不同看法之间的论争。

从1915年到1940年是现代数理统计的“多事之秋”。在这个期间,目前为人所接受的各种不同研究纲领都已打好了基础。这些纲领可以归入两大派别之中: 一派称为贝叶斯主义者,溯源于十八世纪数学家贝叶斯,包括拉普拉斯、德·摩根、卡尔·皮尔逊、凯恩斯、蓝姆赛、杰弗里斯、卡尔纳普、德·芬内蒂、萨维奇、古德、林德利和杰弗里等著名代表。另一派包括经典数理统计传统和其他频率主义者,主要是作为贝叶斯主义的反动而发展起来的。它的著名代表有布尔、文恩、费希尔、皮尔逊、内曼(J.Neyman)、冯米泽斯(R.von Mises)、赖欣巴赫、沃尔德(A.Wald)、哈金(I.Hacking)和凯伯格(H.Kyburg)。

依哈金看,大约在1654年左右,概率概念带着二重性“出现”了: 这就是它的本体论性质和认识论性质。本体论概率叫做客观概率、统计概率或物理概率,大致相当于卡尔纳普的概率2。认识论概率叫做置信概率(Credalprobability)或主观概率,它表达证据和合理信念之间的一种关系,大致相当于卡尔纳普的概率1。

贝叶斯主义者把贝叶斯定理看作归纳推理的模式。这个定理的一种简单形式可以由概率乘法规则直接推出来。

设A和B是两个事件,那么

(1)P(A∧B) =P(A)P(B/A) =P(B)P(A/B)。

只要P(A)不等于0,这就直接得出

P(B/A) =(P(B)P(A/B)) /P(A)

这个公式表明: B相对于A的概率(叫做B的后验概率)同B的先验概率和B的似然值(或者A相对于B的后验概率)成正比,同A的先验概率成反比。

贝叶斯主义的中心观念是: 不仅给事件或事件描述测定概率是有意义的,而且给全称假说或统计假说测定概率也是有意义的。于是概率演算,特别是某种形式的贝叶斯定理,就成为计算这种相对于给定证据的后验概率的工具。而且,把贝叶斯定理看作一切归纳推理的模式是很吸引人的,这样,归纳推理便不过是以新证据为条件来修改概率的过程。这个模式的主要困难在于首先必须输入某些概率,像上面公式中的P(B)和P(A); 这些都是先验概率,即不相对于任何证据的概率。除在博弈中这些先验概率由博弈的条件给定以外,要确定先验概率是比较困难的。由于对这种概率的不同解释,就导致贝叶斯传统中产生的分歧。主要分歧是在逻辑贝叶斯派和主观贝叶斯派之间发生的: 前者试图为先验概率寻找先天的、形而上学的或逻辑的基础,以拉普拉斯、凯恩斯和卡尔纳普为主要代表; 后者愿意把先验概率看作仅仅表示私人的、主观的置信度,以萨维奇、德·芬内蒂、古德为主要代表。这两派同属于贝叶斯主义所代表的整个传统。

按照贝叶斯主义者的看法,归纳推理主要是以积累起来的证据为条件修改假说概率的过程。对主观贝叶斯派来说,这个过程必然涉及持有某一置信度的个人。这样,就像杰弗里所指出的,贝叶斯派看出在合理信念和合理行动之间的清楚而直接的联系。只需赋予个人以合适的效用函数,他便能够在任何给定情况下,决定哪个可能的行动将使他的主观的期望效用达到最大限度。的确,对贝叶斯派来说,典型的认识论问题是个人在有关他的可能行动的结果证据不足的情况下被迫采取行动的问题。

贝叶斯决策论的一个主要缺点是: 当你的任务不是在不同行动之间作出选择,而是要在不同的关于世界的科学图像即理论之间进行选择时,要应用贝叶斯范式就不是很容易的了。要给广博的科学理论例如量子论测定概率的想法,就像要给此一理论或彼一理论的选择赋予不同效用的想法一样,是有问题的。杰弗里自己在考虑是否能够合理地给普遍的科学假说赋予任何大于零的先验概率时,也提出了这样的问题。跟萨维奇和卡尔纳普都不同,他对此的答复在方法论上是诚实的: 除非你给普遍的假说赋予非零的先验概率,整个贝叶斯机器便不能应用。比较普通的答案是采取工具主义的理论观(和虚构主义的理论对象观)。萨维奇则陷于下面这种极端的观点: 仅仅给可观察事件的描述赋予主观概率,这些事件也许是某一行动的可辨认的结果。

整个贝叶斯主义的立场是把合理信念直接地描绘为概率函数。主观贝叶斯派或私人主义者主张合理信念是有主观根源的。逻辑贝叶斯派则试图用下面这种方式来给这个概率或确认函数下定义: 使它表示在给定情况下一个理想的行动者对一个给定命题所客观地、合理地具有的置信度。例如卡尔纳普的归纳逻辑便是对一个理想地合理的行动者或一个能从事科学研究的机器人所作的公理化描绘。属于主观贝叶斯派的萨维奇所要求的只是这个机器人的信念函数要满足标准的概率演算公理; 卡尔纳普则努力寻求进一步的约束,以便能够为一切合理行动者决定一个唯一的信念函数。他试图以此消除科学推理中私人的或主观的因素而代之以“客观的”归纳逻辑。

逻辑贝叶斯派把概率看作代表一个陈述和另一个或一类证据陈述之间的逻辑关系。这个看法首先由凯恩斯明显地提出来,后来得到卡尔纳普和杰弗里斯的辩护。它的基本特征是: 给定一个假说和一类构成证据的陈述,相对于给定的证据,这个假说只有一个唯一的概率度。一个概率陈述要是真的,它便是逻辑地真的,否则它就是逻辑地假的。概率陈述不是经验的,而是纯形式的。给定一个假说S和一类证据E,只有这样一个唯一的实数P,可以正确地说,相对于E的S的概率是P。

主观主义和逻辑贝叶斯主义的区别就在于它否认后面这个断定。按照主观主义,概率代表一个假说和一类证据之间的关系,但这不是纯逻辑关系,而是准逻辑关系。它的数值代表一个置信度,但这个值不是能够单义地决定的。一个给定假说在给定证据基础上可以有从零到一之间的任何概率,随着其置信度由这个概率来代表的那个人的意向而不同。当然在证据逻辑地蕴涵这个假说或其否定的情况下,演绎逻辑的规则是适用的。主观主义理论在下面的意义上,也是一个逻辑理论: 对于彼此相关的陈述,只有置信度的某种结合才是可容许的。例如,若你对陈述S有置信度P,你对于S的否定便应有置信度1-P。但这个理论在下述意义上又是主观主义或私人主义的,对于在任何证据基础上的任何陈述,你可以有任何的置信度,只要你对其他相关陈述的置信度有合适的值。简言之,主观主义的特征是: (a)对于任何陈述可容许有任何的置信度; 但(b)在相关陈述的类中置信度的分布是有限制的。一个人的置信度的分布如果遵守概率演算的规则,这种分布便具有一贯性(coherence)。一个人的置信度应当是一贯的,这是一个逻辑要求; 逻辑贝叶斯主义者和主观主义者都提出这个要求,但这却是主观主义者提出的唯一要求。

主观主义并不允许置信度的一切分布。假定一个人发现他的置信度的分布是不一贯的,注意到了这一点,无疑他将设法消除掉这种不一贯性。但如何消除的方式完全属于他自己的事。有些意见是一定要改变的,但主观主义并不以任何方式发出指示: 他应当修改哪些意见或者应当怎样修改这些意见。只要他对其他意见作出合适的修改,保留任何个别意见都是可以允许的。这样地受一贯性的限制表明在情况不明时这个人的信念是合理的。这是一个自然的合理性标准。这里合理性具有规范的意义: 一贯性就是一个人的置信度应当怎样互相联系的标准的明确陈述,这是最低的合理性标准。逻辑贝叶斯主义者则提出更高的标准。

贝叶斯传统要解决的典型认识论问题是情况不明时的实用决策;与此不同,非贝叶斯派的典型认识论问题却是科学假说尤其是普遍理论的选择问题。对一个假说进行一次或一系列经验检验的结果并不是给它测定概率,却是把它当作真的或假的世界图像而暂时接受或拒斥。普遍假说的经验检验同概率有关,但这是同检验过程的物理结果相联系的客观概率,而不是假说本身的概率。对于客观概率究竟等同于极限的相对频率还是等同于理论的物理“习性”,意见是有分歧的。但在下述这一点上,非贝叶斯派却有接近一致的看法: 被解释为一种语义关系或一个主观置信度的概率在科学方法论中并不起重要作用。至少有三个归纳逻辑雏形是属于这个传统的: (1)包括极大似然点估计、显著性检定和置信推理的费希尔的归纳逻辑; (2)内曼和皮尔逊关于假说检验和区间估计的理论; (3) 哈金和爱德华兹(A.W.F.Edwards)的仅仅建立于似然比上的统计推理逻辑。

现在简略谈谈费希尔的显著性检定和内曼的统计假说检验。

(1)显著性检定

和非贝叶斯数理统计的应用相联系的方法论主要是在生物学、心理学和社会科学的简单因果假说检验的情况中发展起来的。试考察下面这个决定某种有机体的某一特性是否为孟德尔显性的问题。如果它是,那么两个杂合双亲的后嗣有该特性的概率是四分之三。假定我们试图通过二十次增殖的观察来检验这个概率假说H。如果H是真的,那么得到从十一到十八(包括十八)个显性的概率刚好超过百分之九十五。按照费希尔的看法,在这个范围之外的任何结果都被认为有“零点零五的统计显著性水平”,从而使我们有理由拒斥这个概率是四分之三的假说。显性低于十一和高于十八的数目的集叫做这个检验的“判别区域”。请注意进行这种“显著性检定”显然甚至未曾考虑到假说的概率问题。你仅仅给“试验结果”测定概率,并且用相对频率来解释这些概率。

费希尔的显著性检定对几个重要问题未作出解答。第一,在任何实验中,也许有显著性水平相同的几个不同的可能判别区域,你如何去选择呢? 其次,如果观察结果并不落在判别区域内,你能够作出什么结论? 特别是,你能够接受被检验的假说吗? 如果不能,为什么?内曼和皮尔逊的统计假说检验便回答了这些问题。

(2)统计假说检验

试考察下面这个全称的简单因果假说: 氨基酸在哺乳动物脑髓某些部分密集度的增加会增强它们的学习能力和记忆力。检验这个假说的标准的非贝叶斯方法大致如下: 取典型哺乳动物例如数量为2n的鼠。把它们任意地分为两组。给“实验组”的鼠注入定量的氨基酸,给另一组(“控制组”)注射不起反应的物质,例如纯水。使两组都接受一个学习任务,例如迷宫,并且记录每一组的平均学习速率m。假设每一组都有特定的学习潜力分布和平均学习潜力μ。要是这些鼠是经过细心饲养和研究过的,我们也许知道这个分布是常态的,有测定的方差,并且两组相同。这样,如果这个因果假说是真的,我们便预期实验组的平均学习潜力较高。但让我们假定,学习潜力降低而非提高的可能性并不能排除。在这种情况下,这个因果假说便相当于下面这个统计假说K: μE-μC=δ≠0,而这个因果假说的否定则相当于下面这个统计假说H: μE-μC=δ=0(附标E和C分别代表实验组和控制组)。于是科学问题便集中于根据平均学习速率的测定差别(d=m E-m C)在H和K之间作出判定的统计问题。在谈这个问题以前,请注意这些统计假说仅仅谈及实验中的两组,有关这种类型的一切鼠(更不要说一切哺乳动物)的任何推论,都需要另外的超出统计假说的直接检验的归纳步骤。

刚才描写的实验是对照于另一可供选择的复合假说K(它是对应于δ≠0的连续值的简单假说的析取)而作出的对简单虚假说H的典型检验。让我们把样本空间看作是由所观察到的差别d的一切可能值所组成的。从形式上说,检验就是把这个样本空间划分为两个区域:对于一个区域我们应用决定规则“接受H”(因而拒斥K),另一个便相应于决定规则“拒斥H”(因而接受K)。

在20世纪20年代,费希尔等人集中于寻找样本空间的这样一个拒斥或“判别区域”: 如果被检验假说是真的,样本点在这里出现的概率便很低。如果你决定当且仅当被观察的样本点落在判别区域时,才拒斥这个简单假说,那么在假说事实上真的情况下我们将偶然拒斥H的概率只是很小的和可控制的。这个概率叫检验的显著性水平。它可以通过合适地调整试验的次数和判别区域而受控制,费希尔的方法的缺点,是缺乏在有同一显著性水平的几个可能的判别区域中进行选择的任何系统根据,而且费希尔虽然细心地使偶然拒斥真假说的概率极小化,他对接受一个假说的问题并不进行系统的研究。而这是同他的下述声明相一致的: 实验的目的是给予实验结果或证据以拒斥假说的机会。

我们可以把内曼和皮尔逊所引进的统计假说检验方法看作填补了费希尔显著性检定的缺陷。他们认为统计假说H的检验是达到拒斥H或者接受H的决定的方法。一个好的检验被描述为不仅作出错误决定的概率是低的,而且更重要的,它是可以控制的。但错误不是只有一种,有两类错误都是可能的。费希尔所注意的是第一类错误: 在H真的情况下偶然在判别区域即拒斥区域中得到一个样本点,因而拒斥一个真假说的错误; 相反地,即使H是假的,你也会在接受区域中得到一个样本点,从而犯了接受一个假的假说的第二类错误。如果H是一个简单假说,第一类错误的概率恰恰是费希尔的显著性水平,但第二类错误的概率是什么呢? 从形式上说是: 若H假,则有一个样本点落在接受区域中的概率。但因为非H一般是个复合假说(上例的K),要是没有组成它的简单假说的先验概率的分布,便不能够计算这个第二类错误(K真而判断K假从而接受H)的概率。现在让我们假定仅仅有两个可能的、逻辑上相斥的简单假说,即H和K都是简单假说。第二类错误的概率就是给定K却得到一个并不落在样本空间的拒斥区域中的样本点的概率。不作出第二类错误的补概率叫做检验的功效,这就是若K真,检验将发现H假的概率。

吉尔雷(Ron Giere)在其对内曼—皮尔逊(N—P)理论的解说中给N—P统计假说检验下了这样一个形式定义:

当且仅当T(检验)是把S(样本空间)相斥而穷尽地划分为两个区域,其一称为拒斥区域R,T才是假说H相对于机遇布置CSU、样本空间S和另一假说K的N—P统计检验。[4]

按照吉尔雷,这个定义的一个值得注意的哲学推断就是: N—P逻辑不能够简单地作为H和所观察样本点的描述之间的逻辑关系来重建。除CSU和样本空间外,必然要涉及包括H和至少另一个简单的相斥假说的容许假说集。提及另一假说不仅具有一般的哲学意义,而且为选择一个最佳拒斥区域的问题提供准确的数学表述手段。

在对照另一个简单假说去检验一个简单假说的情况下,希望同时把两类错误的概率减小到极小程度,就是使显著性水平极小化而使功效极大化。这是很自然的。概括地说,可用样本空间中的点的似然比来决定这样一个拒斥区域,它相对于第一类错误的固定极大概率得到第二类错误的极小概率。简言之,似然比决定一个相对于固定的极大显著性水平有极大功效的检验。这个检验显然同下面这个基本直觉是一致的: 如果所观察到的结果根据另一假说有大得多的概率,你便能够有把握地拒斥这个假说以接受另一个。

对内曼和皮尔逊来说,检验一个假说是一种达到决定接受或拒斥那个假说的系统方法。但是,决定接受(或拒斥)假说是什么意思呢?内曼在其后期著作中,把接受一个假说等同于选择一个行动。这样,用沃尔德(A.Wald)的名词来说,一个统计检验就成了一个统计决策规则。对于一组试验的每一个可能的结果,这个规则都规定一个特殊的行动方案。把假说检验看作决策论的特殊情况不仅告诉我们“接受一个假说”是什么意思,它也提供一种给检验的显著性水平、功效和测试次数决定明确数值的方法。内曼和沃尔德这种以归纳行为代替归纳推理的决策论途径颇类似于贝叶斯传统把归纳推理归结为合理行动的选择的决策论范式。例如卡尔纳普和杰弗里就以构造一个实用决策论问题为根据,拒斥任何认为在归纳逻辑中假说“被接受”或“被拒斥”的看法。既然贝叶斯传统和非贝叶斯传统或者一向否认或者倾向于否认归纳推理的接受(或拒斥)规则,接受问题便成为近来归纳逻辑的争论焦点之一。为“归纳接受”辩护的主要代表是莱维(Gssac Levi)。他以接受问题为核心提出他关于“局部归纳”(localinduction)的主张,既反对卡尔纳普和杰弗里的“必然主义的”(nccessitarian),归纳逻辑,也反对德·芬内蒂和萨维奇的私人主义的完全归纳逻辑。