频率理论的失败之处
频率理论并不需要新经典理论:它完全是自足的。但它也有失败之处,那是因为它并不完全普适。一些极具价值和意义的问题及其解答并不涵盖在频率理论的体系内。
为了用例子来说明这一点,我将较为详细地讨论上一节提到的那个定理的简单形式,即在几乎所有交错序列中,1的相对频率具有极限。
令a是一个交错序列(即0和1序列)。令n'是a的第n个位置上1的总个数,那么n'/n就是a的第n个位置上1的相对频率。
用数学语言说,n'/n具有极限——称之为p(l,a)——当且仅当对于我们所选取的任意小的分数ε>0,都存在一个数m,使得从第m个位置起,n'/n与p(1,a)的偏差小于ε。用符号来表示就是:
(*)存在某一m,使得对于所有满足n>m的n,都有

但是,对于一个经验的随机交错序列a(对于一个集合),我们无法根据任何选取的ε有效计算出这个数字m(这是因为集合不是由数学规则决定的)。我们能做到的是:对于任何选取的ε,无论它多么小,如果(*)失败的概率小于ε,那么我们就可以有效计算出m;这等同于说,(*)成立的概率大于1-ε。实际上,有m等于1/ε3就足够了,如果ε是个很小的分数,那么这个数字将非常巨大。(如果ε=1/1,000,那么m=1,000,000,000,这意味着从交错序列的第1,000,000,000个位置起,相对频率与p(1,a)之间出现超过1/1,000偏差的概率小于1/1,000。)[22]
以此形式,冯·米泽斯表明[23]这个定理可以在频率理论中被如下诠释。
我们这样看待交错序列a及其所构成的新集合b:将a分割成许多长度为n的极长(非交叠)节段,其中n>m。a的这些长节段成为新集合b的元素。而定理断言的是,在作为b的元素的这些节段中,平均而言,与p(1,a)的偏差超过1/1,000的情形在每1,000个节段中不会超过一次;因此在集合b中,这些偏差的相对频率将趋近于某一小于1/1,000的极限——无论我们选取的n有多大。
我认为不会再有人反对关于此定理的这种频率诠释。
但是,我们讨论的这个定理无法得出下述推论:几乎所有交错序列都具有收敛的频率。频率理论并不蕴涵从这个定理到此推论的推理。
在经典理论的框架内,对这个定理的诠释不会与频率诠释有太大差别。此诠释可以表述如下。(为方便讨论,在此我仅限于讨论等分布p(1)=½的情形。)
从长度n(这里选取的n须满足n>m)的各种节段中,每一种挑出一个样本放入一个袋子,那么袋子里就有2n个节段,两两不相同。在这些节段中,在每个节段的第n个位置——即第1,000,000,000个位置——之后与½的偏差超过ε=的情形至多为
。
在给定这个定理的这种表述之后,我们就可以推理出下述结论:
我们可以选取任意小的ε,如果我们让ε越来越小,那么由于m=1/ε3,所以m将趋近于无穷(因此n也趋近于无穷)。最后,即当ε→0,我们的袋子里包含的就不再是所有可能的具有某一有限长度n的节段集,而是所有可能的无穷序列集(顺带指出,正如康托尔的“对角论证”所表明的,它也是一个非可数集)。同时,找到一个非收敛序列的概率将等于零。
在冯·米泽斯用来表述定理的那种频率诠释中是不可能包含这个论证的。首先,他一开始就将一个交错序列a分割成数量无穷的长节段n。但我们不可能将a分割成无穷多的无穷长度的节段——甚至分割成两个这样的节段也不可能:无论以何种方式将a分割成几个节段,如果要求其中至少有一个是无穷的,这都至多只能产生a的一个无穷“节段”,即a自身(减去某一起始节段)。因此也不可能用这样的方法来构造b;但是,根据冯·米泽斯的定义,只有在b中才能找到(或找不到)偏差的概率。
其次,频率理论不可能接受其元素为无穷序列的集合b的概念。在频率理论中,集合的元素在本质上是可观察事件,或实验结果。它们也是事件的有限序列,因为有限序列本身可以被诠释为复合事件。但集合的元素显然不可能是事件的无穷序列。
因此冯·米泽斯的诠释实际上完全无法过渡到上述极限。在大多数情形中这并不产生什么麻烦:通常我们表述极限定理的内容时都不需要在实际中完成这个过渡,而只需引入越来越长的有限序列。甚至在上文的那个例子中情形也是如此,只要我们考虑的是定理的经典诠释——这正是因为它不允许我们达到这个极限。但在这个不允许我们达到这个极限的理论框架中,定理的理论力量就被削弱了,它没有在有可能完成这个过渡的框架中那么完备。
对于我的这个批判,频率理论家可能会有下述反对意见。他会说,他承认冯·米泽斯的诠释即便本身正确,也无法使定理拥有完备的力量。但是,通过将经典定理直接翻译为集合语言,这个缺陷是可以弥补的。对应于我装满了2n个节段(其中n>m=1/ε3[24])的袋子,存在着一个集合b,它里面是一些从我的袋子中随机抽取的节段。从这个袋子里抽取一个节段而其与½的偏差超过ε的概率——即相对频率的极限——将小于ε,这正如经典模型中的情形一样。此外,如果m趋近于无穷,因而n也趋近于无穷,那么这个概率将为零。
我相信我能反驳这个异议,但首先得仔细分析它。它正确地表明,概率应当永远联系着一个非常灵活多变的频率观念:这个观念不仅包括有限类中的频率,也包括它的推广,即无穷序列中的频率极限,以及更进一步的推广,例如针对连续集而定义的测度。但冯·米泽斯的频率理论仅仅承认可观察事件的无穷序列中的频率极限。考虑到这一点,我们有下述见解:
(a)我的假想对手们提出要重新诠释有限类中的相对频率,方法则是从那种有限类中构造出随机抽取集合;如果我们接受此方法,那么这种重新诠释就是平凡和冗余的。因为它仅仅是用比例的无穷序列的极限代替了日常的有限比例;此外,它还假定了“随机”抽取。
(b)我们的那个袋子及其频率都没有任何的似偶然性。这是纯粹的数学模型,对于任何n,所有频率都精确可计算。至于将这些同样的频率诠释为似偶然抽取或随机(即独立)抽取的结果,这和我们的原初设想根本没关系。
(c)在冯·米泽斯形式的频率理论中,陈述“随机抽取将产生这些频率”必须一直维持其性质,即它是有关随机事件频率的假说性估计。但有关袋子内容的相应陈述都是可证明的数学定理。
(d)因此陈述“从一个装满可能的0和1序列的袋子中抽取具有非收敛频率的序列,其概率等于零”(这个)肯定不等价于我们上文讨论的定理,因为几乎所有此类序列都是收敛的(非收敛的序列的测度集等于零)。
这样一来情形就很明显了:我们讨论的那个定理——“强大数律”的某种形式——并不等同于冯·米泽斯“收敛公理”的某种推论。它并不(也不可能)确立所有序列都是收敛的,而只能确立几乎所有序列都是收敛的。“收敛公理”刻划的是那些包含着收敛序列的“集合”性质。换言之,冯·米泽斯的理论非常正确地挑选出了一种特别的序列类。
冯·米泽斯第二公理,即随机性公理的情形与此非常类似。它也无法推导出这些结果。但我们可以用杜布的定理来取代它:假定与论题相关的那些序列包含的是独立事件,那么在几乎所有序列中(在所有独立事件序列中,例外情形就是零测度集)任何赌博系统都将失败。
实际上,这里采用的这个独立性假定完全等同于我的假定:第n个元素独立于其所有前导,或对于前导选择是n-1-不敏感的;在这个意义上,我的做法——单独将独立性或n-不敏感性假定作为理论的基础(抛弃收敛公理)——大体而言就是正确的。就独立性或n-不敏感性具有明显直观意义而言,这是重要的。而事实确实如此:我们在投掷骰子之前都要充分晃动它们或混合它们,这是因为我们都希望确保先前的投掷或抽取结果不会对第n次投掷或抽取结果产生任何影响。