3.分析统计数据

3.分析统计数据

定量研究是一种科学方法,在汉语史研究中正被越来越广泛地使用。但是科学的方法必须科学地运用才会有效。

目前比较常见的做法是:选取若干种语料,统计其中研究对象的出现次数,然后依据出现频率得出相应的结论,而不管所统计的语料是否具有“同质性”和研究对象所出现的具体语境如何。这种方法可以称为“‘一锅煮’统计法”。这样的实例随处可见。我们认为这种方法是缺乏科学性的,因为它往往难以导出合乎实际的结论,反而会掩盖事实真相。下面举个例子。

王云路、方一新《汉语史研究领域的新拓展—评汪维辉〈东汉—隋常用词演变研究〉》(《中国语文》2002年第2期)说:

该书的考证大抵可信,但可商之处也是有的。例如:谈到“愚/痴”二词时,作者说:“粗略地说,上古多说‘愚’,东汉魏晋南北朝主要说‘痴’。”(325页)“在东汉佛经里,‘痴’字用得极多,……‘愚’单用的已不多。”(326页)按:“愚”和“痴”的变化未必如《研究》所说。整个魏晋南北朝,“愚”都活跃在口语色彩浓厚的作品中,并未退出历史舞台。笔者以日本《大正藏》第3、4两卷为随机抽查对象,利用陕西师大历史系袁林先生的检索软件(据袁先生说明,该电子本《大正藏》原始文本来自中华电子佛典协会)作了检索,现将结果报告如下:

愚 第3卷,命中132篇,总共454次;第4卷,命中113篇,总共1113次。

痴 第3卷,命中145篇,总共519次;第4卷,命中103篇,总共536次。

仅就第3、4两卷统计结果来看,“痴”并未取代“愚”,相反,“愚”的使用频率还稍高些。以上统计数字容或有误差,但出入应该不会太大。这样看来,《研究》的结论尚可商榷。

上述统计数字确实对汪维辉(2000a)的结论提出了严峻的挑战。事实究竟如何?我们抽查了其中公认为口语性最强的一部佛经—收于《大正藏》第4卷的南朝齐求那毗地所译《百喻经》。该经中这两个词的使用情况如表1。

表1 《百喻经》中“愚”“痴”的出现次数和用法

统计数据显示:“愚”大大多于“痴”,两者的出现次数是118∶25。但这并不意味着当时的口语仍以说“愚”为主,让我们来分析一下两者的用法:

“愚”虽然多达118例,但没有一例是单用的,用法只有两种:一是充当定中结构的修饰成分,其中“愚人”就占了94例,还有“愚者,愚臣,愚夫,愚老人,愚鸽”,出现频率都不高;二是与其他成分构成同义(或近义)连文,有12例“愚痴”、3例“愚惑”和1例“凡愚”。而25例“痴”中,除去12例“愚痴”,“痴人”只占了4例,“痴猴”1例,单用的却有6例(即上表中“不痴”以下6例)。可见作为一个可以单说的词,“痴”已经取代了“愚”,“愚”则降格成了一个非成词语素。此外“痴倒”一例也值得注意,“痴倒”应是同义连文,“倒”即佛经中常见的“倒见”的“倒”,意思是“颠倒的,错误的,不正确的,愚蠢的”,这是佛经中的一个新义,[2]“痴”能跟它组合,说明是当时的口语词。下面是《百喻经》中的一个典型例子:

昔有愚人,头上无毛。时有一人,以梨打头,乃至二三,悉皆伤破。时此愚人,默然忍受,不知避去。旁人见之,而语之曰:“何不避去?乃住受打,致使头破。”愚人答言:“如彼人者,憍慢恃力,痴无智慧。见我头上无有发毛,谓为是石,以梨打我,头破乃尔!”旁人语言:“汝自愚痴,云何名彼以为痴也?汝若不痴,为他所打,乃致头破,不知逃避。”……如彼愚人,被他打头,不知避去,乃至伤破,反谓他痴。(以梨打头破喻)其中“愚”的组合只有“愚人”和“愚痴”,凡是要用单字表达愚笨义的地方都用“痴”,这说明在口语中,作为一个可以独立运用的词,“痴”实际上已经取代了“愚”。可见只看统计数据和对统计数据进行分析有时会导出完全不同的结论。孰是孰非,应该是很清楚的。

统计方法也有运用得好的,但比较少见。例如李战(1997)对《红楼梦》前80回中“便”和“就”的使用情况进行了统计,不仅把各回分开统计、对话体和叙事体分开统计,而且把不同人物的对话也分开来统计,结果就有了有意思的发现。先看两个统计表(表2、表3)。

表2 “便”“就”总数

表3 8个人物对话中的“便”和“就”

表2显示,“便”和“就”在叙事部分和对话部分的出现数量正好相反,对话中“就”的数量是“便”的约6倍,而叙事部分则“便”是“就”的近10倍;如果只看全书的出现总数,则“便”比“就”多出1000多例,这显然不能反映口语的真相,口语的实际情况理应主要看对话部分。表3对不同人物的对话分别进行了统计,更有意思(原文统计了20个人物的数据,这里仅选取其中8位):上层人物、封建卫道士贾政的对话中,“便”和“就”之比高达67%;而不识字的底层人物李嬷嬷和赵嬷嬷说话时都只用“就”,根本不说“便”,这才是当时老百姓日常口语的真实反映!据此我们可以做出推断,在当时的实际口语中,“就”对“便”的替换已经基本完成。其余人物对话中这两个词的使用情况也值得细细玩味,从中可以看出作者用词的匠心。

更细致的分析是把听话人也分开来统计,比如平田昌司先生(2008)“四 《醒世姻缘传》里的否定副词‘不曾、没’”就通过两个统计表把说话者和听话者分性别进行统计,结果发现,“‘不曾VP’和‘没VP’的选择,跟小说人物的男女性别有很明显的关系”,又通过其他角度的分析,得出结论:“‘不曾’偏于‘外言’,‘没’偏于‘内言’。”这样细致入微的分析给我们以很大的启发。

可见运用统计方法需要注意两点:一是所选的语料应该尽量具有同质性和可比性(包括篇幅大小的对等性);二是在选取的语料文白混杂、性质不一的情况下,对统计数据要做分析,切不可把复杂的语料“一锅煮”,简单化地出一个统计数据就匆匆得出结论。太田辰夫先生(2003:374)说过:“处理中国古代文献是极为困难的。”这是经验之谈。