应用统计的方法整理国学
(原载于《东方杂志》1929年第26卷第14号,第73—84页)
中国公学大学部中国文学系月讲 刘宇、朱兆新记
兄弟今天和诸位同学在这里讨论的问题,是“应用统计的方法整理国学”,分:一,导言;二,前人应用统计方法整理过国学的举例;三,用统计方法整理国学的效用;四,制造统计图表的方法;五,由统计结果推求变化原因。现在就依这分段说起。
一、 导言
研究学问应有三个条件即理论、证据、方法。但是,理论要圆通,证据要确凿,方法要精密。“理论圆通”是第一步工夫,因为发表言论,若是理论不圆通,自己就站不住脚步,不待他人辩驳就会倒的。“证据确凿”是第二步工夫,因为发表言论,理论再说的圆通,若是没有证据,总不足取信于人的。“方法精密”是第三步工夫,因为发表言论,理论也圆通了,证据也确凿了,但方法不精密,不足以作定论。
近来“用科学方法整理国故”的话,常常听着,但是实际工作这种工作的人很少,因为只有“用科学方法整理国故”的提案,并没有计划书和标准案使我们去实行。
“用科学方法整理国故”的方法很多,统计学也是其中的一个。兄弟对于统计学没有研究,不过兄弟曾毕业于山西商业专门学校,商业学校有统计学一门功课,兄弟的脑筋中受了这一点统计学的影响,后来到了清华大学研究院,就采用统计学整理国学。兄弟试用的结果,觉得整理国学有应用统计学方法的必要,是以兄弟将“应用统计方法整理国学”贡献诸位同学,有不对的地方,请诸位同学指教。
二、 前人应用统计方法整理过国学的举例
甲 关于政治方面
中国当春秋战国时代,各国的诸侯对外竞争的很激烈,对内的整理当然不能置诸缓图。如户口,物产,财政,交通,疆域险要等,都非作一种详细的调查,有系统的记载,大规模的计画不可。学者对于这种调查记载规画,作深刻的研究,统计学自然就产生了。
1. 《逸周书·职方解》
《逸周书·职方解》对于各州人口的记载,是“扬州二男五女,荆州一男二女,豫州二男三女,青州二男三女,兖州二男三女,雍州三男二女,幽州一男三女,冀州五男二女,并州二男三女”。这当是作过人口的调查,将各州调查得的总数,用最小公约数计算而出的。
2. 《尚书·禹贡》
《禹贡》对于各州田级的记载,是“冀州厥田惟中中,兖州厥田惟中下,青州厥田惟上下,徐州厥田惟上中,扬州厥田惟下下,荆州厥田惟下中,豫州厥田惟中上,梁州厥田惟下上,雍州厥田惟上上”。《禹贡》的田级当是经过统计而得的。
《禹贡》的级数以甚么为标准呢?它当系以田的生产力大小而定。但各州的面积很大,生产力当不平均,它当是以各州的田分为等级而决定的。今假定:
一,河流经过不加人力可以灌溉的田——上等;
二,平原的田——中等:
三,高原易受旱灾或河畔易受水患的田——下等。
又依这三等田,假定它的产量:
一,上等田每亩三石;
二,中等田每亩二石;
三,下等田每亩一石。
这三等田的产量平均数是:
3+2+1=6
6÷3=2 每亩两石。
今假定每级价格为一○○元,兹依《禹贡》的等级化为元数是:

上表数目,把它排列整齐是:

《禹贡》“上上”“下下”等,它当是由排列整齐数表划分的,推测它的划分法是:

《禹贡》是分为三大段,每段又分为三小段。按它有“上上”“下下”,没有“上”“中”“下”字样,它的表列式是:

这种表列式在统计中叫做“粗细线并用法”。这种表内又有“州别”“等级”两项,在统计学中叫做“二重表列式”。是知《禹贡》确作过统计的,不过它是统计表不是统计图。
前边是举《逸周书》和《禹贡》为例,《逸周书》是魏襄王时(约西元前三一九年)魏国学者的作品。《禹贡》是秦武王时(约西元前三一六——二九九年)秦国学者的作品。是我国于西元前三○○年左右政治上已经应用过统计了。
乙 关于学术方法
1. 《史记·十二诸侯年表》
学术上采用统计学是西元前三一四年以后事。按《史记·十二诸侯年表》序说:“表见《春秋》《国语》”,《春秋》《国语》就是《国语》。国语是分国记事的,这一国的国语和那一国的国语不能互相连贯,必待这表接连,使人看了就容易明白。兹按《史记·十二诸侯年表》首尾数年是:


要知这一个诸侯的元年为那一个诸侯的几年,先要检查《世家》,《世家》有时记载的不明瞭,还要推算,这有多么的麻烦呢?今把《十二诸侯年表》检起一看就明白了,是这个表在学术上很有帮忙,是以各史多采用表。
《国语》一书,除《越语下》系西汉末年人附加外,《郑语》一篇最晚是西元前三一四年以后的作品。《国语》上的《十二诸侯年表》当是《国语》全部告成,学者以各国的年代相互的关系不大明瞭,造这表以便检查。但这表不算是统计表,不过向统计这一条路上走去了。
2. 《春秋大事表》
《春秋大事表》是将《左传》全部拆散,另用表格填入。不管它本书的价值如何?用统计表整理古籍,它算是一个。
三、 用统计方法整理国学的效用
甲 表的方面
统计学分表和图两大部分,兹先就表的部分说起:
统计表系将漫无系统的事实,依所定的项目,按其性质的异同,分别排列,使成系统,以便考察。其功用在便于考察,比较,记忆,总计,及减少重复的说明等。例如:
1. 介词用“于”“於”升降表
介词用“于”“於”升降表

从这个表看来,《春秋》以前的书,如《尚书》《诗经》《春秋》都用“于”字,《论语》《孟子》都用“於”字,《左传》《国语》“于”“於”并用。这种现象不仅书本子上是这样——书本子恐有后人传写错误的。甲骨文、金文都是这样,惟铜器中的“陈财敦”有“孝於叔皇”一句,是用“於”字作介词的,但它是战国中年的物品。用这表大量的观察,可知春秋以前的介词都用“于”字的,到了战国初年“于”“於”并用,战国末年习惯上都用成“於”字了。
又如:
2. 诸侯卒表(https://www.daowen.com)
诸侯卒表


这表中记载最多的是齐,最少的是秦,以采用史料近详远略的例子推来,可知《春秋》的作地距齐近离秦远。
乙 图的方面
前边说的是表列法的功用,再说图示法的功用:
通常用以表显事实的方法,是文字、表格、图形三种。用文字说明事实,过于繁长了,既不便于比较,又易使人误解,不若表格用数目字记载的简赅真确。但表格中全系数目字,使人看了干燥无味,不若图形的表显事实,彰明昭著,并且一看就容易了解。例如:
3. 《春秋》《国语》《左传》分国记事详简比较图
1. 周;2. 鲁;3. 齐;4. 晋;5. 郑;6. 楚;7. 吴;8. 秦;9. 宋;10. 卫;11. 陈;12. 曹;13. 越;14. 蔡;15. 邾;16. 滕;17. 许;18. 薛;19. 纪;20. 小邾;21. 杞;22. 莒;23. 微国。

图一 《春秋》《国语》《左传》分图记事详简比较图
说明:上为单圆图不是多圆图,多圆图是几个圆图的本身大小不同,与这几个面积相等的圆图有别。

按图一《春秋》的图内滕、薛、邾、莒的小国有百分之一二的地位,秦、越大国尚不及百分之一,可知《春秋》的作地距滕、薛、邾、莒近,离秦、越远。《国语》的图内有吴、越无秦,可知《国语》的作地距吴、越近,离秦远。《左传》的图内有秦无越(越附在吴),可知《左传》的作地距秦近,离越远。

图三 《国语》《左传》分国记事
起止比较图
4. 《左传》全部与获麟后部分记载各国详简比较图
按图二《左传》全部晋居第一,卫居第六;获麟后卫居第一,晋居第五。《左传》与《春秋》很有关系,《左传》可说依《春秋》而走,获麟后《春秋》绝笔,《左传》的作者可自由采取材料了。卫以小国位居第一,以搜集史料近详远略的例证,《左传》的作者是卫国人了。
5. 《国语》《左传》分国记事起止比较图
复式直线图以两道或两道以上直条并列为一组代表某事物的一大项目,以每组中的一直条代表大项目中的一细项目,由直条的长短,以比较各细目数值的大小。例如图三《左传》记各国的起止无多大出入,《国语》就忽长忽短,可知《国语》的记事远不如《左传》了。
6. 《春秋》《左传》记事详简比例图

图四 《春秋》《左传》记事详简比例图
图四分《春秋》《左传》两部分,先以《春秋》来说:《春秋》第一期短,第二期平,第三期高,第四期平;记事近详远略是一个通例,是第一期短第二期平第三期高,第四期应当更高。今《春秋》为甚么第三期为最高?按古人的习惯是人死后才把生平的事迹公布。孔子作《春秋》时根据比他大一二十岁的人,或同年的人,死后公布的史料,是以他的《春秋》第三期为最高,高点在他作《春秋》时前九十年。《左传》的趋向与《春秋》正同,其理解亦一。前由《春秋》最高点向后数九十年为《春秋》的作期,今依此例,在《左传》的最高点向后数九十年,也就知道《左传》的作期了。
四、 制造统计图表的方法
甲 表列法
统计的图表制造,是先制表而后制图的,是以先就表的方面说:
表的种类很多,通常分为原始表与总表两大类。原始表是将固有的事实,详加记载,保存其实在的情形,以备作详细研究时的资料。总表是将原始表的事实,合并缩减作简赅的记载,并利用分析法以作各种比较观。
制造表的手续,第一先搜集材料,第二整理材料,第三预备制表。制表是要计画表的名称,表的项目,表的格线,数字列法,以及表的布置等。
(子)材料搜集
我们试举一个例子制造一表。假设我们要研究历代各地产生学者的多寡,是要在二十五史的《儒林传》,和梁任公先生的《清代学术概论》上搜集材料。搜集材料法,兄弟先举《史记》《汉书》为例:
《史记·儒林传》里记的是:申公者,鲁人也;辕固生者,齐人也;韩生者,燕人也;伏生者,济南人也;董仲舒,广川人也;胡母生,齐人也;瑕丘江生。
《汉书·儒林传》记的是:杨何;丁宽……梁人也;施仇……沛人也;孟喜……东海兰陵人也;梁丘贺……琅邪诸人也;京房、费直……东莱人也;高相……沛人也;伏生……济南人也;欧阳生……千乘人也;林尊……济南人也;夏侯胜、周堪……齐人也;张山拊……平陵人也;申公鲁人也;王式……东平新桃人也;辕固,齐人也;韩婴,燕人也;赵子,河内人也;毛公,赵人也;孟卿,东海人也;胡母生……齐人也;严彭祖……东海下邳人也;颜安乐……鲁国薛人;瑕丘江公、房凤……不其人也。
(丑)材料整理
我们研究这个题目,不必以史为单位,应当以朝代为单位。今作西汉学者籍贯的研究,是宜将《史记》《汉书》合并。按《史记·儒林传》共记七人,除董仲舒外,均见于《汉书》,是宜根据《汉书·儒林传》。《汉书·儒林传》共记二十六人,除四人籍贯无考外,为二十二人,再加上董仲舒一人,西汉学者共二十三人。这二十三人的籍贯,在《汉书·地理志》上检查,大地名有“梁国、沛郡、东海郡、琅邪郡、东莱郡、济南郡、千乘郡、齐郡、鲁国、东平国、河内郡、赵国”。小地名平陵在右扶风,不其在琅邪郡,广川在信都国。
广川等地究在现在那省呢?应从《辞源》上查检,《辞源》寅二一二“广川”条“前汉王国,治信都。见信都条”。再检子二○五“信都”条“郡名,汉置,本广川国。有直隶旧冀州、深州、景州等地”。是知道广川在今河北省了。依此一一查清,试制一原始表。这表因为按时代制造,现制造的是西汉,应标名为“西汉学者籍贯表”。
(寅)原始表的表列
(按表的标题,务须简赅、明了、完善,使看的人不必参看表格,就可以了解表中所表的事实。)
表列法是:
表一 西汉学者籍贯表

续表


依这原始表作一总表是:
表二 西汉学者籍贯表

依前表将各时代填好,制成各时代总表后,再作一总表是:
历代学者籍贯总表

这表有两个总计,底部的总计是计一个时代的总数,右端的总计是计一个省的总数。由底部的总计可以知某时代的人数,由右端的总计可以知某地历代的人数。
乙 图示法
我们把表制造好了,再依表制图。图的形状大约分圆形图、方形图、直条图、曲线图、组织图、分布图、形像图七类。
A 圆形图
例如我们要将西汉学者的籍贯制造一圆形图的单圆图。普通圆周作三百六十度,我们研究国学,应把圆周作成一百度,看某地的人占百分之几,百分之几的观念,比较熟悉一点。制这单圆图,先要求出它的百分比,求百分比有个公式是:
例如有三个本数为甲乙丙,则总和=甲+乙+丙。
(1) 求百比法
假设本数的本分率为X,依次的比例式:
总和:本数=100:X
∴X=
例题以西汉学者的籍贯,依此公式,求百比法,是:
15+3+2+2+1=23
23:15=100:X
X=
=65.2…山东占百分之六十五有奇
23:3=100:X
X=
=13…河北占百分之十三有奇
23:2=100:X
X=
=8.7…河南江苏均占百分之八有奇
23:1=100:X
X=
=4.3…陕西占百分之四有奇
我们既然求出每省应占的百分数,但制造单圆图时,先要求出角度度数才能依度数去画。求角度的公式是:
(2) 求角度法
假设本数的角数为X,则得的比例式是:
总和:本数=360°:X
∴ X=
我们依这公式把角度都求出,用几何画器具,绘成如前边所举的图一的单圆图形。
在这里兄弟附带的报告:兄弟作《<左传>的研究》时,制造前边所举的图一“《春秋》《国语》《左传》分国记事详简比较图”,整理材料很感困难。《国语》是分国记事的,不用说是把各国的字数加起来就完了;《春秋》是根据李琪《春秋列国世纪编》,它把各国都分配好了,是以也把各国的字数加起来算完事;《左传》就感困难,因为凌斗隍的《左氏节萃》,它把《左传》分列各国和《国语》一样,但它的《序》说是十二国,书内只有十国,而且《左传》末几十年的晋、周各国事,均没有列上,兄弟以为兄弟的《左氏节萃》恐少了两本,遍访北平琉璃厂各书局的《左氏节萃》,都是如此。知道这《左氏节萃》书未完成,是以不能根据它计算字数。于是到商务印书馆买了一部《白文左传》,把《左氏节萃》与《白文左传》对照,例如鲁国事《白文左传》在《左氏节萃》上有的,把《白文左传》这一段用红笔抹了,从这样作下去,鲁国作完了,作晋国时绿笔,作楚国用黄笔。结果抹的剩下的,看它应属于那一国,把它剪下贴在《左氏节萃》那一国后边,然后再把字数加起,制成这图。
我们研究国学制造一图很不容易,就是兄弟刚才所说的那个图,就用了两三星期的工夫。在我们试作统计图时,也不敢决定作成了就有用,例如兄弟前将《晋语》也作过曲线图,援照《春秋》《左传》作期的例子推求,是不能用,这不是白牺牲了工夫。后来求它因为甚么不能用?《晋语》是根据《左传》的,而且作《晋语》的人不是注重在事实,注重在礼学上面,故他抄录《左传》时与他气味合的他就多抄上些,不合就少抄上些,或者也许不抄。是以《晋语》曲线图是第一期短,第二期最高,第三期平,第四期高。与《春秋》《左传》的第一期短,第二期平,第三期高,第四期平完全不同。
B 方形图
C 曲线图
若是再根据“西汉学者籍贯表”,作曲线图时,横格作五格——因为它只是五省有人,每格代表一省。纵格作八格——因为人数最大的数为十五,每格代表一人,画出来图太高了不好看,故作每格代表二人。纵横格画好了,底部多画一格把省名填上,再依各省的地置致点于格内,例如山东十五人,每格二人,应于山东项内由下向上数第八格中间(因十五不足十六,故只点在八格中间,不点八格顶端)画上个圆点。再于河北项第二格中间画一圆点,又于河南江苏两项在第一格顶端各画一圆点。又在陕西项内第一格中间画一圆点。画完将这一点与那一点画一直线引线,以便连贯,如前边所举的曲线图是。
D 直条图
若是要画成直条图,仍如上法,不过将点与点间,不画直线引线,从点上起画一垂直线引到底,这种垂直线应该特别粗,点的上端半圆改成双角,如前边所举的直条图是。
E 分布图
若是要制成分布图时,绘一地图,就是将山东、江苏、河北、山西(山西虽无人,但不能空过不画)、河南、陕西六省绘成一幅图。山东是十五人,应于山东图上画十五个圆黑点,陕西是一人,应于陕西图上画一圆黑点,如此画完就成了。使人一看某省黑点多,就知道某省人数多;某省黑点少,就知道某省人数少;某省没黑点,就知道某省没人。但这黑点须要画圆,不宜随意点上,使与字上的点分不清楚。再点的大小各省应一律,也要看地图的大小再决定大小,假如山东为一百五十人,就要点一百五十个点,陕西一人,只点一点;若是陕西,点太大了,在陕西的图内无关紧要,与陕西同样大的一百五十个点,点到山东,把山东图全点黑了,这便不好。反过来说,点若是过于多了,图画大些,假使山东因为要点一百五十个点,点儿小了,同样的点点在陕西图上只一下,人就容易忽略看不见。是分布图,点的大小应为注意。
F 形像图
若是要制造形像图时,假定统计的结果,十个学者中研究经的六人,史的一人,子的二人,集的一人。我们就画大小相同十个人,一并排站着,其中六个人完全画成黑衣服,是完全黑色代表研究经书的人。两个人画成空白,是完全空白色代表研究子书的人,一个人画成上身是空白,下身是黑的,是以上白下黑代表研究文集的人。一个人画成上身黑下身空白,是以上黑下白代表研究史书的。这种用颜色代表某种人,原无一定,不过形像图下面,总得有说明,注明某色代表某种人,使人一看就明白了。
G 组织图
五、 由统计结果推求变化原因
兄弟是举《史记》《汉书》为例,敢请同学诸君,组织一个团体,每人担任一部书。例如甲同学担任作《后汉书》,乙同学担任作《三国志》,把各时代的学者籍贯表都作成了,再依各表把兄弟前边所举历代学者籍贯总表填好,再依总表制造各种图形。表图都制好了,结论也得了,然后再就它所以然,假如结果是山东在两汉学者最多,江苏在明清学者最多,山西在唐明两代学者最多,求它一个地方为甚么古时学者多,现在学者少呢?又为甚么古时学者少,现在学者多呢?又为甚么学者在某时代忽多,在某时代又忽少,到了现在又慢慢的多起来呢?推求它这所以然,不是可以凭空而定的,要请诸位同学各人就各人所担任的史书,细看一次,是不是因为:(一) 官厅因特种关系而重用某地方人,因而某地方人以有机会可乘,是以学者增加;(二) 学者在某地方讲学时间很长,因而引起某地方人的求学心,是以学者增加;(三) 某地方因富庶,或交通便利,或距都城较近,因而学者增加;(四) 官厅因特种关系压迫某地方人,某地方人以无机会可乘,是以学者减少;(五) 某地曾无学者去讲学,因而引不起某地方人的求学心,是以学者减少;(六) 某地方因天灾兵变人民穷苦,或交通不便,或距都城太远,是以学者减少。
统计学是整理既往,推测将来,假使我们不是这样作起,其他同志在那里作革命事业,我们在这里是“非先王之服不服,非先王之言不言”,开着倒车走,有甚么兴趣呢!