对当前中国大陆高校图书馆所购史学类数据库的统计与分析

对当前中国大陆高校图书馆所购史学类数据库的统计与分析

张晓宇(1)

在史学研究领域,向有“谁占有了资料,谁就具有了发言权”之说。不过,计算机和网络技术的迅速发展,给传统史学研究方式带来了极大的变化。大数据时代下,往日只属于部分学者“不传之秘”的许多珍稀历史资料,经过专业技术人员的电子化处理,建成专业的数据库,即可突破相关资料的物理和地域限制,为更多学者所接触和使用。在有目的地查找一类史料时,传统的“枯灯古卷、皓首穷经”式做法效率极为低下;如果这部分史料被电子化或录入数据库之中,人们则可通过公共网络检索或数据库查询迅速获取。这极大地加快了历史资料的传播速度,提高了史学资料的利用率。传统历史学“学在官府”的局面被打破了,其产生的影响堪称一场史学研究的革命。

史学类数据库的极大丰富,大大便利了历史学者的研究,不过同时也形成了一个新的技术壁垒。在“学院派”历史学研究的主要阵地——高等院校和科研院所之中,其图书馆所订购的史学类数据库的内容和类型往往是决定该校师生或科研人员史学研究便利与否的重要因素。本文拟以参与过2012年全国学科评估历史组的高校为例,对其订购的史学类数据库进行统计和分析。考虑到数据等客观因素及笔者主观原因,本文难免有不足之处,权作抛砖引玉。

一、统计标准及其结果

为统计便利,本文将以由传统历史文献、档案、古籍等为主要内容形成的电子文本、图像集合作为史学数据库的认定标准,以各校购买的具有限定使用范围的商业化史学数据库为主要统计对象。中国人民大学图书馆给这类数据库的形象标签是“事实类”“人文数据库”。2004年以来,中国教育部分别于2004年、2009年、2012年进行过三次学科评估,对参评各高校学科进行排名,发布报告。(2)本文即以参加2012年中国史学科、世界史学科评估的中国大陆高校为研究对象,共涉及64家高校,涵盖中国大陆开设有历史学本科专业的主要部属和省属院校。

本文所统计的数据库信息,全部来自于上述各高校图书馆网站,所取信息截至2015年11月29日。主要筛选标准如下:(1)各高校试用类数据库不纳入统计;(2)综合类的期刊数据库、索引数据库、学位论文数据库、会议论文数据库和以当代电子书为主的数据库,不纳入统计;而主要以历史期刊为主,并将作为史学研究重要来源的期刊数据库如上海图书馆的“晚清民国报刊数据库”等纳入统计;(3)学术检索引擎如“读秀”“书生”和“一站式检索”等暂不纳入统计;(4)可以公开获取的公共网络数据库不纳入统计;(5)各校自建的古籍数据库不纳入统计;(6)各校之间的文献检索、传递平台数据库不纳入统计;(7)社科院系统图书馆不纳入统计范围。

依照前述标准,笔者查阅了64所高校的图书馆网站,筛选、统计后共检得98种中外史学数据库,其中外文数据库32种,以Gale公司系列和ProQuest公司系列最为著名(见表1);中文数据库约66种,以爱如生公司系列最为突出(见表2)。

表1 外文史学数据库名录一览

表2 中文史学类数据库名录

续表

笔者依据2012年历史学科评估结果中的“中国史”排名情况,将64所高校分成三组,排在前21位的高校为第一组(见表3),以第22位至43位的高校为第二组(见表4),其余高校为第三组(见表5)。各组高校订购上述数据库的数量统计如下:

表3 第一组高校订购数据库数量一览

表4 第二组高校订购数据库数量一览

表5 第三组高校订购数据库数量一览

表6 购买数据库较多的前22所高校一览

由上可见,第一组高校总计购买了245种数据库,比第二、第三组的总和还要多,约占总量的54.81%;第二组购买141种,约占总量的31.54%;第三组购买61种,约占总量的13.65%。在购买史学类数据库较多的高校之中,前22所的购买量占总购买量的70.69%之多(见表6)。这些高校之中,5所为地方省属高校,4所211高校,其余皆为985高校;购置数据库最多的前10所高校中,只有河南大学1所省属高校,其余皆为985高校。而跻身前三的北大、南开和浙大图书馆,以超过20种史学数据库的量级,远远地将其余高校甩在身后。

最受欢迎的数据库,亦即高校购买最多的前10种中文数据库(见表7)和前10种外文数据库(见表8)统计如下:

表7 最受欢迎的10种中文数据库一览

①“中美百万”并非纯粹意义上的商业数据库,但是由于参与各校投入了较大的成本,因此本次亦列入统计。

表8 最受欢迎的10种外文数据库一览

由上可见,中文数据库之中,爱如生和上海图书馆、书同文等机构的数据库最受高校用户青睐;英文数据库之中,采购Gale公司和ProQuest公司系列数据库者占了绝大多数。

二、当前史学类数据库建设的一些问题和发展趋势

当前史学类数据库建设中,主要存在以下一些问题:

(1)资源重复建设。

在统计过程中,笔者发现数据库重复建设的问题较为突出。如《申报》电子版,至少存在湖南青苹果数据公司版、北京爱如生公司版和台湾中国近代报刊数据库等三种检索系统,其中以台湾版的使用最为便捷。又如《北华捷报》(字林西报),也存在ProQuest版和上海图书馆版、荷兰Brill公司版三种,而后两者的检索效率完全不如ProQuest版。中国传统古籍的电子化方面,也存在较多的重复性建设,如《四库全书》《二十五史》等。而方志类文献的重复性建设尤为严重。这不仅造成有限资源的不当配置,加剧了低端竞争,也不利于各大数据库商的发展。因此,在今后的史学资源电子化过程中,各大数据库公司需要加强协调和合作,避免前述问题,实现共赢发展。

(2)对个人用户市场重视不够。

当前史学数据库主要针对的是高校集团用户,对于庞大的个人用户市场挖掘不够。这突出体现在各大数据库的个人购买机制设置不够明显和人性化。各大公司的营销模式主要在于向各大高校推销集束式资源库,通过包年、包库、限制IP范围和限定并发数等方式来控制访问量。但是正如前述统计所显示,目前的数据库购买情况如同一场“豪门盛宴”,而其他各高校也存在着相当的史学研究群体,这一市场不容小觑。鉴于数据库资源分布的严重不均衡,在“爱如生论坛”和“国学数典”“学乐酷”等学术资源社区中,催生了一种“文献互助”模式。用户通过上传他人急需的资料,获得征求资料者的“悬赏”或网站奖励的积分;利用这些积分,用户可以获得不同程度的权限,下载不同级别的学术资源。这种虚拟交易数量庞大,市场可观。各大数据库公司不妨借鉴当前电商的运营模式,大力改进个人用户的购买方式,实现数据库检索、阅读、购买一站式服务,甚至借鉴互联网思维,通过特色化定制、广告投放等手段,探索数据库资源的免费使用方式。

(3)学界和数据库商的合作不够。

在研究中,学者经常需要处理大量的数据,传统的方法是靠人力手动翻阅查找,雅称为“积累”。大数据时代,学者和数据库商可以加强合作,如在研究早期,由学者和数据商联合搜集文本,数据商对文本进行电子化,建立检索系统。学者不仅可以通过提供文本资源的方式获得数据商的资助,也将大大缩短项目研究的进度,实现双赢互助。

(4)中文光学字符识别软件(Optical Character Recognition,OCR)的开发不够。

笔者在使用中发现,英文类文献的识别软件以“泰比光学”(ABBYY FineReader)最为卓越,可以处理绝大多数的英文文献,大大节省人力,这类软件有着极大的市场需求。中国古籍文字形式多样,形态各异的书法又为集约化、规模化的文字识别增加了难度。但总体而言,中文识别软件的开发较为滞后,亟须技术创新和突破。

三、大数据时代对史学研究的影响

大数据时代的到来,推动了公共史学的兴起。传统史学资料被权威机构或少数学者掌控的时代一去不复返,公众对于史学研究的参与程度已极大提高。在这种情形下,史学资料不再是学院派学者和官方机构的专属,对于历史事件和人物评价的话语权也不再单一,这有利于促进史学研究的多元化、平民化发展。在信息传播极为迅速的时代,任何意图欺骗读者,遮蔽或篡改历史的行为都可能收获激烈的反作用。网络论坛对于各种历史事件和人物经常深入挖掘、激烈讨论,其中最大因素就是互联网科技的推动。网站和新闻客户端热衷于发表各种通俗历史文章以博得点击率,自媒体作者们也在挥洒着创作热情。社会公众对于历史类读物有着无尽的渴求,通俗类史学读物受到热烈追捧。相比而言,学院派历史学家因各种因素被限制介入当下的政治话语空间,其专业史学著作往往过于“碎片化”、精深化,而显得曲高和寡,也因此被藏之高阁,当然这并不意味着这些研究没有学术价值。

由于资源配置的不平衡,专业史学研究领域“学在豪门”的态势反而在某种程度上得到了强化。大数据时代的“云计算”必须以掌握大量数据为前提,史学研究亦是如此。于是,公众史学门槛的降低,一定程度上却抬高了专业史学研究的入门资质和成本,专业史学家不能再混迹于传统政治史的考据、背书或者人物臧否等传统史学论述模式中,史学研究必然向精深化、专业化发展,计量化、跨学科研究已经成为新的追求目标。而受制于高校研究经费的支持程度,各大高校在数据库资源的采购上表现不一。据统计,不少985/211或部属类高校在史学类数据库的购置上出手大方。除却学校决策者的远虑外,还因为这些高校身处中国行政化教育资源分配“金字塔”的高阶,有着充沛的采购经费,可以为其师生提供更好的科研条件。与之相比,地方高校往往在这方面捉襟见肘。笔者认为,长此以往,资源配置不均衡将加大史学研究水平的差距。

大数据时代,在国际互联网空间人为设置沟通障碍将大大抬高史学研究乃至各学科的信息获取成本,阻碍学术资源的正常流布,降低本国学术研究水准,可谓恶果重重。事实上,在历史类档案和书籍的数字化、开放化程度上,国外的学者和网站已走在前列。而网络防火墙的设置使得诸多免费的国外学术资源在中国大陆难以正常获得。在统计数据库中,笔者发现,各大高校图书馆购置的外文数据库有不少需要国际IP方能登录查询,高校必须另外配置技术工具方能实现登录。此外,学术研究必备的Google scholar、archive等免费的学术检索和资料下载网站在中国大陆亦难以正常登入,这不能不说是一件憾事。

四、结语

计算机和互联网技术的发展给史学研究带来了极大的便利,推动了公共史学的兴起;但同时由于资源配置的不平衡,专业史学研究领域“学在豪门”的态势反而在某种程度上得到了强化。据本文初步统计,购置数据库最多的前22所高校中绝大多数都是985和211高校,这两者占有了70%以上的史学数据库资源。这意味着在数字化资源领域可能产生“穷者愈穷富者愈富”的“马太效应”,它对于史学研究水平的影响,值得我们持续关注。同时,当前史学类数据库的建设存在重复化和个人市场开发不充分、学商合作不充分等一些问题,亟须改进创新。


(1) 作者单位为福建社会科学院历史所。

(2) 参见中国学位与研究生教育信息网,http://www.chinadegrees.cn/webrms/pages/Ranking/xkpmGXZJ.jsp?yjxkdm=0602&xkdm=01,02,03,04,05,06。