变革亦变异?——大数据时代的史料收集与历史书写

变革亦变异?
——大数据时代的史料收集与历史书写

陈文俊(1)

随着计算机信息网络技术的日益发展,当今社会已逐步进入“大数据时代”。作为信息领域的专业术语,“大数据”概念如今已成为集规模性(volume)、多样性(variety)、高速性(velocity)、价值性(value)特征为一体的“综合大数据现象”。(2)对于它的应用与研究,目前已经横跨多个领域,不管是自然科学,还是人文科学,都能见到大数据技术和理念的身影。(3)“大数据”脱胎于自然科学,应用自不待言,而在人文社科领域的重视程度,尤其人文方面则相对较弱。(4)单从历史学来说,“大数据”观念只是近几年才开始流行起来,其应用还处于相对基础的阶段。不过,随着跨学科研究不断发展和深化,“大数据”在史学研究领域势必会得到更广泛的应用,这已成为国内外学界共识。(5)但是,机遇与挑战并存,如何在大数据时代推动史学研究走向新高度是一个难题,不仅在于技术层面,还在于观念层面。本文将对“大数据”是如何改变史料收集方式和影响史学研究思维的进行简要论述。

一、资料收集方式的转变

史料是史学研究的基础。傅斯年认为,“史学只是史料学”(6)。传统的史料收集最大特点是手工劳动,即史学研究者从纸质文献中寻找、抄录,完全靠人工一笔一划誊录,需要消耗大量的体力、精力和时间,这也反映出历史学研究其本质上是顾颉刚所谓的“层累造史”。方法虽“笨”,却是实在的。不过,这种传统方法亦有其局限性,一是史料有多而散的特点,中国古代史资料之多早有汗牛充栋之说,再加上近代史、现代史和世界史,可谓数不胜数;二是个人精力所限,面对浩繁史料常有“书无涯而吾生有涯”之感;三是人工抄阅,有速度限制,也有浪费之嫌,有许多材料并不是都能用上。(7)因而,采用新技术进行历史学研究是必然趋势。

(一)文献的数字化:“大数据”收集史料的基础

20世纪90年代,计算机技术日益发展成熟。历史学作为一门重要的人文学科,也从那时开始采用此技术辅助研究,并且多有提倡。有学者就从工具论的角度强调现代科学技术对于史学研究在方法和理论的革新、研究领域的拓展、研究思维的更新等方面有着重要推动作用,尤其为研究者收集史料减轻了不小的负担。(8)这是现代科技助益史学研究的第一个发展阶段。而网络技术的应用是第二阶段,网络的普及为文献的整理与收集提供了便利,无论是广域网,还是局域网,均拥有丰富的史学信息和资源。(9)如各大高校、图书馆所建立的局域网或校园网,使研究者能更快获取相关史学研究信息乃至其他学科的研究动态,从而推进史学研究的不断深化。第三阶段即当下这个信息数据不断膨胀的“大数据时代”。2012年,《大数据时代》一书的出版引发了网络和媒体铺天盖地的讨论。书中强调大数据将为人类社会带来多方面的好处,“大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计算、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门”(10)。从这段话中不难看出,史学的科学性问题在大数据面前似乎变得更加可行,一切以数据说话的时代将使过去难以统计的纷繁杂乱的人口史、经济史等方面的研究可再进一步,甚至开拓出新领域。

目前,现代技术的应用使得史料的收集整理借助文献数字化、数据库建设两大途径进行,这也是实现大数据式史学研究的前提。文献数字化的对象包括书刊报纸,尤为重要的是古籍。最初,古籍是磁盘数字化,分为图像版、全文版和图文版三种,这三者是一个递进的过程,几乎与文献数字化的发展过程匹配。这方面的工作国外始于20世纪70年代,而国内主要是从90年代开始的。据不完全统计,截至2008年,国内外对中文古文献进行磁盘数字化的共有131种。(11)想必今天种类已经变得更多了。不过,按照古籍来说,重复的也有不少,如文渊阁《四库全书》就有三个版本。但是,总体而言数量是上升的。

除了磁盘数字化的古籍,还有大量网络版数字化古籍。网络版有着易于维护、升级且资源利用率高、节省用户电脑空间等特点,可以说是古籍数字化未来发展的方向。实际上,磁盘类古籍也有部分提供网络版,如《四库全书》《古今图书集成》《四部丛刊》等。网络版数字化古籍做得较好的要属北京爱如生数字化技术研究中心推出的各种数据库,在其主页上就显示大型数据库15个,系列数据库9个共82类,还有其他类型的数字化丛书58个。后起之秀“龙语翰堂典籍数据库”采用四字节汉字处理技术,从而解决了古代文献中生僻字、古字的保存、编辑和全文检索难题。在其网站首页有“经史子集”四部集成,加上专题文献的形式构成了综合性古籍类数据库。除了相对商业化的文献数字化机构,还有各公共图书馆、高等院校等都有为数不少的古典文献数据库,如中国国家图书馆的电子文献有数字善本、甲骨世界、碑帖菁华、敦煌遗珍、西夏文碎金等经典文库,另有其他常见的古典文献。

近代报刊的数字化工作也在紧锣密鼓地进行。从1993年开始,上海图书馆采取扫描成像数字化形式,创建了全国报刊索引数据库。它分为全文库和索引库两个大类,前者分为晚清、民国两个子库,后者分晚清、民国、当代三个子库,整个数据库迄今已经收录超过5 000万条数据,揭示报刊数量5万余种,并且以每年更新超过500万条数据的速度发展。还有“大成老旧刊全文数据库”,收录清末有期刊以来到1949年中国出版的7 000多种期刊,共14万多期,还有300余万篇文章及8 082种图书。“瀚堂近代报刊数据库”则完整收录了从创刊至停刊的《益世报》(1915—1949)、《申报》(1872—1949)以及约300种近代期刊报纸。此外,国家图书馆、各地档案馆的内网数据库也是查询近代史料的重要途径,部分档案馆还制作缩微胶卷进行保存。而地方文献的数字化程度也在逐步提高,如对各种族谱、民间契约、司法档案等进行归档、建立数据库和出版。

不管是磁盘类数字古籍,还是网络版古籍、近代报刊或地方文献,其最主要和最基本的目的是为了保存史料,处于一种以资料型为主体的数据库形态(12),是进行“大数据”研究的基础。计算机技术使检索方式基本实现了从字符串、词等低级检索阶段发展到智能检索、模糊检索的高级阶段。检索方式可以满足多种多样的需要,诸如书目、卷数、作者、篇名、年代、分类、主题、专题或关键词等多个方面,查准率与查全率都很高。(13)不过,因体裁不同,古籍的检索与近代报刊的查询略有不同,如《文渊阁四库全书》是按照关键词、书名、著者来检索,从而直接定位到准确的古籍;而“大成老旧刊全文数据库”是按照篇名和刊名两大类进行简单或高级检索,若是以篇名查询,所得包含题名、作者、刊名、年卷期四个条目,而且每一项都可以进行二次检索,无需重新输入,极大地方便了学人,提高了史料收集的效率。

(二)文献的数据化:新样态史料

当今社会走进了一个信息爆炸的时代,也是一个数据横生的世纪。据国际数据公司IDC的监测统计,“2009年全球信息量比2008年增长了62%,达到80万PB(1 PB等于10亿GB),到2011年全球数据总量已经达到1.8 ZB(1 ZB等于1万亿GB),并且以每两年翻一番的速度飞速增长,预计到2020年全球数据总量将达到40 ZB,10年间增长20倍以上,到2020年,地球上人均数据预计将达5 247 GB;在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型”(14)。可见,“大数据”与“海量数据”不同,并不仅仅指数据量大的数据,还要看它的三个维度,也就是时间或速度维度(15),它不仅包含了“海量数据”的含义,而且在内容上超越了海量数据。(16)其中,采用传统数据处理手段难以处理的非结构化数据已接近数据总量的80%,并将在2020年之前以44倍的速度迅猛增长。它包括了文本、音频、视频,特别是由于传感器、物联网、互联网等技术的发展,诸如人类的肢体动作和社会行为、物体的状态和运动轨迹等都可以作为“数据化内容”来处理分析。(17)

实际上,由于互联网时代学术资源生产与传递方式的变化,以新的方法和技术从海量文本中发现隐含的知识和模式,正是大数据下各种资料集成和研究的最基本形式。简言之,从文本的数字化走向文本的数据化是大数据时代的一种趋势。但是,如何迈出这一步至关重要。从上述各种浩繁的史料数据库来看,更多的是对过去文本的数字化。当然,部分数据库已经出现了数据化模块,如对中国知网(CNKI)数据库进行关键词提取后做数据统计分析,从而得出结论。最典型的数据莫过于对各类数据库的访问记录,尤其是提供相关服务的图书馆更是在后台保存了各种数据,这是一种web数据,对它们进行收集整理不失为一种研究读者群体、选择意向、使用情况等方面情况的方式。这是对数据库的一种“偏门”用法,对各种文本、音频、影像数据库的内容并没有多少涉及。换句话说,实现文本的数据化才是大数据下史料收集成功的关键,是史学研究可以进一步深入的重要途径。

不过,由于历史学的基础史料大多属于非结构性数据中的文本,而文本又不能参与到数据挖掘中对变量类型要求是数值式字符集的建模中,所以要对文本进行处理,使其成为建模的重要变量。这是非常专业的技术,有词袋(bag of words)模型、停词(stopwords)、基本的自然语言处理(NLP)等基础文本数据预处理模式,使其能更好地利用现有的数据挖掘方法。(18)这是搭建可用于大数据研究的史料的第一步技术问题,即文本的“数据化”。接着是根据研究需要相应地采用如下一种或多种文本挖掘的关键技术——信息抽取、文本分类、文本聚类、关联规则。信息抽取或特征抽取,是对一般特征的名词或短语和数字(日期、时间及单纯数字)的检索,相比传统的信息检索,它可直接定位所需的信息,无需阅读文档全部内容。文本分类是指利用计算机自动将一篇文档归入预先定义的几个类别中的一个或几个的过程,可以按照主题、情感、风格等多种方式进行分类。文本聚类类似于文本分类,只是更依赖计算机的自动检索功能。关联规则是描述一个事物中某些属性同时出现的规律和模式的分析方法。(19)有了这些技术后,就需要有一个集合某方面主题或内容的史料库,最后在此基础上对文本进行段落的挖掘和关键字的提取,从而实现可统计、可计算的大数据式研究形态。因此,文本挖掘的主要过程就是由文本准备、特征标引、词频矩阵降维、知识模式的提取、知识模式评价和知识模式的输出等步骤组成的。如利用大数据技术对存储在云盘内的各种电子文本进行检索,获取资料;建立在各公共图书馆、高等院校图书馆网络基础上的“超星读秀”搜索系统,之所以能提供电子资料的网络下载与传递服务,同样得益于大数据技术。到2013年4月,已经有超过3 000万册书纳入Google Books,形成了一个庞大的数据库,书的内容不一定公开,但关于书的词频统计结果可以公开,成为大数据研究的一个重要资源。

不过,文字的语意问题会影响到资料收集的准确度。语境不同,语意的感情属性就会千差万别。以近代史研究中“革命”一词为例,受一篇文章的时代性、作者群体、报刊书籍性质等因素影响,“革命”的含义就有多重色彩。在清末,清政府所办的官报或者官方话语体系中,“革命”是反动的,带有贬义性;相反,革命党人的文章、话语中自然是歌颂“革命”的崇高性,显示出一词两面、语意复杂的现象。这是目前任何数据库检索方式都难以克服的困难,需要在第一遍技术性信息抽取后,再通过人工识别文本内容来确定,这是当前机器算法和人工查阅相结合的主流解决方法。

以上说的主要是对史料的静态收集,更多表现在对既有文献的整理收集,以传统史料为主,如古籍、近代报刊、地方文献为代表。而动态的汲取不仅表现在技术上的实时性,也表现在数据收集的多元化——既有实体的,也有数字的,收集形式也多样;既有按某一类型收集,也有做好既定框架后再进行填空式收集。其中一个主要应用是GIS技术,尤其常见于历史地理信息的可视化方面。目前,将GIS技术成功应用于古代文献资源库的案例主要集中在国外和中国港台地区,较有代表性的是台湾“中研院”进行的中国历史文化地图系统(Chinese Civilization in Time and Space,CCTS)研究项目,它主要以谭其骧先生的《中国历史地图册》和中国国家基础地理信息中心发布的1:1 000 000《中国数字地图》为基础,辅以其他各类历史地图和遥感影像等基础图像资源,同时整合汉籍电子文献系统、明清地方志目录资料等联合资料库。借助于该系统,用户可以古代地图为入口,了解到当时的地名设置、区域大小、重要道路以及其他重要文化信息。(20)当然,现在更多的是通过如遥感和地理信息系统和空间定位技术等实时对研究兴趣点(point of interest)进行数据捕捉,收集的数据既不同于一贯采用的以人为媒介的调查方法所获得的数据,也不是官方发布的“硬数据”,而是通过机器实时收集的一手数据和“软数据”,因此大数据技术为人文—经济地理学者提供了另一数据收集手段。(21)

还有一些动态的文本需要收集,如音频、视频等影像记录。对音频数据的收集整理,可以从叙述者的基音、音调、旋律、音频事件和对象的结构中挖掘出隐含在音频流中的信息线索、规律及特性。在史学研究中,音频资料的主角是口述材料或采访调查的录音,如时下网络上对某话题的讨论,大数据技术可以对每个个体话语中的情感表现、用语频率、意见表达等特征进行归类整理,进而分析,对讨论的结果与参与者群体、倾向等意识方面有较为精准的把握。甚至可以通过设计问卷的形式进行引导,获得相应的统计数据。

视频数据的采集,在某些方面和音频的采集是相同的,但也有其特色,比如可以更为直观地观察某个地区、群体、事物、事件,通过一个长时段的采样,建立数据链,从而分析发展趋势。比较典型的是路口监控录像,通过监测和分析通车时段、数量,可以得知交通拥堵情况。还有利用3D成像等技术对文物、古建筑等进行扫描和数据采集,获得的珍贵资料,也是构成大数据式数据库的重要组成。

二、历史书写:史观的表达

历史书写的过程实际上是逐步消化史料的过程,对史料的理解程度影响着历史书写的深度,两者是相依相生的。但是,书写分两个方面:一是历史叙事的艺术,比如是否能写得赏心悦目,令人拍案叫绝;能否读来朗朗上口,使人津津乐道;二是历史解释的艺术,基本要达到言之有据,论证充分,逻辑严谨,甚而还原史实真相。但在实际书写中,要做到两者兼而有之、恰如其分,实非易事。况且,大数据下的史料形态有着不一样的表现,会更多元化,不仅是技术层面上存储与查询方式的改变,还在于史料本身的多重性与复杂性。这些反映在历史书写中,虽不能摆脱本质上的历史叙事和解释的总体范畴,但已经表现出了新的态势。

(一)“量化”的书写方式

史学研究中,对于史料的看法,基本有着“有一分材料说一分话”的坚持。简言之,即追求史学的客观性与真实性。近代西方科学革命的爆发,出现了自然科学与社会科学的分野。历史学是一门艺术的说法也开始转变,以兰克学派为代表的历史学家运用实证的研究方法提升史学的客观程度,成为史学“科学化”的里程碑。有人因此说:“史学自1800年以来经历了一场哥白尼式的革命。”(22)进入20世纪80年代,随着社会科学技术的进一步发展,一场“史学危机”的讨论在中国骤然唱响。当时有学者称,新的历史学将服从科学整体化的潮流,而“科学整体化”就是“自然科学奔向社会科学”(23)。在此影响下,史学研究迎着潮流而上,出现了以量化为特征的“新史学”,称为“计量史学”。它是运用数学方法、统计学方法和电子计算机技术,通过各种数据关系和创建数学模型来论证说明历史现象,并揭示其内在联系。换句话说,就是用数据说明问题,这与21世纪大数据时代所强调的“数据资本”或“量化一切”不谋而合,而且大数据技术使得非结构性数据也可以进行量化,正如李伯重所说:“无论是在史料的考证还是处理方面,量化方法的确有用。”(24)

根据马克思的观点,一门科学只有在成功地运用数学之后才算达到完善的地步。也许史学的科学性正需要通过大数据技术去进一步挖掘。过去难以数计的各种纸质史料,加之时下以网络为媒介和载体的新史料,不依赖大数据技术而实现拓展性研究似乎是不现实的。梁晨提出,利用大数据理念构建量化数据库,但并非是单纯地将历史材料“电子化”,而是需要凭借历史学者对原始材料的深刻理解,创造性地进行归类和整合,具体而言是设计变量编码方式将史料记载的复杂信息灵活妥当地分类。(25)为此,他以格式化、系统性的学籍卡为基础构建大型计量历史数据库,依靠定量分析发现了新史实,如北京大学和苏州大学两校学籍卡的统计数据清楚表明,“文革”时期两校学生中农民子弟的比例不仅低于1965年前,更是在1949年后首次出现下降,这些“新史实”不仅对填补或纠正过往的历史认知颇有裨益,甚至还能有效地推动学术理论的演进与革新。(26)如金观涛团队利用中国近代思想史研究数据库、五四时期重要期刊数据库,以“民主”一词为目标进行量化分析,最终得出结论,他也指出“数据库方法引入观念史研究的意义,就是要使得晦暗不明的分析陈述变得可以验证”(27)

(二)书写群体的变化

众所周知,现代科学技术带来信息数据的高速增长,而其背后的生产者也是多种多样。有的是实实在在的普通网民,有的是从事信息制造的专业媒体人员,还有由专业设备录制下来的视频画面,而且信息类型多样,有文字、图片、音频和视频等,这些都是对某个历史瞬间的记录。或许在将来就可以成为考究历史真相的珍贵材料,反观生产者,他或她就是历史的当事人和亲历者,是史料生成的直接参与者和讲述者。当然,并不是每一个生产者都会如实反映事实,或许会掺入虚假信息或数据来重构历史,甚至将事实引向反方向。谣言的诞生不外乎如此。这是大数据时代所带来的不良影响,亦是历史学者需要面对的问题,既得益于大数据的帮助,又要直面其引起的信息混乱。

正是基于发达的网络技术,数据信息才得以迅速传播,从生产者到消费者几乎以秒来计算,这是任何传统史料所无法实现的。作为生产者,其中有原创,也有再造,甚至一遍遍地复制传播,到最后是否真实已难以评判。而且每经历一次复制,数据量就会增长,这也是大数据时代数据膨胀的一个原因。还有一种情况是对原创的结果进行编辑再创造,最后形成一个完整的信息链或数据链,实现了一个整体性文本。这可以是短时期内实现的,也可以是长时段不间断的制作。对于这段“历史”来说,他们每一个既是生产者,也是消费者,更是书写者。正如国际公共史学会主席、意大利欧洲大学研究院教授瑟奇•诺里特所认为的:“数字历史,不仅带来新资料、新工具,也将产生新的历史学家。”因此,他强调史学家的责任是“抵制由于新媒体广泛传播导致历史知识的稀释以及扭曲,最好的办法就是历史学家自己学会运用这些新技术,以新的方式触摸过去,感知现在,了解未来”(28)

不过,大数据提供的信息所产生的便利,超越了时间和空间限制,能随时随地搜集各种史料,也能自如地书写“历史”。(29)目前,借助互联网传播,一批非职业历史学家异军突起,掌握了相当的话语权,无数个“当年明月”凭借着数字技术的便利,似乎正在发挥着比“职业历史学家”更大的影响力。(30)一如刘志琴谈到当前史学研究状况时所说:“史书的信誉在下降,而戏说历史的各类书籍、讲坛却受到读者的欢迎,愈来愈兴旺。值得玩味的是作者和内容的变化,在市场上走俏的如《明朝那些事》《历史是什么玩意儿》《一个都不正经》等几乎都是非历史专业者所撰写。史学的作者从史官、学者,到非专业作家,是述史主体的大变化……娱乐渗入这门学科,真可算是娱乐至死了,可死的不是娱乐,而是史学的严肃性和真实性。”(31)暂且不论历史学学科的特质,仅大数据对历史书写参与者群体数量的“培养”就足以冲击正统史学。作为专业历史学者,不但不应落于人后,反而应在历史敏锐性上更胜一筹,这就需要对新技术的掌握。而让寻常百姓接触到历史资料,学而用之,融通学术知识与日常社会,可以拓展史学研究的群体和领域,如公众史学,这也是掌握话语权的一种方式。同时,由于既有文献资料的限制,人们研究历史时总是以社会精英人物为主要对象,这就难以避免使社会精英成为历史活动的主体,而大数据有助于提升历史活动中大众主体的角色定位,(32)这就是大数据为“被书写群体”带来的变化。

(三)“书写”思维的革新

大数据时代史料的收集涉及方法论问题,而历史书写则属于认识论的范畴,两者各表一枝,却又互为表里。认识的差异,直接反映出思维的不同。传统的治史方式是在书斋、故纸堆中“爬格子”,长期以来局限在某种思维定式中。网络技术的发展对历史学者而言,最大的改变莫过于研究效率的提高。但这也引起史学家新的思考。而且,大数据由各种类型的数据组成,既有结构性数据,如数值;也有非结构性数据,如社会化媒体所创造的文本、图片、影像等,这些业已成为大数据中的主体。面对如此体量的数据,做出改变是必然的,毕竟人力有限。

至于史学的开放性与全过程思维,过去历史学家收集整理史料,经过分析论证得出最终成果,并且多是一个人单打独斗完成。大数据的出现将使这种现象变得越来越少,一是学术研究的进步需要交流,敝帚自珍、闭门造车绝不可取,只有交流才能闪现更多的灵光,促进思想的迸发;二是术业有专攻,史学家对历史已然具有敏锐感,但对于自然科学却可能力不从心。而基于现代科技的大数据,正是跨学科合作正式引领学术潮流的不二法门。故梁晨指出:“鉴于我们研究组的自身经验,组成由不同学科背景的研究成员密切互动的专项研究团队,实现跨学科合作,是一条切实可行和较有成效的道路。”(33)同样,注重团队工作也是国外学者应对大数据变化的方式。总体看来,国内人文学科的学术团队建设较弱,但也已开始追赶,如一些高校建立了学术研究中心,以此面对大数据所带来的史学新革命。大数据时代,各种社交网络平台提供开放共享的服务,这也是网络时代所标榜的理念,并且大数据技术的不断发展已经让实时共享成为现实,甚至可以全程直播。当然,史学研究无法如此,但某一阶段的研究成果的展示是可以这样的,甚至可以建立一个网站,对某一主题的研究进行实时记录,最终自然会形成一个完整的文本。这样全过程的研究形态,于史学研究而言也是可取的。

近年,史学界对于史学碎片化问题多有讨论,结果莫衷一是。实际上,碎片化问题的出现与计算机技术的发展不无关系。数字化史料既提供便利,也带来弊端。比如历史学者只需鼠标一点就可以搜到大量资料,但不难发现这些信息都是碎片化的。海量的和碎片化的信息是大数据时代的特征之一,这种碎片化会不会很严重,是一个疑问,也引发了担忧。不过,利用大数据技术处理海量信息确是必不可少的,尤其是经济史、人口史的研究,可以通过计算预测新的趋势、提出新的命题。当然,纯文本的史料同样可以通过建构数据库进行量化,以词频、词汇关联等碎片信息进行重组,从而预测可能的结果,这也是大数据研究的特征,即重预测、发现和事物间的相互关系。正是因为大数据技术可以发现大量的可统计、可计算的信息,史学研究中的碎片化信息组合起来似乎就变成一种历史趋势,如通过一个网站对访问者的访问记录进行调研,包括他们在网站上的一言一行,进而可以对思想动态、行为生活方式展开详细的统计研究,这甚至可以替代传统意义上的问卷调查。通过大数据相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,这是大数据研究的另一个特征,它偏重于社会应用,可以说是与以史为鉴同样的表达。利用大数据技术对历史上的社会行为进行一次重组,所得到的结果自然成为一种可观的史学研究成果。

三、大数据与史学的人文关怀

科学主义与人文精神是人类的永恒话题。人类的发展是一个不断追求理性的过程,通过知识的工具发现真理,而走向一个极端之时却又受到束缚。这也与人类的天性有关,人同时具有理性与感性,回归人本身是很自然的。

大数据时代,人类的生活中充斥着各种数据,似乎所有一切都依赖数据分析而存在。美国作为网络大数据应用最为广泛的国家,在数据分析预测方面投入了大量财力,但错误仍是不断。如美国的大选,盖洛普民意调查对十几万数据进行分析,预测结果却是错误的。(34)在我们如此欢呼大数据到来时,作为数字量化的权威国家却并没有提供一个理性和正确的榜样。客体知识的出现,依赖的仍是作为主体的人类,服务的也是人类情感的表达,这似乎一直是人文研究需要关照的内容。大数据强调量化一切,冷冰冰的数值变化也许在某种程度上可以预测趋势和结果,让人做好预防措施。但是,人类的情感、思维、直觉、意志等并非能够轻易被量化,甚至迄今难以数据化,这也是大数据研究的一个问题所在。

数据与人的关系具有两个面向,一个向内,一个向外。向内指的是个体间的表达关系,而向外是个人与社会、国家层面的关系,这在史学研究中可以分为微观表达与宏观叙事。个体在创造个人数据时,也在不经意间与整个社会发生着联系,从而形成大数据中的单个面向。利用大数据技术,或许可以还原个体的历史,实现微观描述,再找出同类个体,从而实现对某一类个体的宏观叙述。但是,每个个体都是特殊的,是独立自由的,享有个体的隐私权,如何能保证大数据所捕捉到的是个体的真实表达呢?况且,从技术角度讲,大数据是按照人的设计方式运行的,而人又具有主观能动性,对数据的采纳同样带有个人情感,因而所得结果是否准确是难以定论的。此外,技术的应用有其适用性,大数据技术对各种史料的数据化后,可以揭示部分历史真相,不过历史记录总有差异,数据捕捉也许是一种表象的统计,并不能揭示更深层的社会历史问题,因而大数据的科学性也将打折扣。总之,大数据是一个很好的工具,于史学研究大有裨益,但也无需讳言其中存在的缺陷甚至弊端,最终历史研究还有赖于历史学者和历史爱好者个体对于技术的掌握及采用,有赖于人与技术、人与人的不断交流与修正。


(1) 作者单位为南京师范大学。

(2) 参见方环非:《大数据:历史、范式与认识论伦理》,《浙江社会科学》2015年第9期。文中对于大数据概念的诞生采纳了巴恩斯和威尔逊的结论,即认为源于17世纪的西欧革命,而真正产生实践意义应在20世纪中叶。

(3) 在CNKI知网数据库中,以“大数据”为关键词搜索,发现2012年到2015年文献数量从68篇增至3 839篇,猛增了56倍。参见韩芳芳、范群、韩青青:《我国大数据领域研究论文的计量分析》,《图书馆学研究》2013年第8期。文中统计了1985年至2012年“大数据”研究相关论文的数量,指出我国大数据研究基本呈平稳快速发展状态,为当前研究热点。

(4) 在人文社科领域应用较少的原因主要是:1.受学科本身限制;2.新方法的应用本就较为迟滞,尤其在人文领域,如巴勒克拉夫(Geoffrey Barraclough)就认为,历史学者对新研究方法不容易接受。参见[英]杰弗里•巴勒克拉夫:《当代史学主要趋势》,杨豫译,上海译文出版社1987年版,第333页。

(5) 吴玲:《大数据时代历史学研究若干趋势》,《北方论丛》2015年第5期。

(6) 语出1928年傅斯年《历史语言研究所工作之旨趣》一文,此论影响深远,时至今日仍受众议,此处仅指史料是史学研究的基本素材。

(7) 姜锡东:《微机与史学研究手段的现代化》,《史学理论研究》1992年第4期。

(8) 参见石光荣、殷正坤:《试论科技发展对史学思维方式的影响》,《武汉大学学报(哲学社会科学版)》1996年第3期;石光荣:《论科技革命对现代史学思维方式的方法论原则和基本要求的影响》,《武汉大学学报(哲学社会科学版)》1997年第4期;包伟民:《论当前计算机信息技术对传统历史学的影响》,《杭州大学学报(哲学社会科学版)》1998年第2期;毛曦:《现代新科技革命对史学发展的影响》,《吉首大学学报(社会科学版)》2000年第1期。

(9) 陈新田:《计算机网络化与当前史学研究手段的革新》,《湖北师范学院学报(哲学社会科学版)》2001年第4期。

(10) [英]维克托•迈尔-舍恩伯格、肯尼思•库克耶:《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,浙江人民出版社2013年版,第23页。

(11) 毛建军:《古籍数字化理论与实践》,航空工业出版社2009年版,第99—109页。

(12) 吴洪泽、张家钧:《计算机在古籍整理中的应用》,四川大学出版社2009年版,第49页。

(13) 陈洪澜:《论20世纪科技发展对中国历史研究的影响》,《史学月刊》2001年第5期。

(14) 马建光、姜巍:《大数据的概念、特征及其应用》,《国防科技》2013年第2期。

(15) 涉及数据流、结构化与非结构化数据的处理速率及效率。

(16) 樊伟红等:《图书馆需要怎样的“大数据”》,《图书馆杂志》2012年第11期。

(17) 陈超:《图书馆如何迎接大数据时代?》,《图书馆杂志》2014年第1期。

(18) 李涛等:《数据挖掘的应用与实践——大数据时代的案例分析》,厦门大学出版社2013年版,第216页。

(19) 郭金龙、许鑫、陆宇杰:《人文社会科学研究中文本挖掘技术应用进展》,《图书情报工作》2012年第8期。

(20) 余传明:《基于GIS的数字图书馆:原理及应用》,《情报理论与实践》2004年第6期。

(21) 杨振山、龙瀛、Nicolas Douay:《大数据对人文—经济地理学研究的促进与局限》,《地理科学进展》2015年第4期。

(22) [英]R.G.柯林武德:《历史的观念》,何兆武、张文杰译,中国社会科学出版社1986年版,第95页。

(23) 沈定平:《科学整体化趋势与历史学的发展》,《世界历史》1986年第6期。

(24) 李伯重:《史料与量化:量化方法在史学研究中的运用讨论之一》,《清华大学学报(哲学社会科学版)》2015年第4期。

(25) 梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015年第2期。

(26) 梁晨、董浩:《必要与如何:基于历史资料的量化数据库构建与分析——以大学生学籍卡片资料为中心的讨论》,《社会》2015年第2期。

(27) 金观涛、刘青峰:《观念史研究:中国现代重要政治术语的形成》,法律出版社2009年版,第23页。

(28) 户华为、周晓菲:《激辩“历史学的数字化转向”》,《光明日报》2015年8月29日第4版。

(29) 张晓校:《新样态史料与历史书写》,《北方论丛》2015年第4期。

(30) 朱绍杰:《专家解读国际历史科学大会:史学研究大变革》,http://culture.china.com/11170621/20150920/20429509_1.html。

(31) 刘志琴:《当代史学功能和热点的转向》,《甘肃社会科学》2012年第4期。

(32) 姜义华:《大数据催生史学大变革》,《中国社会科学报》2015年4月29日B5版。

(33) 梁晨、董浩:《必要与如何:基于历史资料的量化数据库构建与分析——以大学生学籍卡片资料为中心的讨论》,《社会》2015年第2期。

(34) 刘建明:《“大数据”不是万能的》,《北京日报》2013年5月6日第18版。