远读和计算方法

四、远读和计算方法

到目前为止,我对数字说的相对较少,对计算机几乎没提。我把远读描述为一种与早期宏观文学史形式相结合的传统,只有一种越来越多的实验方法来区分,它是由在得出结论之前得到定义的样本和假设来组织的。对这一传统最重要的跨学科联系,直到最近,都位于社会科学而不是计算科学中。

然而,在过去的25年里,这种社会学的文学方法确实与计算传统融合在一起。这种融合的历史是复杂的,我不会试图在这里详细说明它。人们可以指出马克·奥尔森(Mark Olsen)和芝加哥的ARTFL项目,或马修·约克斯(Matthew Jockers)和斯坦福文学实验室,或约翰·昂斯沃思(John Unsworth)和一个参与MONK项目的人的群岛。在任何情况下,很明显,大规模文学史现在充斥着从语料库语言学、信息检索和机器学习获取的想法。我不打算淡化这种融合的意义。这是我职业生涯中最激动人心的部分,我感谢我刚才提到的每一个人。

我也不想说,计算只是实现拉德威和莫雷蒂已经完全定义的目的的一种手段。数字人文的批评者常常认为计算科学应该仅仅对人文主义者起到帮助作用,它永远不应该“挑战”我们的“基本标准或程序”[31]。这误解了计算学科在思想史上的地位。计算的价值不仅仅是加速文学研究或扩大其规模;相反,来自计算科学的思想给文学学者带来了新的问题[32],并鼓励我们以更明确的理论方式构建现有问题[33]。例如,机器学习代表了一种新的思考文学概念的方式,如体裁,这种思维方式可能是围绕松散的谱系相似而不是清晰的定义来组织的[34]

总之,我根本没有动力加强学科界限,也没有坚持严格的文学研究内部史。但我不得不承认,对我来说,远读仍然是文学史方法的名称,而不是一种计算方法。可以肯定的是,它有多种谱系,根植于许多学科。但在追踪与过去的联系时,总的来说,我仍然会强调穿过莫雷蒂、拉德威和威廉斯的线索。我的理由很简单。以社会科学为基础的文学方法本身就能产生显著的历史结果——不管有没有计算机。但相反的情况一般都不是真的。计算方法本身,没有社会的调查尺度,还不足以改变文学史。

我们知道这一点,说白了,因为计算方法在文献中应用了30年,却没有对学科产生很大影响。《计算机与人文》杂志成立于1966年。它成为一个雄心勃勃的知识界的中心,为语音学和和谐建筑、数据库设计和语言教学作出了重要贡献。但整个项目对文学史影响不大。斯坦利·费什(Stanley Fish)在20世纪70年代观察到了同样多的东西[35]。马克·奥尔森在1993年的期刊上写道:“计算机辅助文学研究未能对整个领域产生重大影响。”[36]奥尔森认为,错误在于试图通过检查“单个文本或作者作品中微妙的语义或语法结构”来解释“文本是如何达到其文学效果的”。事实证明,计算机“非常不适合”这些新的关键问题,集中在这些问题上“往往会阻止研究人员使用该工具提出它更适合的问题,对大量简单的问题审查语言特征”[37]。奥尔森接着说,具有讽刺意味的是,这种更广泛、更简单的文字处理似乎正是文学理论和符号学的最新发展所要求的。(他引用了罗兰·巴斯[Roland Barthes]、米歇尔·福柯[Michel Foucault]和M·A·K·哈利迪[M.A.K.Halliday]先生的话。如果这两个研究分支能够联系起来,计算分析可能最终会在文学研究中发挥核心作用。)

这篇文章最初把我拉到20世纪90年代中期的远读[38]。我仍然觉得这是一个有先见之明的论点。奥尔森的优点之一是,他忽视了错误的反对,那就是让我们的研究被正确的文学问题所塑造,让它被数字工具的能力所引导。相反,他同时考虑了景观的两个方面,并强调了一个交集区。在这个区域,新的文学问题恰好与新的技术机会交汇。那个十字路口的区域原来是极其有成效的,奥尔森的预言几乎都实现了。除了作者归属的重要(但孤立)外,计算机对我们对单个文本和作者的理解的贡献仍然相对较小。但计算方法现在对文学史非常重要,因为它们可以应用于大型数字图书馆,在一个理论框架的指导下,告诉我们如何在社会规模上提出有意义的问题。奥尔森的文章可能忽略了一些学者已经在朝着他所建议的方向前进[39]。而我们今天使用的框架,相比奥尔森预测的,可能更多的是社会学的,而不是符号学的。但随着预测未来的水晶球的发展,他1993年的文章还不错。它同时解释了计算机和人文学科所体现的传统最终如何对文学史产生重要意义,以及为什么这种意义在很大程度上要到21世纪才能实现。

此外,奥尔森的言论仍然是对从事数字人文学科与远读交叉领域工作的学者的有益警告。算法是真正重要的,它们不仅仅是工具。但它们也不足以用于这个项目。到目前为止,计算只是结合针对历史问题的相当广泛的样本,对文学史产生了影响。一个广泛的示例不必是详尽无遗的集合,它可能只相当于几十本书。但对几十本书的问题进行框架化,往往还需要对收到的研究问题进行彻底的重新思考。因此,我理解为什么学者们往往倾向于从算法开始,希望他们在应用于熟悉的作者的问题时能够产生一些有趣的东西。不幸的是,以我的经验,这是错误的经济。奥尔森的警告并没有被任何技术上的进步所取代:电脑仍然不能教会我们多少关于新批评的东西。(也许有一天,但还没有完全。)在被称为“数字人文”的庞大的基督教社区中,坚持轻松汇集数字的方法的障碍可能是不明智的。但我特意将远读与数字人文区分开来,部分原因是为了突出问题:使用计算和重构文学探究的尺度是两码事。第一个不会给你第二个结果。