2.6.2 语料库法
我们可以通过观察翻译的产品对翻译过程作出推断(Bell 1991)。基于此种假设,Bowker & Bennison(2003)对学生翻译库进行了研究。而Alves & Vale(2009)试图结合翻译语料库数据,建立专业译员翻译单位模型;他们还基于语料库对不同翻译单位(宏观和微观单位,micro-unit vs. macro-unit)的编辑和修改进行了分析(Alves & Vale 2011)。这些研究符合过程和产品研究的整合趋势(Alves, Pagano, Neumann et al. 2010; Hansen 2002; Muñoz Martin 2016)。在生产和接受的背景下对文本语料进行分析,可以为译者的决策提供证据,从而对翻译过程有更多的了解。
语料库法辅助的翻译过程研究借助语料库工具对译文进行适当的处理,一般是对双语平行笔译或者口译语料库10中的原文和译文进行相应的标记,从而寻找译者双语处理(即翻译过程)留下的认知痕迹,总结有关翻译过程的规律性特征或型式。频率是语料库法使用的常见指标。语料库翻译研究的传统方法是搜索某些词项或语法结构形式在译文中的使用频率,从而达到了解译成语言(translated language)普遍特征的目的。语料库法辅助的翻译认知研究可以对认知策略敏感的词项或结构进行标注,从而对译者的认知策略使用频率和翻译型式进行客观描述,并与翻译认知路径建立相关性。研究者得以在此基础上推测有关翻译认知过程。
探讨认知层面上的对应关系时,“原文没有——译文有”的情况往往具有重要的价值和意义。译者在一些情况下会采取补偿策略,即通过在另一处采用有关项目的表达来补偿某处没有实现的表达上的对应。如果采用基于句级平行语料的分析,那么一旦补偿策略超出了句级限制,就无法在语料中呈现出来。因此,要获得有关认知或概念化方式更全面、更深层的认识,就必须突破“局部对等”框架和有关方法的限制,在整个文本层面上寻找对应实现情况和认知对应关系。
翻译中的认知对应情况在一定程度上也可以通过表达出现的频次、词型搭配的数量和认知维度的分布情况反映出来。根据研究目标和研究对象的不同(如考察认知策略和认知过程,而不是考察局部是否对等),可使用不同的语料库方法和不同标注类型的语料。除使用双语语料库外,可以单独研究译文语料库,也可以和本族语语料库(含当代语料库和历史语料库)进行对比,以确认译者认知策略的创造性。谭业升(2013)基于多种语料库进行的“脸”的翻译认知研究可以作为这类研究的参考。
研究者也可以将翻译过程数据整合为语料库数据,描述对应翻译过程不同阶段的翻译产品,比如哥本哈根商学院的翻译与翻译技术研究创新中心(Centre for Research and Innovation in Translation and Translation Technologies,简称CRITT)的翻译过程研究数据库(Translation Process Research Database,简称TPR-DB)。Translog-II也可以对键盘追踪和眼动数据进行自动标注匹配(这也是Eye-to-IT project的研究内容,参见Jakobsen 2017:35-36),形成过程语料库。再如,正在开展的欧盟CASMACAT计划11(Cognitive Analysis and Statistical Methods for Advanced CAT)试图建立新一代的翻译工作平台,直接应用与用户交互的MT操作系统生成建议译文,并记录译后编辑的操作,供研究之用。Alves, Pagano, Neumann et al.(2010)就提出,可利用标注语料库来识别与不断增强的认知负荷相对应的翻译单位,并解释了这一方法的优点。
基于语料库的研究中许多语料需要手动标注,因此需要考虑如何保证研究的信度与效度。Halverson(2010)回顾了对使用语料库法进行认知翻译研究的方法论的争议,尤其是使用语料库推断翻译的认知过程的有效性问题。比如Tummers et al. (2005:233)指出,鉴于语料库数据的离线性质(offline nature),它们并不适合用来证实语言使用背后的心理过程,更无法用于推断有关的神经过程。因为语料库不能提供潜在认知结构和认知过程的直接证据,无法单独与某种认知结构相联系,因此还需要语料库之外的实验证据的支持。
相比实验法,语料库法具有一定的优势。虽然语料库法也可被看作一种实验,但是不像行为测量法与生理测量法那样对实验环境有一定的要求。实验研究一般是在一个受控的实验环境下进行的,往往会比较两个群体(即实验组和控制组)及其某些变量被操控时的行为属性。然而,在翻译研究中可能根本不存在可供比较的个体译者和一组译者。而使用语料库法可以避免这一问题:语料库法研究中的参照对象可以是正在研究的翻译文本的其他翻译,翻译文本中对被调查问题中立的其他段落,也可以是一个平行或类比文本的语料库。
语料库法可以基于双语对应的频率,提供翻译过程实验研究中刺激材料的支持性证据,帮助实验研究选择刺激材料,从而避免任意性,在一定程度上增强实验研究的生态效度(Saldanha & O'Brien 2014)。
如上所述,我们可以对认知策略敏感的词项或结构进行人工标注,从而描述译者的认知策略使用频率和翻译型式,并与翻译认知路径建立相关性,推测有关的翻译认知过程。然而,人工标注本身存在一定的主观性,在效率上体现不出语料库法的优势。随着语义标注技术的完善,基于语料库的认知研究将有可能产生新的突破。
英国兰卡斯特大学(Lancaster University)语料库研究中心Paul Rayson博士主持开发了基于网络的语料分析平台Wmatrix,这是一种基于知识(knowledge-based)、基于语法和语义标注,进行文本语料分析和对比的新型工具。Wmatrix的独特优势在于,其内嵌的语义标注工具USAS(UCREL Semantic Annotation System)可自动为文本进行语义域(semantic domain/field)标注(Rayson 2008)。2018年12月17日,Wmatrix 4.0上线。
语料上传至Wmatrix平台后,通过CLAWS tagger和USAS tagger自动进行语法和语义标注。目标语料库经Wmatrix处理后可显示词项在词性和语义等方面的频率和分布信息。使用平台自带的参照语料库(如BNC Sampler Written Corpus)和上传的自建参照语料库,可获得关键词(key words)、关键词性(key pos)和关键概念或语义域(key concept/domain)等列表,提供相对频率(relative frequency)以及对数似然值(loglikelihood)信息,从而为文本语料的分析与相互比较提供帮助。
WMATRIX 4.0的USAS语义赋码集(semantic tagset)以《朗文当代英语词典》(Longman Lexicon of Contemporary English)为基础,包含21个语义域,如“情感”“食物与农业”“政法、伦理与战争”“建筑与房屋”“教育”“时间”“社会”“言语行为”“运动”“娱乐和体育”等,这些语义域还可细分为212个二级语义域,在这个基础上又划分出94个三级、四级正向语义域(用“+”标注)和147个三级、四级负向语义域(用“-”标注)12。例如:
G1 Government and Politics
G1.1 Government
G1.1- Non-governmental
G1.2 Politics
G1.2- Non-political
G2 Crime, law and order
G2.1 Law and order
G2.1+ Lawful
G2.1- Crime
G2.2 General ethics
G2.2+ Ethical
G2.2- Unethical
G3 Warfare, defence and the army; Weapons
G3- Anti-war
G标示语义域集合,其中次级域G2“Crime, law and order”下面分为G2.1“Law and order”和G2.2“General ethics”两个次级域,前者又可分为正向次级域和负向次级域。关于语义标注,Rayson(2002,2008)进行了较为详尽的说明。
从语义域之间以及语义域与词项之间的构成关系可以看出,Wmatrix的语义标注体系的设计符合认知语言学的认知域概念,所以语义域即认知域。在语义标注的语料库数据基础上,可以开展翻译文本中关键概念和语义域分布特征的研究,以及隐喻提取和隐喻分布描述的研究(参考孙亚2012;孙毅 2013)。基于语义标注的语料库分析将为翻译认知过程研究中多种实证方法的结合带来无限的潜力。笔者主持的2014年度国家社会科学基金项目对基于Wmatrix的认知翻译研究作了一些探索。
此外,新的大数据技术以及人工智能技术的引入为语料库辅助翻译过程研究开拓了发展的空间,尤其是能够在大数据中建立文本模式的技术。
庞剑锋等(2001)在《基于向量空间模型的文本自动分类系统的研究与实现》一文中,探讨了文本分类所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等,提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。施建军(2011)在《基于支持向量机技术的〈红楼梦〉作者研究》一文中运用计算机人工智能中的支持向量机技术,以44个文言虚字频率为特征向量,对《红楼梦》的120回进行了分布特征研究。我们可以利用大数据技术,如支持向量机(support vector machine)提供的深度学习、自动学习功能,由机器通过统计和学习自动发现文本的模式,借以推测认知特征。虽然目前还没有将这类技术应用于翻译认知研究的尝试,但已有研究显示,文本挖掘技术(text mining technology)在语料库辅助翻译过程研究中有利于揭示新的认知维度,提出有关无意识认知过程的假设,以便开展进一步的实证研究。