3.3 基于关键语言点的评测
基于关键语言点的评测方法在评价学习者译文中常用,如翻译考试和练习等。关键语言点通常是涉及译文的主要语义、学习者常见错误等内容,由教师来确定。在机器翻译评测较早的研究阶段,北大的俞士汶(Yu,1991)就组织了评价机器翻译的评测数据集。评测句子力求涵盖汉英机器翻译中的常见语言现象,如多义词、特定的句式、专有名词等语言现象。不过语言测试点和测试数据集都是和语言专家一起制定的,历时多年,反复修改,代价很大。测试集相对固定,灵活性较差。Zhou et al.(2008)根据关键点评测的思想进行了改进,提出了自动提取评测语言点的方式,并构建了用于863机器翻译评测的WordPecker系统。
基于关键语言点评测方法,可以有目的地测试机器系统对特定语言现象的翻译质量。在我们提出的层次化的评测体系中,也给出了人工评测点的设置和提取方法。相比评分方式,关键点评测方法的评测深度要深入一些,便于发现翻译系统的具体问题。