3.5 小结
本章全面介绍了翻译自动评价研究的方法,既有基于参考译文的评分和排序,又有无参考译文的回归分析;既有宏观上的质量打分(或排序),又有粒度更细的译文诊断评价;既有传统的基于n-gram的比较,又有较深层的语言分析;既有传统的训练方式,又有较新的神经网络学习模式。各种方法各有优势和不足,目前没有任何一种方法在所有评测数据集的性能一致性地优于其他系统。以下是我们对各类自动评测方法的认识和总结。
(1)基于和参考译文比较的译文评测算法避免了跨语言分析,部分可以做到与语言无关,算法简单而且容易实现,是自动评测的主流。但基于语言浅层比较的方法难以找到和参考译文具有较长相似的序列或结构,词序变化更造成了在句子和篇章的高维空间下完全匹配的概率很低,从根本上看,各类算法缺乏语义层的分析,对质量不同的译文的区别性能不高,甚至是对人工参考译文的评分也很低。Callison-Burch(2010)曾指出,WMT基准指标BLEU和NIST得分其实不能反映译文质量的差异或改变。
从介绍中可以看出,针对机械匹配的评价方式所存在的问题而采取的改进研究主要从四个角度进行:
一是采用更柔性的匹配策略或利用外部语言资源提高检测机器译文和参考译文相似的能力。如不连续的skip-gram、同义词、Wordnet和重述(paraphrase)关系等。
二是调整与质量有关的各种因素的权重。如NIST依据信息值设置权重、METEOR偏重连续匹配序列、区分实词和功能词等。
三是更深层语言分析基础上的比较。如分析机器译文和参考译文在语法结构、语义角色等层面的相似来评判译文质量。由于深层语言分析工具的性能欠佳,而且又是对不完美机器译文的分析,导致语言形式分析的代价较高,但也没有带来评价性能的显著提升。
四是扩充参考译文。费用问题使得WMT多年来的评测数据只提供一篇参考译文。Dreyer和Marcu的HyTER系统说明了多篇参考译文对基于比较的评测算法的重要性。因此通过各种手段扩充参考译文也是研究方向之一。由于“生成”译文缺乏语法和语义约束,不一定是合法译文,这也影响了评测的准确性。
但整体上,匹配方式评价方向上的改进空间越来越小。
(2)不需要参考译文的质量估计使得评价更廉价、更实用,但质量估计主流方法仍然需要带有人工评价结果的大量机器译文的训练语料。甚至建立在一百多种浅层语言特征学习上的质量估计模型,仍不及有参考译文的评价性能。另外,语言和领域的适应性问题也是翻译质量估计面临的主要困难。
(3)译文诊断评价是从更深入的层面分析译文存在的问题,而不仅仅是简单的质量打分或者排序,这是自动评价研究的重要趋势之一,但由于可能出现的翻译错误极其复杂,在缺乏对语言形式表达和深层语义对应规律认识的情况下,自动识别关键语言点十分困难,仍然需要依赖大量的人工构建的知识。诊断评价是在所有评价方式中开展得最少的一种。从较早的语言测试点和评测句子集的构建研究,到后来的自动评测点的提取,再到目前WMT中句法结构成分的人工评价或排序,都在不断深入到译文中发现翻译中的规律性问题。
对应同一原文的合法译文一般有很多,不同译文的语言形式灵活多变,但却都受到原文的制约而有相同语义,我们将其称为同源译文。抽象语义表示AMR跨越语言形式的分析,从语义关系层表示句子的各部分组成,为研究同源译文多变的语言形式与内在语义之间的关系提供了新的资源和方法。我们初步尝试了基于AMR评价译文质量的方法,效果还待进一步验证。
(4)在传统神经网络基础上发展而来的深度学习是目前最热的研究方向。这是一种结构主义的人工智能路线,能够基于复杂结构模型实现复杂的非线性函数关系。自然语言理解是深度学习下一个要面临的挑战。我们认为,将AMR和深度学习结合用于译文质量深层评价,将是一个全新的非常值得探索的方向。
机器译文自动评价研究在多种语言形式特征的利用和提取上进行了多方探索,实现了一些简单易行的黑盒算法,但整体上评价深度仍较浅,无法透过多变的语言现象实现语义层面的质量评价。自动评价与人工评价的结果还有很大的差距,探索深度译文质量自动评价势在必行。
注释
1 NIST算法的名称源自美国国家标准和技术研究所(National Institute of Standards and Technology)。
2 http://stanfordnlp.github.io/CoreNLP/
3 ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v11b.pl
4 https://github.com/jflanigan/jamr
5 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/
6 http://www.quest.dcs.shef.ac.uk/
7 http://scikit-learn.org/
8 http://scikit-learn.org/
9 www.cs.waikato.ac.nz/ml/weka-l.v.,04/2012