3.4.1 评分还是排序

3.4.1 评分还是排序

对于机器译文的质量,人们习惯于用一个实数得分来评定其质量情况,比如设置一定的质量评价等级:常见的有5档、7档、9档,甚至可以是百分制的得分。由于存在多种影响人工打分的主观因素和客观因素,人工对译文质量评判时对于评判标准和尺度的掌握不同,导致评判结果一致性和稳定性较差。准确评定一篇译文的质量得分是一件十分困难的事。

部分研究者在机器翻译研讨会时提出,评判多篇机器译文质量时采取排序的方式比评分的方式(Duh,2008;Ye et al.,2007)更好,主要体现在以下三方面:

一、人工评判时,量化译文的质量分值比区分两篇译文中哪一篇更好更加困难。

二、多年人工评分的内部一致性和外部一致性研究结果显示,译文流利度和准确度评价的Kappa系数只有0.22-0.25之间,而人工质量排序的Kappa系数可达0.37-0.56(Callison-Burch et al.,2007)。因此从可靠性上看,质量排序的结果比打分结果更可靠。

三、比较译文质量的差异在部分应用中更加实用,比如区分不同机器翻译系统的质量、区分同一个系统在研发中是否有质量的变化等。

当然,要知道排名第一的质量比排名第二的质量到底高出多少,单纯靠排序结果无从知道,还需要有个绝对的分数来表示。

排序任务的形式化描述为:对应一个原文stN个机器译文输出otnn=1、2……,NMt个人工排序结果,MtN。这样我们就得到了一个Mt维度的标注向量yt,比如yt=[2、4、1]。因此,排序任务可以很容易地转化分类问题,利用机器学习的方法来解决,只不过这里的标记结果是排序的名次而不是得分的等级。

但是,排序任务是个有序的分类问题,不同于一般的分类器或回归分析,为此提出了各种解决排序问题的算法,如Ranking SVM等。

通过两两比较对译文质量排序的评测方法忽视了译文质量的绝对差距,只关注相对不同。尽管在人工评测时区分优劣比给出绝对得分相对容易,评价的一致性相对更高,但也失去了很多信息,脱离连续语境下的质量比较存在很多偏颇。为此,有研究者提出了在单一语言下的直接评测方法,称为直接质量评估(Direct Assessment,DA)。DA人工评测中,不给出原文,只给出参考译文和待评价的若干译文,在同种语言条件下,让评价人员对两个句子的流利度和准确度打分。流利度打分时不给出参考译文。在最近的众包评价平台上,DA人工评测的一致性很高(Bojar et al.,2016)。