3.3.3 译文句法成分评价

3.3.3 译文句法成分评价

为了深入了解机器翻译的问题,在WMT的人工质量评测中,除了在句子级对机器翻译的质量进行排序,以获得句子之间相对差异外,还加入了一项更费时间的评估工作,就是给定原文句子,评价者对机器译文中的句法结构成分(短语结构)的翻译质量进行排序,或者对句法成分的翻译质量进行二分类的评价,可接受(yes)还是不可接受(no),也有一个“不确定”的选项,并开发了相应的软件工具来指导、收集整理多人评价结果。这被命名为机器译文的元评价(meta-evaluation)(Callison-Burch et al.,2008)。

句法成分排序的前期准备工作是将原文、参考译文和机器译文进行句法分析,并实现对应短语对齐,可以用自动词对齐工具和短语抽取工具完成原文和译文的对齐操作。针对自动句法分析和对齐可能存在的错误,给评价人员以相应提示,并通过以下的提取标准尽量减少对齐错误。评测时,将原文和译文句子中对应的句法成分高亮,以帮助评价人员对这一对应成分翻译的质量进行判断。句子翻译质量的句法成分的设置标准是:

· 不能是整体句子

· 是由多个单词构成的短语,一般至少3个,至多15个

· 在原文和译文中有较稳定的对齐关系

Callison-Burch et al.(2008)给出了一个句法成分评价的实例图(图3-21)

alt

图3-21 译文句法成分的翻译质量评价实例

评价者对于高亮的短语的翻译质量作出排序判断或优劣选择。

句法成分评价的人工评价的一致性,也用Kappa系数K值来衡量。与句子级评价相比,句法成分评价的一致性并不低于句子质量排序的一致性,而且yes/no的判断已经达到很一致的程度。如表3-18所示:

表3-18 句法成分和句子翻译质量评价的一致性

alt

对于人工句法成分的元评价结果还有很多的应用亟待开发,不仅对机器翻译系统的研发,也对自动评价方法研究有重要意义。但是目前对这种付出了巨大劳动的、有很高一致性的评价结果的可重用性不高。