4.2 机器翻译评测的开放平台

4.2 机器翻译评测的开放平台

机器翻译质量评估QE开放任务(shared task)用于机器翻译自动评测算法的研究和比较,以促进机器翻译和自动评测的研究。自动评测算法与机器翻译研讨会一同开展,针对提交的各个翻译系统的翻译结果进行即时自动评测。质量评估不提供参考译文。开放平台的研究主旨有五项:探索更多与译文质量有关的因素;找寻更适合评价译文质量的机器学习模型;对比回归方式评测和排序方式评测的优缺点;测试新的自动评估系统的性能;探索自动评估的前沿和发展。

QE任务又分为若干子任务,每年的子任务略有调整,常见的子任务包括:词汇级的评估(word-level)、短语级的评估(phrase-level)、句子级的评估(sentence-level)、文档级的评估(document-level)和系统级的评估(systemlevel)。不同评估粒度的应用有所不同,比如词汇级评估的主要应用有:

· 突显需要进一步编辑修改的译词,那些被标注为bad的词是需要编辑的词

· 告诉用户句子中哪些部分翻译的准确率较低,利用分析标注为bad的词类

· 从机器翻译的句子中挑选中最佳的部分,也就是那些都标注为good的句子部分

而句子级评估的主要应用有:

· 判断译文是否可以直接出版,信度高的译句是不需要修改的句子

· 译文是否足够准确而被用户直接使用

· 过滤出需要译后编辑的句子,也就是信度低的句子

· 在多个机器翻译结果中选择最佳译句

开放平台中详细介绍每项子任务的具体内容,发布多种语言对的机器翻译的训练集、发展集和测试集数据,规定提交评测结果的格式和时间要求等。甚至包括基本特征提取方法,语言模型和n-gram表格等初级研究数据。最终公布评测的结果,并给出分析报告。该开放平台极大地促进了自动评测方法的研究和发展。

我们把近几年开放评测平台的网址罗列如下,供读者详细浏览和了解更多的信息。

2013年:

http://www.statmt.org/wmt13/quality-estimation-task.html

2014年:

http://www.statmt.org/wmt14/quality-estimation-task.html

2015年:

http://www.statmt.org/wmt15/quality-estimation-task.html

2016年:

http://www.statmt.org/wmt16/quality-estimation-task.html