6.3 语料库错误标注工具

6.3 语料库错误标注工具

标注翻译错误时,标注工具成为提升标注效率、保障标注结果一致性的必要手段。目前开放的用于可视化标注和分析翻译错误的工具已经有不少。如Blast(Stymne,2011)和Addicter(standing for Automatic Detection and Display of Common Translation ERrors)2,以参考译文为参照标注译文中的错误位置和种类,并且支持多篇参考译文的参照。另外,一些标注工具仅仅和参考译文对照,也就是单语对齐软件,如Zeman et al.(2011)构建的工具,可以实现自动错误分析(词汇和词序)、语料浏览、对齐信息统计等功能。Meteor-xRay(Denkowski & Lavie,2010)也是一个可视化的实现参考译文和待评译文的对齐的工具。双语对齐工具关注译文和原文的对齐情况,著名的有Berkeley(Liang et al.,2006)和GIZA++(Och & Ney,2003)。另外一些工具,如Costa-mt evaluation和Delic4mt也是公开的标注工具。自动识别和分类工具Hjerson3,可以利用Addicter查看识别到的错误。错误分类的方法参照的也是Vilar et al.(2006)的方案。

MeLLange项目采用MMAX2标注工具标注学生译文错误,支持XML格式的文本,标注内容和主文本分开存储。MMAX2工具的界面如图6-2。

alt

图6-2 MMAX2工具的界面

关于MMAX2的介绍有在线的视频,帮助标注者熟悉标注过程,视频网址为http://corpus.leeds.ac.uk/mellange/images/annotating_with_mmax.htm。

另外,针对评测机器翻译的辅助工具也开发了不少,有的也是公开的,比如Costa等。Costa为人工评价机器译文和标注译文中的错误提供了良好的操作界面,提供原文和机器译文的错误分类,也可以有参考译文。用户标注错误时可以通过简单的点击进行,也可加上解释说明。工具界面如图6-3。

alt

图6-3 Costa机器翻译评价的界面