本章介绍了衡量宏观翻译质量评价算法的评测指标,包括质量评分方向和质量排序方向的各个指标。评分系统的评测指标主要是Pearson相关系数、平均准确率均值、误差率,质量排序方法的指标有平均倒排名次、Kendall τ、Spearman等级相关度和在WMT中比较新的DeltaAvg指标。
WMT中有一个研究翻译质量评测的开放平台,每年为参加比赛的机器翻译系统进行评测,并在此基础上提供研究自动评测的数据和组织对算法的评比,推进了机器翻译和评测方法的研究。