4.3　小结

2025年09月26日

版权

4.3　小结

本章介绍了衡量宏观翻译质量评价算法的评测指标，包括质量评分方向和质量排序方向的各个指标。评分系统的评测指标主要是Pearson相关系数、平均准确率均值、误差率，质量排序方法的指标有平均倒排名次、Kendall τ、Spearman等级相关度和在WMT中比较新的DeltaAvg指标。

WMT中有一个研究翻译质量评测的开放平台，每年为参加比赛的机器翻译系统进行评测，并在此基础上提供研究自动评测的数据和组织对算法的评比，推进了机器翻译和评测方法的研究。