4.1.1 质量评分算法的性能指标
一、皮尔逊相关系数
自动评测算法对系统译文的质量评分是否和人工评分一致,相关度是最常用的评测算法性能的指标。皮尔逊相关系数(pearson correlation)是常用的统计分析指标之一。其统计定义如下:
设两个随机变量X=(x1,x2,…,xn),Y=(y1,y2,…,yn),其均值分别为、
。皮尔逊相关系数r的计算方法如式4-1:
皮尔逊相关系数的取值范围均为[-1,1]。1表示最大的正相关,-1表示最大的负相关。一般认为,若皮尔逊相关系数在0.4以下,两个变量的线性相关度较低,0.7以上属于高度相关的两个变量。皮尔逊相关系数可用于反映在一定量的测试集上自动评分与人工评分的线性一致性。
二、平均准确率均值
平均准确率均值(Mean Average Precision,MAP)是用于信息检索中的衡量检索系统准确率的一个指标,也被用于评价自动评测算法。MAP是平均准确率的均值,即针对单次查询的准确率的平均值。对应到翻译质量评价中,是对多次译文排名评价准确率的平均值。MAP具有区别度高和稳定性好的优点。
下面以具体例子说明这个指标的计算方法。设有10个译文,其质量排序从1到10。某个自动评测算法对这10个译文的质量排序结果如表4-1,最右边一列为每个排名的准确率,再求得本次评价的准确率AP。
表4-1 系统排名与评价的准确率
本次评测的准确率AP可以这样计算:
基于这样的多次评测结果的平均就得到MAP值。
三、误差率
误差率表示系统评分和实际得分之间的差距。误差率有两个指标:平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Squared Error,RMSE)。
平均绝对误差用于衡量两个连续变量之间的差距。X和Y两个变量的分量构成一组比较的数据(xi,yi)。所有分量差距的均值就是MAE,如式4-2:
均方根误差常用于模型估计值和观察值之间的标准差,计算公式也很简单,如式4-3: