2.2.2 人工评价的影响因素
2025年09月26日
2.2.2 人工评价的影响因素
译文质量人工评价中,评价者的评价态度、理解能力、语言素质(包括语言能力、语言知识)等诸多因素都会影响到评价结果。译文质量评价是一项主观性很强的工作:译文是否忠实原文、忠实的程度、译文是否可读、可读的程度等问题都由评价者依据个人的理解自行掌握。尽管有评价标准的指导,仍然会出现不同的人对同一篇译文打分不同、相同的人在不同时间打分不同的情况,评价结果的波动性和不一致性是最常见的问题。
除了评价态度和语言能力等客观因素外,研究语言测试的很多学者也研究了影响人工评价译文质量的其他主观因素,包括评价人员的严厉度、趋中性,甚至年龄、性别因素也会对评分结果有影响。其中严厉度被认为是评价结果存在差异的主要因素(Kondo-Brown,2002),反映出评价员对译文错误的容忍程度不同。对同样的错误,有的人认为很严重,有的人认为是一般性错误,这样给出的评价结果的宽松度就不同。趋中性也称趋同性,指的是评价人员倾向于给出“中庸”的结果,既不给好的译文很高的分值,比不给差的译文很低的分,打分的区分度不大。当然,对一些存在模棱两可或有争议的内容评价时,趋中性的做法是犯错风险最小的。趋中性的特点在翻译评分中表现得十分显著。
不仅是在对学习者译文的评价中存在上述问题,在历年来机器翻译的人工评测中评价的一致性也是最受关注的问题之一,尽管采取了多项保证评分信度的措施,并且构建了网络评分平台,用技术手段辅助评价工作,但人工对机器译文打分的内部一致性指标——加权Kappa系数也仅仅在0.380到0.483之间(Artstein & Poesio,2008),处于较低的水平。