2.2.4 众包评价
一、众包方式简介
首先介绍众包(crowd sourcing)的概念。维基百科中对众包的定义是一种分布式的问题解决和生产模式。将一项的任务分解后置于计算机网络平台上,分解后的任务可由任何人去完成,并给贡献者支付一定报酬。众包通过大量非雇佣人员的劳动完成一些重复性的、不适合计算机完成但对人来说相对简单的工作。众包机制中有三个主要问题:贡献者的激励机制、众人结果的聚合和质量管理。
在机器翻译评测中,人工评测结果仍然是最终判断系统性能优劣的主要手段。传统的翻译评价对评价者的语言水平有较高要求。聘请语言专家评价的方式代价很高而且评价周期很长,对于一些小语种而言,有时很难找到相关专业人士。目前机器翻译的性能还远不及人的翻译水平,因此对于评价机器译文这种要求不高且数量众多的质量评价工作,从2009年开始,国际机器翻译研讨会(WMT)普遍采取众包的方式对机器译文质量进行评价(Callison-Burch,2009),并且在亚马逊(Amazon)网站上开发了著名的Mechanical Turk(MTurk)平台。该平台基于众包的思想收集用于人工智能研究方面的数据,这些任务被称为HITs(Human Intelligence Tasks)。完成这些任务对人来说是轻而易举的,但目前对于机器来说还比较困难,比如识别图像中的物体种类、为图像添加说明文字、评测机器译文的质量等。MTurk上的用户包括两个群体,一是提出任务的需求者,称为Requesters,他们将项目任务分解,制定奖惩策略和支付标准,二是完成任务的志愿者,称为Turkers。在MTurk平台上对志愿者支付的报酬是很低的,一般是评价一个句子10美分。由于有大量网络志愿者参与,研究人员可以在短时间内和有限的项目资金条件下获得尽量多的研究数据,还能够获得具有统计意义的评价结果。尤其是一些小众语言之间的翻译,在难以寻觅到专家时,众包方式更显示出了优势。评测周期短而且十分廉价是众包评价的主要优势所在。
针对在Mturk平台上的翻译质量评价的可靠性,Callison-Burch(2009)将其与语言专家的评价结果进行了对比研究,他认为:经过各种方式综合的Turkers的评测结果与专家评测结果的相关度很高,甚至能够达到专家之间评测相关度的上界值(专家评测之间相关度的上界值约为0.78左右)。相比之下,自动评测算法,如BLEU(BiLingual Evaluation Understudy)得分与专家评测的相关度则远远低于这些语言志愿者们的评价与专家的评价相关度。研究结果有力支持了众包评价方式,现在WMT每年的人工评测都采取众包的方式,只不过从2014年后网络志愿者变成了机器翻译的研发人员。
众包评价也存在很多争议和问题。Bloodgood & Callison-Burch(2010)在MTurk平台上收集乌尔都语到英语的人工翻译测试集时发现了很多问题,比如一些Turkers会投机取巧,将待译的内容直接复制粘贴到在线机器翻译系统中,再将机器译文提交上来。尽管明确说明不可以这样做,在网络平台上难以确保志愿者不这么做。因此也采取了将原文图片化等一些措施防止作弊的发生,并阻止作弊的Turkers参与其他评测活动。另外,很多Turkers的语言能力难以保证,需要对很多人的翻译结果进行整合,才能得到较高质量的译文。最后,人工录入译文时难免会出现各类拼写错误等,为此,研究者们又增加了后期校对环节以保证译文的质量。
二、众包方式的质量控制方法
在MTurk平台上,根据估计,不认真完成工作的Turkers的比例有时能达到30%,严重影响了译文评价结果的信度。因此,众包方式的翻译必须采取相应的质量控制方式。
在机器翻译质量评测任务中,Callison-Burch(2009)曾采取多种方法控制译文人工评测的质量。在第一种方法中,一句译文必须由多人评价,从多个评价结果中选择占绝大多数的结果,从统计角度克服少数评价结果产生的偏驳;第二种方法是对评价者的资格提出要求,让语言志愿者在参加评价前先通过一个简单的语言能力的测试,比如让其对10个句子的翻译质量进行评价,再将Turker的评价结果和专家的评价结果比较,来判断其是否有能力胜任评价任务。第三种方法不需要设计专门的语言能力测试题,不需要收集专家的评价结果,而是对全体Turkers评价结果进行加权投票,从统计方法上有效控制评价的质量。最后一项措施,为了掌握评价结果的信度,可重复一次评价过程,征集其他Turkers对已有评测结果再进行评测,以决定评价结果是否可信、可用。
Zaidan & Callison-Burch(2011)在收集人工译文时还提出了对Turkers给出的译文的机器学习启发式分类法,区别哪些译文是可以接受的,哪些译文不能接受。从Turkers及其译文中提取一些直观的、有意义、便于计算的特征,作为打分的依据。这些特征包括:Turkers所在的国家、说英语的年限、译文的语言模型的困惑度值(利用了5-gram的语言模型)、译文句子的长度(对过长和过短的译文增加惩罚项)、与从网络中提取的该语言的n-gram集合的匹配率、与其他译文的编辑距离、与其他译文相比的排名情况、优于其他译文的比例、(有条件时还可参照)专家翻译的校对结果等。各个特征被设为不同的权重,综合起来作为分类器的特征。
通过上述各种各样的对Turkers的管理和质量控制方法,在一定程度上保证了众包方式给出的译文质量接近专业翻译的水平(BLEU得分达38.67),保证了众包方式译文评价的准确性和可靠性,并且大幅节省了研究成本。
三、对众包方式的质疑
针对众包这种工作方式的质疑也来自多方面,既包括伦理道德方面的,也有针对标注结果方面的。Fort等人很早就指出MTurk平台的问题,说它不是一个游戏或社交媒体,而是一个不规范的劳动力市场,存在劳动报酬过低、逃避税务问题,没有对劳动者实施必要的保障措施等(Fort et al.,2011)。作为一种数据收集方式,众包为研究者们解决了有限的资金和大规模数据之间的难题,但也存在很多不完善的地方。