3.1.8 基于抽象语义表示的评价

3.1.8 基于抽象语义表示的评价

近年来,深度学习(deep learning)在图像和语音等领域大获成功后,计算语言学研究也纷纷转向神经网络的方法。深度学习成为最有影响力的关键词之一。Christopher Manning(2015)却指出:深度学习作为一种黑盒方案不是解决计算语言学问题的唯一途径,不能忽视从认知和语言特点的角度对语言理解的探索。

抽象语义表示(Abstract Meaning Representation,AMR)是一种广义依存(universal dependency)关系,理论上可以做到与领域语义无关。AMR用单个根节点的、标注了边和叶节点的有向图表示一个句子的语义框架(如图3-6)。其中节点表示概念,节点可以是词汇、Propbank框架集或关键词(如实体类型、量词和连词等)(Palmer et al.,2005);有向边表示概念之间的关系。目前AMR中共定义了100多种关系(Banarescu et al.,2012)。

AMR的英文资源数据库Sembank还在不断完善(Xue et al.,2014;Banarescu et al.,2013),其他语言的AMR资源也在建设中(曲维光等,2017)。AMR对句子较深层语义结构的表示可拓展自然语言处理研究的广度和深度,例如利用PropBank中的关系可确定两句话是否是同一个主题,以及构建抽象文本摘要和实体链接等(曲维光等,2017)。但AMR的研究和应用还处于探索阶段。

对应同一原文往往存在多种合理的译文。这些同源译文呈现出多变的语言形式,却表达了相同语义。同源译文形式变化和语义的关系还没有得到充分研究,译文质量评测还主要限于语言形式的比较(秦颖,2015)。

一、AMR简介

AMR以句子为基本单位标注语义关系,超越了句法分析对句子语义的表示能力。AMR中,单根图结构能体现句子语义的主干;论元共享能够表示较复杂的语义关联;通过补充隐含或省略成分还可还原完整的语义。这三点是AMR的优势所在(Bos,2016)。

AMR用于表示句子的核心语义,即“谁对谁做什么”(who is doing what to whom)。即使语言形式不同的句子,也可以有相同义结构,即相同的AMR标注结果。例如根据标注标准,以下三个句子的AMR标注结果和语义结构图相同,如图3-6所示,其中ARG0和ARG1表示不同的论元(AMR目前有四种论元)。

The boy saw the girl who wanted him.

The boy saw the girl who he was wanted by.

The girl who wanted the boy was seen by him.

alt

图3-6 具有相同AMR结构但不同形式的英文句子

二、相同AMR结构句子类型

我们深入解析了AMR人工标注标准(Banarescu et al.,2014),总结了具有相同AMR语义结构的十种情形:

(一)谓词是相同词根的词、同义词、近义词或词组的句子

AMR对具有相同词根的词语都还原为其动词形式并以主谓关系解析,这样就可以得到相同的AMR结构。同义、近义或词组在Propbank的框架相同时,句子的AMR也可以相同。例如下面不同fear在Propbank中均为fear-01框架:

My fear of snakes fear-01

I am fearful of snakes fear-01

I fear snakes fear-01

I'm afraid of snakes fear-01

因此,四个句子的AMR结构均为:

(f / fear-01

:ARG0 (i / I)

:ARG1 (s / snake)

(二)语义相同但语态不同和强调主题的句子

AMR标准不区分动词的主动语态和被动语态。另外,通过角色逆序结构以区分焦点和起强调作用时,AMR标注的结果也相同,这种情况下句子的语序会有较大的差别。以下五个句子的AMR结果也是相同的。

The boy wants to be believed by the girl.

The boy wants the girl to believe him.

The girl who was seen by the boy wants him.

The boy is wanted by the girl he saw.

The boy's desire is for the girl to believe him.

(三)词性和词形的变化不影响AMR结构

包括多种情形:如动作与动作的名词、形容词形式,不定式结构与动名词结构,形容词及其相应的ly副词形式等,这些变化可以不引起AMR结构的变化,例如下面句子中的responsible和responsibility:

The boy is responsible for the work.

The boy is responsible for doing the work.

The boy has the responsibility for the work.

(四)修饰成分的形式变化

修饰成分的变化情形主要有:从句<->形容词修饰、名词定语<->of结构、所有格<->of结构及其他论元和论元逆序关系(即AMR中的ARG和ARG-of关系)等。修饰成分的变化有时会影响局部语序的变化,但语义结构能保持不变。例如:

the white marble <-> the marble that is white

the boy's opinion <-> the opinion of the boy

chip maker <-> maker of chips

(五)句子语义相同但极性不同

只要句子的语义相同,AMR就相同,不管句中否定词和否定位置,甚至可以是带有否定意义的词汇给出否定概念。以下为两组例子,其语义结构相同。

I don't have any money.

I have no money.

the comment is inappropriate

the comment is not appropriate

(六)There be结构与隐含的存在意义

比如:four boys making pies和there are four boys making pies的AMR结构是一样的。

(七)数字、日期、时间、货币等各种表达形式,缩略词或缩略语,专名的不同写法等不影响AMR结构

英文中数字表示方法可以是单词形式,也可以是阿拉伯数字;日期时间的表示可以是单词或部分包含数字,如February 29, 2012、29 February 2012、2012 16:30、4:30 pm、4:30 in the afternoon、half past four 2/29/2012;货币也有多种等值表示形式,如C$20和20 Canadian dollars;百分比的多种表示:如25%、twenty-five percent、25 percent等。

(八)谓词相同但句法结构发生变化

句法形式变化时,只要核心词语义不变,AMR也相同。但这种情形下句法形式将有较大差异。以下三个句子分别采取单句、从句和短语结构形式表达了相同的语义结构。

He described the mission as a failure.

As he described it, the mission was a failure.

His description of the mission: failure.

(九)状语位置变化可以不影响语义结构

原因、结果、条件、目的、方式状语的位置非常灵活,可位于句首、句中和句尾,但句子的AMR结构仍保持不变。如:

The boy will sing unless he is given money.

Unless the boy is given money, he will sing.

(十)其他情况

AMR相同的情形还有很多,如附加同义或强调成分,Propbank中的同一种关系或有关联的关系替换等,都可能得到相同的语义结构,这些情形统一归入该类。如:

the boy and the girl <-> both the boy and the girl

his boat <-> his own boat

除此之外,AMR是句子语义的简化抽象表示,本身舍弃了一些语义的细节,AMR不区分单复数的差异,无法表示时态语态,也无法表示引号的含义;不能区分量词的管辖范畴,不能表示句子间的共指关系;不能区分名词–名词,名词–形容词之间的关系等(Banarescu et al.,2014)。

三、同源译文的变化框架

(一)同源译文的变化层面

我们以汉英译文为主研究同源译文的变化框架。尽管有原文语义的约束,可接受的译文数目仍可能是无限的。从语言学角度来说,我们认为译文的变化可归纳为原文认知、译入语信息组织、译入语语义选择和译入语语法结构四个层面的差异。下面结合具体的例子进行说明。下例中一句原文S对应T1-T4四句英文译文:

S:高新技术产品出口亮点频现,为广东对外贸易的增长做出了重要贡献。

T1:Export of high-tech products has frequently been in the spotlight, making a significant contribution to the growth of foreign trade in Guangdong.

T2:There are many bright signs in the export of new high technology products, which have significantly contributed to Guangdong's growth in foreign trades.

T3:High technology product export registers positive signs and makes great contribution to Guangdong's foreign trade growth.

T4:Hot spots of new hi-tech product export frequently appears, making significant contribution to the growth of foreign trade volume of Guangdong Province.

(1)多种翻译方法的顶层差异源自对原文的不同认知

译者对于原文的理解不同,翻译时需要转换的信息就不同,从而导致不同的信息组织方式。一般情况下,句子越长,信息量越大,译文存在较大差别的可能性就越大。认知不同造成了译文句子结构和意义构建的多样性。翻译中采取的意译、比喻、拟人等手法均源自该层面的差异。

认知层的差异可能导致译文的迥异,可能找不到任何形式上的共同点。这种高层差异,非常复杂难以把握。例子中四个译文不存在该层面的差异。

(2)译入语的信息组织方式引起的差异

在译者充分理解原文后,导致译文差异的第二层原因来自译者对译入语的不同应用方式,包括句间关系的处理和行文方式的设计。比如,为了保持译文的连贯性和一致性(cohesion & coherence),译者会调整修饰语的位置,变化原因和结果状语的次序,安排时间和副词的位置,有时甚至可以采取注释的形式给出附加信息。

上例中,T3将两个子句信息组织为并列句的形式,而其他译文则译为从句。T2作为静态存在句的形式组织信息,其他译文采取了动态的以谓词为核心的方式。

(3)译入语的语义选择不同引起的差异

译文在保证原文语义的前提下,在具体词汇的选择上,不同译者有细微的差别,如情感的差别、语气的轻重、语言的色彩、语言应用场合、是否使用指代、是否添加重复和同位语等。近义词和重述方式为译者的语义选择提供了多种可能。如例中对“亮点”的翻译,就有四种不同的译法。

(4)译入语的语法结构引起的差异

表达完全相同的语义,可以采取不同的语法形式,在语态(voice)、时态(tense)、情态(modal)、体态(aspect)上均有多种变化。英语中存在丰富的词汇形态变化。上例中,T1采用完成态,其他采用一般现在时。“产品”的译文有“product”和“products”之分。

同源译文的差异基本可归入这四个层面之内。第四层以下就是用相同的语言形式表达相同的语义了。

我们提出同源译文的变化框架,主要是想通过对合理译文的差异性分析,侦测哪些译文的变化是可接受的,并以此进行翻译质量的评价。由于对于顶层译文的差异非常难判断,目前我们只针对第二到四层进行研究。我们尝试将这些变化映射为AMR模型,并用于判断译文的合理性。

(二)同源译文的变化到AMR的映射

结合上面对相同AMR结构的分类,将同源译文的变化框架映射为AMR结构。英语句子以谓词为核心,同源译文变化的第二至四层大致可映射为三种AMR结构:核心词不同、核心词近义、核心词相同。

(1)核心词不同

由于译者对用译入语组织信息的方式不同,导致句子核心谓词不同,相应的各种论元也就不同。下面的两句同源译文就属于该类情况。一般情况下,由于语义相同,往往有一个表达核心意思的子模块相同,比如elect-01部分。

#原文:法国总统选举举行第一轮投票

#译文1:France holds the first-round of presidential election

alt

#译文2:First round vote of French presidential election begins

alt

(2)核心词为近义或同义词(组)

同源译文差异的第三个层面是语义词汇的存在,因此可映射到AMR结构中近义或同义词(组)的情形。例如3.1节中,“做出了重要贡献”就被译为了“making a significant contribution、significantly contributed、making great contribution”等同义词(组)。一般情况下同义或近义的替换不改变论元,AMR结构是相似的,对语序的影响也是局部的。

(3)核心词相同

翻译时如果选择了相同的核心词,只是语法形式存在一些差异,那么译文的AMR将呈现几乎相同的结构。例如:

S:国际足联执委会还宣布了一些改革措施。

T1: Executive Committee of FIFA also announced some reform measures.

T2: The Executive Committee of FIFA has also announced some changes.

T3: The board also announced a pack of reform measures.

四、实验结果

(一)评测算法和数据集

Cai & Knight(2013)提出语义结构匹配算法Smatch,用于分析AMR标注的一致性。这里我们借鉴Smatch分析同源译文三个层面的AMR相似度,并基于机器译文的AMR和参考译文的AMR的相似度评价译文的质量。

AMR自动标注工具还在研究中,目前开源工具有JAMR4,但标注的准确率很低,尤其是对于长句的分析性能很差。因此,我们选择了LDC机器翻译评测数据中的句子进行了筛选,只分析长度小于25个词的句子的AMR,并对JAMR的结果进行人工修改,最终形成一个小规模数据集,由75句原文组成,每一句原文对应4个参考译文和6个机器译文。

初步统计,75组参考译文中,属于核心词不同的有24组,占比32%,属于核心词同义词的有18组,占比24%,属于核心词相同的有33组,占比44%。可见同源译文中核心词相同的译文比例最高,其次是核心词不同的。而核心词相同和近义的情形共占68%,说明对于此类新闻语料的翻译,约有70%的译文AMR结构相同或相似,因此通过比较机器译文和参考译文的AMR结构能在一定程度上反映译文的质量。

(二)同源译文的Smatch

同源译文的映射为AMR结构的三种情况,核心词相同,核心词近义和核心词不同。三种情况下,同源译文在75组句子上Smatch得分情况如表3-7。

表3-7 同源译文的语义结构相似得分

alt

结果验证了同源译文的AMR结构相似,并且当核心词相同时,译文的AMR结构应该十分相似才能成为合理的译文。

(三)Smatch得分用于评测机器译文质量

通过分析机器译文的AMR结构和参考译文的AMR结构,计算语义结构Smatch得分作为译文质量的评测方法。多篇参考译文取其最大相似得分作为译文的质量最终得分。将该得分与人工评分结合求Pearson相关度。表3-8是对6个机器系统的译文评测结果,并与经典的BLEU评测得分进行了对比。

表3-8 机器翻译系统的评测结果

alt

BLEU得分会出现因为某个n-gram没有匹配得分为0的情况,尤其在句子一级,译文得分为0是常见现象,大大影响了BLEU评测准确性。本实验中句子的Smatch得分为0的情况主要出现在由于译文有错误而无法正确分析的情况,6个系统译文每次至多1次Smatch值为0,因此基于Smatch值的评测结果优于BLEU。另一方面,Smatch是从语义结构上分析相似,更接近评测的实质。结果初步验证了基于AMR评测的有效性。

通过分析英文句子AMR结构相同的各种情形,并结合同源译文的变化框架,将译文的AMR变化归结为三种情形,基于语义结构比较算法Smatch分析了同源译文的相似和基于Smatch得分的译文质量评价。与BLEU算法相比,AMR模型使自动评价从语言形式深入到语义层面,实验初步证明了其有效性。