3.3.1 人工设置评测点

3.3.1 人工设置评测点

俞士汶(Yu,1991)关于人工语言测试点的研究对于早期机器翻译的自动评测起到了框架式的作用,付出了大量的劳动。与语言专家一起花了七年时间制定了较完备的机器翻译质量测试大纲,并针对这些测试点收集了较大规模的测试句子集,并用译文质量测试描述语言(TDL)描述测试集中每一个句子的测试内容和评分准则。这个测试集包含近万句根据“英汉机器翻译译文质量测试大纲”精选的英语句子,以及对应的人工译文、机器译文和TDL测试文件各一套,其中有3200多句原文和对应的若干套示例译文的评价。

英汉翻译评测大纲中,语言测试点分为若干大类,大类下分中类,中类再细分为小类,构成多级测试体系。共有九大类,第一大类“英语词汇”、第二大类“英语词组”、第三大类“英语词法分析”、第四大类“简单句”、第五大类“复合句”、第六大类“句法歧义与语义分析”、第七大类“汉语的生成”、第八大类“英汉机译中的若干难点”、第九大类“长句翻译”。每一类下给出1-2个例句加以说明评测的内容和要点。详细的评测大纲请参考相关文献。

在我们提出的层次化译文质量评测体系中,从汉语和英语的语法特征出发,说明了双向翻译时提取语言测试数据的方法、模式和典型数据。根据该标准可从大规模语料中随机形成测试数据,由机器翻译系统翻译后,再由评价员根据层次化分析评价方法,选择相应的评价层次对系统译文质量给予评价。

在汉英翻译评价标准中,为便于实现,我们从功能语法的观点出发,从词汇、短语、句子和篇章等不同语言粒度层面说明典型汉语语言现象及提取方法,并说明该语言现象在评测中的用途。

一、词汇级

词汇级评测关注的重点是词汇语义是否准确地、没有遗漏地转换为英文。实义词中的多义词和兼类词,成语和习语,专名、新词和领域术语,数字,范围词和定性词,否定词等6类词是考察机器翻译系统能力的比较重要的词类。

(1)多义词和兼类词

用途:评测译文的忠实度,系统翻译对多义词和兼类词经常出现误译、漏译、未译和未达意等问题;评测译文的流利度,如搭配问题、词性转换等。

汉语中有8000多个多义词和兼类词,下面列举几个高频典型多义词:

暗示、熬、把握、包、保、背景、本、标志、表示、补、材料、参与、承认、冲击、出口、处理、穿、窗口、凑合、打、代表、单位、导演、地方、点、对象、发展、翻译、烦恼、反映、方便、放、分子、丰富、浮动、高、固定、关系、怀疑、活动、基础、集合、计较、计算、假设、检查、建议、教授、经济、警告、宽松、困难、老、理解、理想、厉害、利用、联系、路、满足、矛盾、面目、明确、命令、跑、平静、钱、请求、热情、日子、实践、适合、思想、调整、头脑、突出、危险、希望、享受、象征、消除、笑话、需要、循环、研究、要求、倚靠、意思、影响、援助、运动、糟蹋、照顾、照应、折腾、正当、支持、主持、主张、抓住、准备、走、坐、阻碍、组织、左右、作用

(2)成语和习语

用途:评测译文的忠实度,成语和习语是否有误译、漏译、未达意等问题。评测流利度,译文是否可读。

(3)专名、新词和领域术语

用途:评测译文的忠实度,对人名、地名、机构、商标等未登录词,以及新词、领域词汇等是否有误译、漏译、未译和未达意问题。评测流利度中的专有名词的大小写、缩略写法等问题。由于该方面词汇为开放词汇,这里不便于具体列出,可根据具体评测译文进行提取。

(4)数字

用途:评测译文的忠实度,是否有误译、漏译等。评测流利度问题,是否符合英文数字的表达习惯。

一般纯阿拉伯数字可以直接出现在译文中,需要翻译的数字分为两种形式,一种包含部分中文部分阿拉伯数字,一种是纯中文表示数的形式。主要模式有:

(a)阿拉伯数字和中文混合的模式

\d+(\,|,)?\d+(\.)?\d+ 如,3.5 200,000、125,234.9

\d+(\.)?\d+(万|亿) 如,100万、11.3亿、1.5万

\d+(\.)?\d+% 如,80%、2.5%

第\d+ 如,第27、第101

其他形式 如,零下2度、1/2、3/4

(b)纯中文数字

序数词:如第二、第三、第一百零二

基数词:如十、百、千、万、亿、三、十五、五千、一百零八、一点三亿、三点二亿、零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾

约数:如几、三十多万、几十、十几、一半、数百、亿万、上千、几十万、千千万万、好几十万、少许

百分数:如百分之五十、百分之三点五

分数:如四分之一、三分之二

特殊数字:如六旬、八旬

和度量单位联合:如三十度、50克、一公斤、两米二、三尺、八十平米

(c)中英文的倍数关系的表达模式

A是B的n倍:如A is n times that of B,A is n-1 times more than B

A增加n倍,A比B多n倍:如A increases(rises,goes up,grows,be等)by n times

百分比增减:如an increse of n percent,n% increase over,reduce by,fall to

(5)范围词和定性语

用途:评测译文的忠实度,是否有误译、漏译等;测试译文的流利度问题,是否存在重复和冗余。

中文的范围词和定性语常见有:XX状况、XX问题、XX现象,或加后缀形成的词:XX性、XX化、X于、X以。典型有:

弹性、刚性、惰性、理性、慢性、记性、党性、原则性、创造性、指导性、开放性、可读性、流行性、一次性、可行性

丑化、淡化、毒化、腐化、电脑化、电气化、规范化、一体化、多极化、都市化、股份化、集约化

便于、濒于、处于、敢于、归于、基于、苦于、乐于、利于、善于、属于、位于、限于、寓于

得以、给以、加以、借以、难以、予以、足以

(6)否定

用途:评测译文的忠实度,是否有误译、漏译等;评测流利度问题中的语序问题。

现代汉语典型否定词有:

不、没、没有、别、崩、不必、不大、不公、不够、不及、不禁、不好、不会、不高、不可、不快、不利、不怕、不忍、不容、不少、不曾、不足、从不、毫不、绝不、并不、很不好、不很好

二、短语级

用途:评测译文忠实度中的误译、漏译、未达意问题,流利度中的语序问题。

可基于汉语句子句法分析的结果提取动词短语、名词短语、方位短语和从句,考察短语组合的翻译性能。

(1)动词短语VP有关

(a)副词短语ADVP+VP

(b)时间地点名词短语NP+VP

(c)量词短语QP+VP

(d)介词短语PP+VP

(e)其他短语XP+的+VP

(f)从句CP+VP

(g)方位短语LCP+VP

(2)名词短语NP有关

(a)量词短语QP+NP

(b)形容词短语ADJP+NP

(c)名词短语NP+NP

(d)其他短语XP+的+NP

(3)方位短语LCP

包含方位词的短语为方位短语。汉语主要方位词约200个。下面是常用80个方位词:

中部、之外、四面、东北部、外面、四周、上面、下层、右、左面、反面、南部、东北角、里头、东北、北、两旁、下方、西边、左、右侧、西端、西南、北边、西部、后面、顶层、东侧、顶端、下头、南、之后、旁边、上方、上层、前端、东面、中东部、以西、南侧、底部、东南部、两侧、上头、中西部、西侧、中间、以东、周围、东、西、之内、西北部、西头、北方、以南、西北、后边、南边、西面、右边、南面、左侧、左边、右面、上部、中心、前面、下面、下边、东部、以北、北面、两边、东南、顶部、北侧、南北、上、里面、下、底下

(4)关系从句CP

可参照句子级复杂句的提取方法,通过匹配关联词提取关系从句。或利用句法分析结果提取从句CP结构。例如:ChineseTreeBank的一个汉语句子的分析结果:

alt

alt

从中,我们可以提取的CP或IP有:

经海关总署批准设立的

上海海关驻崇明

类似地,基于句法分析的结果可提取不同层次的VP和NP。

三、句子级

主要涉及汉语的几种特殊句式,包括“把”字句、“被”字句、比较句、疑问句、复杂句、句子的时态等。

(1)“把”字句

用途:评测译文流利度的语序问题,语法结构合理问题。

模式:NP1+把+NP2+V+补足语

(2)“被”字句

用途:评测流利度中的语态问题,语法要素合理问题。

(a)有明确表示被动的概念的词,如“被、由、给、叫、让、受、遭到、为……所、是……的、加以”等,通过词汇匹配提取被动句。

(b)不带标志词的被动关系。形式上尚无很好的办法,可基于语义角色分析后的结果提取。

(3)比较句

用途:评测流利度中的形容词副词比较级最高级的翻译、语序问题、语法问题。

模式:

比……、越来……越……、更、比……更……、比……还、较……好、跟……一样、不如、超过、与其……不如、较之、最新、最佳、最好、最高、最长、最大、最……、第一+形容词或副词(如:第一大河、第二高山)

(4)句子的时态

用途:评测汉英译文的流利度,重点是译文动词的时态问题。具体两种情况:

(a)动词带“-着、-了|过|已经|已、将|将要”助词的句子,大体对应英文的进行时态、完成时态或过去时态、将来时态

(b)含有过去、将来时间词或短语的句子,如:

(\d+)年,过去的……年、未来……年内、将来、将要

(5)疑问句

用途:评测流利度中的语序问题、语法要素问题、标点符号。

(a)一般疑问句

什么、为什么、怎么、谁、呢?、吗?、么?、吧?、是……的?

(b)选择疑问句

是…还是、去不去、好不好

(c)无疑而问句

难道……?这不是……?怎么能……?

(6)复杂句和长句

这类句子主要包括由逗号分开的两个以上子句构成的复杂汉语句子,子句间存在语义关系或单纯流水句等。

用途:评测流利度中的语法问题、语序问题。

(a)有连词连接的短句,包括表示转折、对比、因果、假设、并列、总结、列举等关系的连词,典型连词如下:

虽然……但是、但、尽管……还是、固然……也、即便、虽说、即使、尽管、

而、然而、恰恰相反、不然的话、否则、不管

因为……所以、因此、因、所以……是因为、的缘故、既然……就、为的是、以免、因而、为此、由于、故而、之所以、故此、结果、为了

如果、要是……就、除非……才、即使……也、不管……也、无论……、无论是、不论是、就算……也、假若、假如、倘若、固然、除非、才能、若是、假使、倘使

既……又、不但……而且、不但……还、不是……就是、或是、就是说、不仅、且、或者、并且

总体而言、总的看、总之、总的看来、总而言之、总的来说、由此可见、概言之、总的说来、综上所述

首先、其次、再则、继而、一则、二则、一方面、另一方面

(b)没有明显连词的子句构成的句子

没有明显连词连接的子句的逻辑关系需要根据语义进行推断,可能将子句译为定语或定语从句、状语等多种情况。

四、段落语篇级

用途:段落和语篇级评测,考察语篇句子的质量,以及译文句子之间的衔接和连贯、语义逻辑关系是否合理,句式的变化等。可从文体和领域角度提取不同的语篇来评测。

从不同文体特征的文章截取部分文本作为评测数据,文体主要分:

(1)叙事性

(2)说明性

(3)议论文

(4)应用文

不同领域的文本划分主要有:

(1)新闻

(2)科技

(3)经济

(4)教育

(5)娱乐

(6)体育

(7)军事

人工评测点的设置从语言现象剖析的角度进行,多个评测点评测内容往往出现重叠,难以独立出来。机器译文的错误问题往往也是多重的,评测标准实施起来有一定难度和争议存在。而且,语言的复杂性和发展性使得评测点的指定难以应对,需要付出太多的人力成本。关键点评测方法有一定的适用范围。