3.3.2 评测点的自动提取

3.3.2 评测点的自动提取

译文质量的评测点自动提取受到人工评测点设置的启发,借助自然语言处理相关技术的支持完成。在Zhou et al.(2008)的工作中,评测点被称为检测点(check points),检测点的提取需要对参考译文和待评译文进行句法分析,并在词对齐后进行。

检测点也分为多种层面,有词汇层面的,也有短语和句子层面的。汉英翻译中的检测点设置了20类,英汉机器翻译则设置了22类。汉英机器翻译中,词汇层面的检测点包括:名词、动词、形容词、副词、代词、介词、量词、多义歧义词、不在词典中的新词、成语等;短语层面的检测点有:短语搭配、重叠词、主谓结构、介宾结构、动宾结构、量词短语和方位短语等;句子层面的检测点包括一些特殊句式,如“把”字句、“被”字句、“是”字句、“有”字句、复合句。英汉翻译中的22类检测点有:词汇层面的名词、动词(带时态)、情态动词、形容词、副词、代词、介词、多义歧义词、复数名词、代词所有格、形容词副词的比较级和最高级等;短语层面的各类短语包括名词短语、动词短语、形容词短语、副词短语、介词短语等;句子层面的有名词性从句、状语从句、定语从句、倒装句等。

根据检测点评价译句质量时,针对译句和参考译句匹配的检测点数目,借鉴BLEU算法对过短的译文增加惩罚项,并考虑连续匹配的检测点等问题进行质量打分或排序。

自动提取检查点的方法相比人工设置检查点效率更高,降低了成本,并可以有针对性地测试翻译系统的问题,在863机器翻译评测中的Wordpecker系统发挥着重要作用。问题是,在对参考译文和评测译文进行预处理和自动对齐操作中,会引入大量的噪声,尽管研究中采取了一些方法克服噪声对评测的影响,但是在句子的评测中,与人工评测相关度也仅为0.333左右,在系统级的评测中相关度可达0.409。