5.2.1 冠词和介词错误
英文冠词和介词是很容易出错的词,冠词和介词的错误检查也是研究最多的。早年集中在用规则的方法检查错误,后来主要基于统计分类器的方法,如决策树(decision tree)、支持向量机(Support Vector Machine)、最大熵(Maximum Entropy)等都曾用到过。统计方法只要基于一定规模的数据训练模型就可以,不用人工制定规则,大大降低了研究的人力成本。但也有研究表明,在某些领域内,基于规则的方法可能更有效(Leacock et al.,2010)。
检查翻译中的冠词和介词错误,需要考虑多种语言特征。第一,要考虑源语言的信息,比如冠词是英文中特有的词,汉英翻译中在没有冠词的名词前要考虑是否添加冠词。第二,上下文的词汇也是十分重要的判定条件,某些词前后要求一定要有冠词或介词出现,也限定了冠词或介词的种类。因此,上下文是错误分类器中的重要特征之一。第三,对句子进行句法分析后,可得到更丰富的信息,如词汇的词性、名词短语或动词短语的核心词(head word)、句子的句法结构构成等,对识别错误提供重要的线索。第四,可以考虑来自外部的知识源信息,如识别出一个命名实体、组织机构名后,这些词前面通常要使用定冠词等。
微软的字处理软件Word中的写作助手就嵌入了冠词和介词错误识别功能。微软分别用了两个最大熵分类器完成冠词和介词的错误检查,一个分类器判断在当前上下文中是否存在冠词和介词错误,另一个分类器给出可能正确的冠词和介词选择。利用分类器,把错误检查任务变为了分类问题,对句子的每个冠词和介词都进行分类判断是否存在错误。训练最大熵分类器使用了大量的语料。这些语料包括:Encarta百科、路透社新闻、联合国会议录、欧盟会议录、网络文本和LDC2003发布的Gigaword语料等。最大熵模型中的特征向量主要由上下文中的词性特征和词汇特征构成,分别取自当前词的左侧和右侧的6个单词,部分特征如下:
· 当前词左侧词的词性
· 当前词右侧词的词性
· 当前词左侧的单词和标点符号
· 当前词右侧的单词和标点符号
· 当前词左侧和右侧是否有单词大写
· 上下文是否有首字母缩略词
· 名词短语的核心词的状态,物质名词还是可数名词
· 当前词左侧名词短语的核心词
· 当前词右侧名词短语的核心词