5.2 语法错误检查
语法错误检查是发现语言表达形式上不符合语法的部分。由于英文语法较严格,相比之下,英文的语法错误检查比汉语的语法检查研究成熟很多。语法检查也是一项很具挑战性的任务,原因有多个方面:
首先,人们不是对所有语法错误都有一致的看法。例如下面的这个句子:
…which could lead to accident.
句中的语法错误有两种看法,一种认为accident前面缺失了冠词the,属于冠词缺失错误。也有人认为accident应该是复数形式,即lead to accidents,那么就属于名词数的错误。
因此标注一个句子中的语法错误及其类别有时是件十分困难的事。当然,进一步纠正语法错误更存在多种多样的观点和改法。例如:
*You are very near by my town.
我们可以把存在语法错误的句子中的错误介词by删除,或者可以把by改为to,都可以变成合法的句子。
其次,研究者使用的语料很多是不公开的,难以在共同的平台上进行研究比较。
Valotkaite & Asadullah(2012)通过一系列语言规则检查葡萄牙语到英语的机器翻译中的错误,辅助进行译后编辑,提升编辑效率。机器译文来自两个基于规则的机器翻译系统Systran和PROMT。首先人工对机器译文进行了语言分析,共分30种错误,包括未译、错译、增添词汇错误、形态错误、重复词汇、大小写错误等,制定了“if-then”规则识别翻译错误。在两个语料上测试了系统的错误识别的准确率、召回率和F值,其中对Systran系统错误识别准确率为0.37和0.62,召回率为0.63和0.46,F值为0.47和0.53。可以看出,规则方法还是比较有效的,但是在不同实验数据上的性能波动比较大。
下面介绍的分立的错误识别方法,包括冠词和介词错误、搭配错误、动词形态错误等。