8.1.3 指代消解

8.1.3 指代消解

针对代词指代的复杂性,指代消解(reference resolution)的任务是要明确哪个语言表达式指示哪个实体,即确定指称表达式(referring expression)和其对应的指示物(referent)。两个指称表达式指向相同的实体,称为共指(corefer)。在文中提到一个实体后,后面就可以用代词指代该实体,实体名对于代词而言就是前件或先行词(antecedent)。在语篇中,参照前面已经提及的事物称为首语重复(anaphora)。上文中提及的人或事物,在下文中回指的方式很多,可以用代词这、那、它、他、她,也可以带上所有格或事物的部分内容。当然回指的方式要和听者或读者已经对这件事物的了解有关,这种了解可能来自上文的交代,也可能是常识性的知识,从而形成特定的语境。

指代消解具体可分为两项任务:共指消解(Co-reference Resolution)和代词首语重复消解(Pronominal Resolution)。共指消解是找到文中指向同一事物的表达方式,这些表达方式称为共指链(Coreference Chain)。代词首语重复消解任务是为代词找到其指代的事物,即它的先行词。代词首语重复消解可以看作是共指消解的一个子任务。

一、代词指代消解

明确一个代词所指代的个体,是语言理解的一项重要任务。目前的研究对代词处理有三种算法:Hobbs算法、中心(Centering)算法和log-linear算法。

(1)Hobbs算法

Hobbs算法是Hobbs(1978)提出的算法,利用的是句法分析的结果以及构词法中的性、数一致原则。Hobbs算法一般可作为代词指代消解的基准性能。

算法输入的是要消解的代词和句子的句法结构,输出是代词指代的实体或名词短语。算法的思想是从目标代词出发,沿着句法树向上直至根节点S。对于每一个找到的名词短语或根节点,按照宽度优先、从左到右的次序检索该节点的子节点,直至目标代词的左侧。通过检测名词短语和目标代词在性、数和人称方面的一致性来判断候选短语是否是指代的内容。如果在一个句子中没有找到指代内容,则顺序检索更前面的句子。

下面是算法实现的主要步骤:

1)从支配目标代词的名词短语开始向上检索;

2)找到第一个NP或句子根节点S,称该节点为X,找到X时经过的路径为p;

3)按照宽度优先,从左到右的原则遍历X的所有子节点,到p的左侧。将所有遇到的含有NP或S节点的NP节点作为候选先行词;

4)若节点X是句子中的最上层节点S,按照新旧原则遍历前一个句子的句法结构数,最近的先遍历,都是按照宽度优先、从左到右的搜索原则进行。遇到NP节点时,就作为候选先行词。如果节点不是最上层节点,进行步骤5;

5)从节点X向上检索直至遇到第一个NP或S节点,称这个新节点为X,称找到X经过的路径为p;

6)如果X是NP,同时如果到X的路径p没有经过X直接支配的名词节点,将X作为候选先行词;

7)遍历X节点下的所有分支至路径p的左侧,搜索原则不变;

8)如果X是根节点,遍历X的所有分支到路径p的右侧,但不要检索遇到的NP或S节点的分支。将遇到的所有的NP作为候选先行词;

9)回到步骤4。

一般的句法分析工具能够给出单复数及人称信息,但是没有性的信息,所以,使用Hobbs算法时一般还要用另外的工具来确定名词短语的性。一般的确定名词短语的性的方法是提取名词短语中的头名词(head noun),再利用Wordnet找到头词的上位词,通过上位词给出的信息得到性的信息,比如上位词是“female”表明名词的性是雌性。也有研究者公开了自动提取的大量名词及其性的对应列表(Bergsma & Lin,2006),使得识别名词短语性的工作得以简化。

Hobbs算法作为经典的代词指代消解的算法对句法分析结果的依赖性很强,但目前自动句法分析工具的准确率都还不高,限制了算法的性能。

二、共指消解

共指消解的任务是明确所有名词短语指向的共同实体。指代消解中的loglinear分类器也可以用于共指消解。给定回指和潜在的先行词,利用二值分类器判断二者之间是否是共指关系,每一个NP都和前面出现的NP进行这样的判断。常用的训练共指消解分类器的特征有:

· 回指词的编辑距离:即从潜在的先行词到回指词之间的基于字符的最小编辑距离,即插入、删除和替换的字符的次数

· 先行词的编辑距离:从回指词到先行词之间的最小编辑距离

· 是否别名(true或false):两个NP是否是相同类型的命名实体,而且一个是另一个的别名。所谓别名和类型有关,两个日期如果指的是同一个日期则构成别名;如果类型是人名,则除去人名前的称谓后,检查是否是同一个人;如果是机构名,则检查是否是缩略语,比如IBM和International Business Machines Corp,就构成别名关系

· 是否同位关系(true或false):回指和先行词之间构成句法上的同位语关系

· 语言形式:回指词的语言形式包括是否专名,是否为明确描述(definite description),是否是不定名词短语(indefinite NP),是否是代词

也有学者从语言学角度对英文基本指代表达方式进行了研究,发现五种基本指代表达式的类型:不定名词短语(indefinite noun phrase)、确定名词短语(definite noun phrase)、代词(pronoun)、指示代词(demonstrative)、名称(name)。其应用场合分别是:

· 不定名词短语:当语篇中要介绍一个新的实体时,一般使用不定名词短语,即英文中以冠词a、an表征的,也可以是量化词some,或限定词this

· 确定名词短语:确定型指代是对于读者而言已经明确的实体,或者在前面已经提及到的实体

· 代词:另一种确定型指代方式,但相比确定名词短语方式的约束条件更强,需要指代对象在语篇模型中有较高的突显度(salience)。代词和指代的实体通常距离较近,在一两个句子的跨度内。而确定名词短语的跨度能够更大。代词还可以下指(cataphora),即出现在所指对象之前。例如:Every dancer brought her left arm forward.

· 指示代词:this、that和普通代词的使用有些差别,它们可以单独使用,或后面跟指示内容。this为近端指示,表示接近;that为远端指示,字面暗示距离远或时间久远

· 名称:具体的名词,包括人名、地名、机构名等,新旧实体都可以指示

有的指代形式用于提供新信息,有的用于指代已经提及的信息。各种不同的理论研究不同指代形式和提供信息差异之间的关系。如给予层次(givenness hierarchy)(Gundel et al.,1993)、接近级别(accessibility scale)(Ariel,2001)、听者状态和语篇状态理论(Prince,1992)。

三、代词首语重复消解

代词首语重复消解任务是给定代词及其上文,找出代词指代的上文中的实体。一般的方法是:首先对指代对象进行过滤,常用于过滤的依据包括数的一致性原则(代词和指代对象的单复数形式应该一致)、人称一致性原则(英语中第三人称和代词对应)、性一致性原则(代词的性和实体的性对应)和绑定理论约束(指代关系受指代表达和可能的先行词之间的句法关系约束)(Chomsky,1981)。例如:

John bought himself a new Ford. (himself = John)

John bought him a new Ford. (him≠John)

John said that Bill bought him a new Ford. (him≠Bill)

John said that Bill bought himself a new Ford. (himself = Bill)

He said he bought John a new Ford. (He≠John, he≠John)其他解释代词指代内容的优选条件还有:

· 新旧程度(recency):最近提及的实体比较早提及的内容更容易突显

· 语法角色(grammatical role):实体突显的层次是根据指代表达的语法位置排序的,主语位置的实体通常比宾语位置的实体更突显,而宾语位置的实体则较后面位置的实体突显。例如:

Billy Bones went to the bar with Jim Hawkins. He called for a glass of rum.[He = Billy]

· 重复提及:上文中核心内容在下文中也更可能被再次提及,再次提及也更容易使用代词的形式

· 并列化:并列指代更倾向于上文的并列结构,且有对应关系

· 动词语义:一些动词的语义重点在特定位置的论元上,使得下文对代词的解释存在一定的偏好。例如:

John telephoned Bill. He lost the laptop. [He = John]

John criticized Bill. He lost the laptop. [He = Bill]

· 选择约束:动词放置论元的位置也有助于消解指代歧义。例如:

John parked his car in the garage after driving it around for hours.

句子中it指car而不是garage,因为it跟在动词driving后面,而garage是不能drive的。

这些语言学研究的成果都被用于代词首语重复消解任务,不难看出任务的复杂性。由于对现有句法分析工具的依赖,只有复杂语言学的理论支撑才能进行代词指代的歧义分析,因此在机器翻译质量评测中,都没有将代词指代的准确性问题独立处理。