8.1.2 语篇分析
文本连贯(text coherence)研究的是语篇中话语之间的连贯关系。常见的文本连贯关系有:
· 因果关系(result):后面的句子是前面的状态或事件的结果
· 解释关系(explanation):后面的句子对前面的状态或事件的解释
· 平行关系(parallel):从两句得到的命题类似,两句是并列关系
· 阐述关系(elaboration):从两句可以得到相同的命题
· 推导关系(occasion):从前面一句可以推出状态的改变,后面一句推出最终的状态。或者从后一句得到最终状态,而可以从前一句中推导其初始状态,这都属于推导关系
整个语篇就由这些关系构成了层次化的结构。就像句子进行句法分析一样,识别句子之间的连贯性关系,并最终形成语篇的树形结构图,称为语篇分析(discourse parsing)。语篇结构分析在信息提取、自动文摘等任务中都有重要的应用。
另一种在文本生成研究中提出的修辞结构理论(Rhetorical Structure Theory,RST)在文本连贯中也得到广泛运用,其核心内容是修辞关系,但是对于有多少种修辞关系,还没有统一的结论。在RST Treebank(Carlson,et al.,2001)中,定义了16类78种不同的关系。利用这些关系,最终将整个文本描述成一个层次化的树形结构。简单的基于线索词或短语提取连贯关系的算法包括三步:
· 识别线索短语
· 根据线索短语划分语篇
· 根据线索短语分类语篇片段之间的关系
基于线索词的方法进行语篇分析准确率并不高。一方面由于线索词有歧义,例如,because既能够表示因果关系,也能表示凭证关系,but既能表示转折,也能表示对比和让步等。另一方面的原因是,这些由线索词构成的规则有时根本不能反映句子之间的关系。只有一小部分的关系能采用这些明显的线索词来反映,更多的是没有线索词,表示它们之间的关系可能通过词汇的对比、句式结构等反映。