7.1 自动文摘及摘要质量的评价
文摘是从文本中提取重要信息的手段。文摘以一个简略的内容形式呈现给特定任务或用户,比如文档的概要、论文的摘要、新闻的标题、邮件的摘要、商务会议的行动纲要或摘要、句子的简化、从多篇文档中提炼出复杂问题的答案等,都属于文摘的研究范畴。
获取文档的关键信息主要有两种方式,一种是提炼(abstract),另一种是提取(extract)。所谓的提取就是将原文中的词句进行甄选,再组合在一起形成文摘;提炼则是用凝练的词句表述原文的内容,可以使用与原文不同的词汇和表达方式。现在大部分自动文摘系统采取的都是提取的方法,因为提取比提炼要简单得多。
形成文摘的主要步骤包括三步:第一步是摘要内容的选择,确定哪些文档中的内容应该包含在文摘中,通常选择原文中的句子或子句,而不是单独的词汇;第二步是信息的组织,将提取出来的句子按照一定的次序安排,以保证内容流畅合理;第三步是句子的实现,即整理提取的句子以构成流利的文摘。比如,删去提取句子中不包含基本内容的短语,融合多个句子为一个句子,组织连贯的句子。