6.2 非结构化文本作者属性识别

6.2 非结构化文本作者属性识别

作者身份识别任务是指,根据给定的候选作者集合的作品或著作样例来识别匿名文本作者[78,79,80,81]。早期研究工作包括鉴别文学作品十九世纪莎士比亚戏剧的作者。近年来,在线论坛消息、电子邮件、博客和源代码等匿名文本迅速增长,作者身份识别研究更为紧迫。作者身份识别已应用于越来越多的领域中,包括文学作品、情报分析、刑法、民法和计算机取证[78,79,80,81,82]。另外,作者身份识别在信息检索、信息提取和问答系统等许多领域发挥着重要作用。在文学领域中,识别作者不明或有争议的文学作品的作者。在情报分析领域,识别在线消息的作者。特别地,在刑法应用领域,识别攻击性或威胁性信息的作者。在计算机取证领域,判别可能破坏计算机或数据的源代码程序员的身份[78]。本节论述非结构化文本作者属性知识抽取方法[83]

作者身份识别主要集中于两个任务:如何提取文本的特征来表示不同作者的写作风格[80,84,85],以及如何选择方法来预测不受限文本的作者。文本表示特征即风格特征,应该是客观的、可量化的、独立于内容的,并具有明确的判别性。

当前,文本作品中使用的文体特征通常分为六种类型:字符、词汇、句法、结构、语义和特定应用特征[80]。字符和词汇特征使用字符、词语或标点符号的度量作为文本风格。句法特征则利用关于词语词性和句子短语的属性特征作为文档的风格特征[86]。结构特征则是关于文档结构的特征,例如词语长度、句子长度、缩进的使用特点等[78,87]。另外,面向应用的特征通常与特定领域、语言或应用相关[78]。在诸多研究工作中,主要使用三类语义特征。第一,二元语义特征和语义修饰关系;第二,同义词、上位词和因果动词;第三,功能特征。二元语义特征包括名词和代词的数字和人称特征、动词的时态、语态和子分类特征。语义修饰关系是指句子中词语之间的修饰关系。功能特征是基于功能语法表达单词或短语的语义功能的特征[78,80,88,]。事实上,二元语义特征只能捕获有关名词、代词和动词的句法或语义信息。语义修饰关系是通过关于修饰关系的词语的词性序列来表示的。同义词和上位词包括具有同义关系和继承关系的词语。功能特征是对词语或短语的修饰关系。然而,这些字符、词汇、句法和语义特征受到特定单词、短语或词性的约束。

识别文本作者身份属性需要考虑如下问题:第一,哪些特征能够表示句子的基本语义结构;第二,哪些特征独立于特定的词语、短语和词性;第三,哪些特征是独立于不同的文本内容;第四,哪些特征在同一作者的不同文档中基本保持稳定。

为此,本节论述一种关于词语依赖关系、语态和非主题风格词的语义关联模型,以捕捉作者的写作风格。词语依赖关系使用统一的二元依赖关系来表达句子中词语之间的关系[89]。同时,词语依赖关系提供了谓词-论元结构的关系。谓词-论元结构构成句子的语义骨架,句子中的大多数词均构成该骨架的辅助成分。因此,词语依赖关系提供句子的句法和语义级的特征。通常作者以无意识的方式使用这些抽象的结构语义模式。这种依赖关系往往隐含在作者不同主题的著作之中。

语态特征反映句子动词和参与动词所描述动作的主语之间的关系。由于主题词是反映文本的主题和内容,主题词集合与非主题词集合之间的交集通常为空。因此,非主题风格特征往往表达文本中与内容关联度弱的词语特征。因此,词语依赖特征、语态特征和非主题词语特征与文档内容无关,且不受限于特定的词语、词组和词性。词语依赖关系特征可以捕捉到句子的基本语义框架或模式。

作者身份识别可以看作是一个多分类问题,其中作者作为类标签。因此,作者身份识别任务的第二个问题是分类方法的设计。支持向量机是作者身份识别相关工作中的主要分类器[80,87,90,91,92]。其他分类方法包括线性判别分析、决策树、神经网络和遗传算法[87]。通常,在作者身份识别中,主成分分析用于缩减从高频词出现频率中获得的特征维度。另外,线性判别分析用来学习面向数字犯罪和登记的作者身份识别任务的特征子空间[93]

事实上,主成分分析尽可能地保持数据的原始信息,能够捕获降维的描述性特征。线性判别分析作为一种有监督的子空间学习方法,能够生成一个线性函数,该函数最大化类间差异,并最小化类内差异。因此,线性判别分析的目标是提取用于分类的判别特征[87]

本节将描述一种基于语态、词依赖关系和非主题式风格词语的语义关联模型来表示不同作者的非结构化文本的写作风格。同时,设计一种无监督方法来提取风格特征,采用主成分分析和线性判别分析来识别文本作者身份。该方法提供了一种统一量化的方法来捕捉词语和短语之间的句法和语义风格特征,能够在一定程度上解决不同维度的独立性问题。