6.2.1 研究任务

6.2.1 研究任务

作者身份属性识别的任务可以定义如下。设A是作者集合,T是文本集合,其中每个文本均由集合A中的至少一个作者所撰写。身份识别任务是指,给定匿名文本t,作者身份识别任务是在集合A中识别撰写匿名文本t的作者。

假设作者具有使用自然语言表达的个人特征,并且这些特征体现在作者的著作之中。Halteren[94]利用一组可测量的文本特征来识别给定的作者。然而,上下文文法无关的语言模型难以表达句子中词语之间的词汇、句法和语义关系。因此,本节使用向量空间模型来表示文本的写作风格。构建向量空间模型的目的是捕获文本特征的各种度量,从而可以采用量化方法对多种特征进行统一描述。

下面给出特征选择和作者身份识别的相关研究。字符特征包括字符级别的固定长度和可变长度的N-gram特征[85,90]。字符特征的特性往往与语言无关,不需要任何自然语言处理工具[78]。例如,Ramezani[95]采用一种独立于语言的作者识别方法,该方法不需要任何自然语言预处理工具。采用词频逆文档频率模型来计算匿名文本和基于N-gram表示的已知文档的相似度,进而识别匿名文本的作者。Houvardas等[90]使用可变长度的高频N-gram字符序列作为文本表示特征。

在早期的作者身份识别研究中,主要使用词汇特征作为风格标记。词汇特征包含词频[84,96]、功能词频率、人称代词数量、短词和长词计数、词汇丰富度以及词语级别Bi-grams和Tri-grams特征。词汇丰富度是指关于不同单词数量和文本总单词数的各种度量[78]。Kopple等[96]选取250个高频词来表示19世纪英语书籍的写作风格。Stamatatos[84]使用1000个高频词作为新闻的风格标记。

句法特征提取需要词性和短语解析器。Tas等[79]使用35种风格标记来表示文章的写作风格,即词汇丰富度以及与词语数量、句子、标点符号和词性相关的度量。Luyckx等[86]采用词性、动词形式、虚词和实词的频率分布特征。

为了提取语义特征,研究者利用WordNet提取词语的同义词和上位词,进一步用于构建特征[88]。例如,Argamon等[97]构建词语或短语之间的功能特征作为文本风格特征。Gamon[98]使用NLPWin系统提取句子文法产生式、二元语义特征和语义修饰关系。结构特征包括句子长度、词语长度、短语长度、段落长度等。应用特定特征包括特点内容的关键字特征、与特定文本类型相关的特征(例如问候语)、与自然语言相关的特征。Zheng等[87]选择特定内容的关键字作为在线消息的风格特征。

大多数关于作者身份识别的研究均采用分类方法来识别文档的作者[99,100]。例如,Jafariakinabad等[81]设计自监督网络来解决作者识别任务。该网络包括词汇子网络和句法子网络。Suman等[101]基于字符N-gram特征,采用基于胶囊的卷积神经网络来识别作者身份。另外,一些学者采用元学习、自动机方法和上下文无关语法的语言模型等来识别作者[80,92,96,102]。Lin和Zhang[102]开发一种随机有限自动机来识别作者身份。该自动机使用句子功能词的词性序列来表示作者的写作特征。这些词性包含副词、助动词、代词、介词、连词、感叹词等。Koppel等[96]通过度量不同特征集之间准确度的差异性,提出了一种基于元学习的方法。