6.2.2 作者身份属性识别方法
6.2.2.1 作者身份属性识别方法框架
图6.3给出了作者身份识别方法的框架。该方法包括四个阶段:文本分析、特征提取、特征降维以及作者分类。测试文本由若干作者撰写的非结构化自然语言文本构成。文本分析阶段包括句子切分、标记化(Tokenizing)、词性标注、短语解析、词语依赖关系解析、代词识别、功能词识别、非主题风格词识别、语态提取和时态提取。
特征提取阶段是指从文档中提取结构特征、词汇特征、句法特征以及语义关联模型中特征。为此,每个非结构化文档均由一个特征向量表示。在特征降维阶段,采用主成分分析来减少特征向量的维数,并获得文档的主要风格特征。在作者分类阶段,使用线性判别分析来选择文档的最具区分性的文体特征,并使用1-NN分类器对文档的作者身份进行分类。
6.2.2.2 特征提取
作者身份属性识别使用的特征包括十个特征集,用F1,F2,…,F10表示,如表6.1所示。符号“√”表示是由本节构建对应的特征集,而“×”表示相关文献中使用对应的特征集。从表6.1可以看出,本节增加了关于语态、非主题风格词和词语依赖关系的三个特征集F8,F9和F10。下面给出构建这些特征集的具体过程。
图6.3 作者身份识别算法的框架
表6.1 特征集的类型和含义
定义(性质谓词):设T是文本集合,W是T中字符或词语的集合。在公式(6.1)中定义一个n元谓词来表示字符或词语x1,x2,...,xn之间的文本写作风格的性质,并将该谓词称为性质谓词:
定义(独立特征、关联特征):如果p(x1,x2,...,xn)是一元谓词,则它映射的特征称为独立特征。如果p(x1,x2,...,xn)是n元(n≥2)谓词,则它映射的特征称为关联特征。
定义(显式特征、隐式特征):如果p(x1,x2,...,xn)表示关于字符或词语的性质,则它映射的特征称为显式特征。如果p(x1,x2,...,xn)表示涉及文本解析的文本性质,则它映射的特征称为隐式特征。
根据上述定义,特征集F1,F3,F5,F6,F7,F8,F10中的特征为关联特征,特征集F2,F4,F9中的特征为独立特征。另外,特征集F2和F4中的特征是显式特征,特征集F1,F3,F5,F6,F7,F8,F9,F10中的特征是隐式特征。
(1)结构特征。
不同的作者在各自作品中对句子长度具有不同的偏好。对于作者撰写的文档,构建关于句子长度的结构特征集F1,句子长度由句子中的字符数和词语数来衡量。F1包括22种特征,即平均句子字符长度lcavg、平均句子词语长度lwavg、最大句子字符长度lcmax、最大句子词语长度lwmax、最小句子字符长度lcmin、最小句子词语长度lwmin、前10%、20%、80%、90%的平均句子字符长度,即lctop10,lctop20,lctop80,lctop90,后10%、20%、80%、90%的平均句子字符长度,即lcbot10,lcbot20,lcbot80,lcbot90,前10%、20%、80%、90%的平均句子字符长度,即lwtop10,lwtop20,lwtop80,lwtop90,后10%、20%、80%、90%的平均句子字符长度,即lwbot10,lwbot20,lwbot80,lwbot90。
特征集F1中的特征,如公式(6.2)所示。
(2)词汇级别特征。
词汇层面的特征集由高频词集、代词集和功能词集组成。将它们构建为集合F2,F3,F4,如公式(6.3)、(6.4)、(6.5)所示。因此,
在公式(6.3)中,FreqFn(x)表示词语x在测试语料库中的出现频率,α为阈值。在公式(6.4)和(6.5)中,函数PronounFn(x)和FunctionFn(x)均为布尔函数,其计算方法如下。
特征集F2由语料库高频词构成。特征F2的维数分别取250,500,1000,1500,2000,2500,3000,3500,4000,4500,5000。因此,公式(6.3)中的参数α由特征集F2的维数确定。代词是指代名词或名词短语的词语。功能词用于描述词之间的语法关系,不具有词汇或语义意义。功能词包括冠词、代词、助动词、小品词、语气助词等。特征集F3和F4中的特征数量分别约为20和310。选择功能词和代词特征的原因解释如下:这些特征独立于内容,不受文本主题和体裁的限制,能够反映不同作者对虚词和代词的使用偏好。因此,构建了高频词集合、功能词集合以及代词集合;同时,计算这些词语在文档中的出现频率作为文档特征。
(3)句法级别特征。
句法特征集包括词性特征集F5和短语类型特征集F6,如公式(6.8)和(6.9)所示,即
其中,函数PosFn(x)表示词语x的词性,函数PhrasetypeFn(p)表示短语p的短语类型。具体地,短语的类型包括名词短语NP、动词短语VP、形容词短语ADJP、副词短语ADVP、介词短语PP、连词短语CONJP等。以这些句法信息类型的出现频率作为文档的特征。这些特征独立于文档的自然语言,能够捕获作者对词语和短语类型的使用偏好[86]。
(4)语义关联模型。
本节阐述一种语义关联模型来表示文本的写作风格,包括语态特征、非主题风格词特征和词语依赖关系特征,旨在捕捉词语和短语的语义风格特征以及词语和短语之间的语义风格关系。为此,本节构建了四个语义特征集:时态特征集F7、语态特征集F8、非主题风格词的特征集F9、词语依赖的特征集F10,分别如公式(6.10)、(6.11)、(6.12)、(6.14)所示。具体地,
其中,函数TenseFn(s)是句子s的时态,函数VoiceFn(s)是s的语态,NonSubjectFn(x)是一个布尔函数。另外,NonSubjectFn(x)的计算方法如公式(6.13)所示:
时态特征集包括英语中的各种动词时态,如一般现在时、过去完成进行时、将来完成时。语态功能集包含两种类型的语态:主动和被动。选择特征集F7和F8作为风格特征的原因在于它们独立于特定的词语、短语和文本内容。
非主题风格词的作用是呈现描述词之间的性质、状态、语法关系,而不是对象和动作。因此,这些词语与文本的特定主题没有密切关系。在语言学中,它们可以是形容词、副词、代词、限定词、助词、介词、连词或感叹词,但不会是名词和动词。这些词性(不包括名词和动词)构成特征集F9。特征集F9在形式上是F5的子集。在统计上,特征集F9中的特征频率反映了与主题和文本内容无关的非主题词的使用频率。也就是说,特征集F9中特征的统计特征旨在捕捉不同主题文本中作者的写作风格。相比较而言,特征集F5中的特征频率表示文本中词性分布。将特征集F7,F8和F9中所有特征的出现频率识别为文档的特征。因此,特征集F7,F8和F9能够反映作者对时态、语态和非主题风格词的使用偏好。
词语依赖关系为句子中任意两个词之间的多种关系构建了一个统一的关系模型[89]。特征集F10包含句子中词语之间的所有依赖关系,如公式(6.14)所示:
其中,Ws是句子中的词语集合,R是词语依赖关系集合,即R={nsubj,nsubjpass,csubj,csubjpass,agent,...,attr,ccomp,xcomp,complm}。使用各种依赖关系的出现频率作为文档的特征。因此,这些依赖特征与句子中的特定单词无关,独立于文本主题和内容,并且能够揭示作者对句子语义结构的使用偏好。
6.2.2.3 特征约简和作者身份识别
在特征构建之后,引入主成分分析来降低特征向量的维数,并采用线性判别分析来获取用于分类的判别特征。最后,采用1-最近邻分类器来预测文档的作者身份。