6.2.3 实验结果与分析
在文本作者身份属性识别实验中,使用两个英语文本语料集,包括英语书籍和路透社语料库RCV1。Koppel等[96]使用19世纪出版的21部英文书籍。这些书籍是由十位不同的作者撰写。RCV1语料库是关于新闻的公开文档集合[103]。它是文本分类任务的测试语料库,用于作者身份识别任务[90,91]。RCV1语料库包括主要四个主题的文档:CCAT(企业和工业),ECAT(经济),CAT(政府和社会)和MCAT(市场)。
作为一种文本分类任务,评估指标采用文本作者身份属性识别准确率来评估实验结果。利用K-近邻、支持向量机和线性判别分析来比较不同特征集的性能。对于支持向量机的正则化参数C,使用五折交叉验证方法从候选集{10-2,10-1,…,104}中选择该正则化参数。
第一组实验数据是21本英文书籍。在实验中,每本书被拆分为大约5000字节长度的文件。其中,从每个作者的书籍文件中随机选择50%的文件进行训练,其余文件用于测试。基线方法是N-gram字符特征集Fcg与未进行主成分分析特征提取的支持向量机的组合,其中n是正整数,μ是阈值。特征集Fcg表示为:
为了对比现有工作中使用的特征集F1,F2,F3,F4,F5,F6,F7和本节中构建的特征集F8,F9,F10的实验结果,构建如下三个组合特征集CF1,CF2和CF3:
表6.2列出了利用特征集Fcg 1,Fcg 2,Fcg 3,CF1,CF2和CF3,使用K近邻、支持向量机和线性判别分析的识别准确率。其中,特征集Fcg 1,Fcg 2,Fcg 3分别表示3-gram、4-gram和5-gram字符特征集。从表6.2可以看出,使用支持向量机,使用特征集Fcg 1的准确率为97.52%,高于特征集Fcg 2和Fcg 3。在特征集CF2通过使用线性判别分析(Linear Discriminant Analysis,LDA)方法达到98.48%的准确率。在K近邻(K-NearestNeighbor,KNN)、支持向量机和线性判别分析中,特征集CF2和CF3的识别准确度高于CF1。另外,利用未经主成分分析的支持向量机(Support Verctor Machine,SVM)的识别准确率分别为97.02%、96.24%和95.18%。
表6.2 在英语书籍数据集上的作者身份识别实验结果
对于特征集CF1,CF2和CF3,利用“主成分分析+支持向量机”的识别准确率高于未经主成分分析的支持向量机。表6.2的实验结果表明:第一,在六个特征集上,线性判别分析的识别准确率高于K近邻和支持向量机。第二,基于现有特征和本节构建的特征相融合,获得准确率高于现有特征的准确率。第三,利用本节构建特征和线性判别分析获得的准确率最高。
另外,本节介绍“leave-one-book-out”实验。也就是,对于21本英文书籍语料库中的每本书B,利用除去书B之外的所有书籍用于训练,书籍B用于测试。为此,对每本书执行以下操作,以获得作者身份识别结果。第一,对于书籍B,利用本节方法和特征集Fcg1,F2和CF2来识别该书籍B的作者。第二,对于类别为书籍B的测试样本,基于特征集Fcg1,计算这些测试样本被识别为第一位作者、第二位作者直至第十位作者的样本数量。利用符号N1,1,N1,2,...,N1,10表示这些测试样本数量。类似地,根据特征集F2,计算测试样本数量表示为N2,1,N2,2,...,N2,10。利用特征集CF2,计算测试样本数量表示为N3,1,N3,2,...,N3,10。第三,计算Ni=N1,i+N2,i+N3,i。若Ni是最大者,则第i个作者被判别为该书的作者。
第二组实验在RCV1语料库上进行。在实验中,根据CCAT主题的文档数量选择前50名作者。在作者撰写的每组文档中,选择前100个文档,随机选择50%文档用于训练,其余用于测试。表6.3给出在RCV1语料库,分别使用特征集Fcg1,Fcg2,Fcg3,CF1,CF2和CF3,利用K近邻分类器、支持向量机和线性判别分析的识别准确率。另外,利用未经主成分分析的支持向量机,基于特征集Fcg1,Fcg2,Fcg3的识别准确率分别为78.15%、76.42%和74.72%。对于特征集Fcg1,Fcg2,Fcg3,利用支持向量机,特征集Fcg1获得最高准确率78.67%。相对而言,利用本节提取的特征集CF2,本节利用线性判别分析获得最高准确率84.80%。
表6.3 在数据集RCV1上的作者身份识别实验结果
为了研究不同作者对识别准确率的影响,将五十位作者划分为As1,As2,As3,As4,As5五个集合。为了减少不同作者文本规模大小的影响,采用如下划分准则:第一,每个集合Asi(i=1,2,3,4,5)包括十位作者。第二,五个集合S1,S2,S3,S4,S5的规模大小大致相等,其中Si表示RCV1语料库中由作者Asi编写的CCAT主题的所有文档。另外,实验中5000个文档被划分为五个数据集D1,D2,D3,D4,D5,其中Di中的文件由集合Asi中的作者撰写,进一步,Di是由10位作者的1000个文件构成。
表6.4给出使用特征集Fcg1,Fcg2,Fcg3,利用K近邻、支持向量机和线性判别分析,在数据集D1,D2,D3,D4,D5的实验结果。在数据集D1上,利用未经主成分分析的支持向量机,特征集Fcg1,Fcg2,Fcg3的识别准确率分别为91.35%、89.42%和89.28%。在数据集D2上,利用未经主成分分析的支持向量机,特征集Fcg1,Fcg2,Fcg3的识别准确率分别为87.86%、88.42%、85.86%。采用同一识别方法,数据集D3上特征集Fcg1,Fcg2,Fcg3的识别准确率分别为79.02%、79.09%、77.65%;数据集D4上特征集Fcg1,Fcg2,Fcg3的识别准确率分别为76.97%、76.62%、74.89%,数据集D5上特征集Fcg1,Fcg2,Fcg3的识别准确率分别为83.79%、83.86%、82.88%。
表6.4 在五个数据集上利用N-gram字符特征集的作者身份识别实验结果
续表
表6.5给出在数据集D1,D2,D3,D4和D5上,利用K近邻、支持向量机和线性判别分析,使用特征集CF1,CF2,CF3的识别准确率。从表6.5可以看出,特征集CF2,CF3在五个数据集上使用KNN获得的性能高于特征集CF1的性能。在数据集D1,D2,D4和D5上使用支持向量机,特征集CF2,CF3在的性能高于特征集CF1的性能。在数据集D1,D2,D3上使用线性判别分析获得的结果,特征集CF2,CF3在的性能高于特征集CF1的性能。
表6.5 在五个数据集上的作者身份识别实验结果
续表
通过在数据集D1,D2,D3,D4,和D5上使用线性判别分析,本节构建的特征集性能分别获得95.30%、91.37%、87.11%、78.4%和81.48%的准确率,高于基线方法在数据集D1,D2,D3,D4上的准确度。其中,这些准确率在表5数据集D1,D2,D3达到最高值。
综上所述,第一,本节描述一种基于词语依赖关系、语态和非主题风格词的语义关联模型来表示不同作者的写作风格。另外,开发一种无监督的方法来提取这些特征。词语依赖关系的特征捕捉句子基本语义结构模式,即谓词-论元结构及其从属语义成分的配置模式。提取这些特征的原因是,由不同词语组成或具有不同句法模式的句子可能具有相同的语义结构模式。同时,语态特征能够捕获谓词动词和与该动词相关的参与者的配置模式。非主题风格词的特征不反映文本内容。因此,这三种语义关联特征既不局限于特定的词典、短语和词性,也不局限于特定的领域、主题和文本内容。
第二,本节开发一个统一的向量空间模型来表示句子的抽象语义模式,在一定程度上解决了不同维度的独立性问题。基于上下文无关文法的语言模型是一组关于语法类别和特定单词的重写规则,它不能表示句子中词语之间的词汇和语义依赖关系[80]。然而,本节向量空间模型能够描述不同类型动词与不同类型助词之间语义搭配关系中的抽象模式。另外,词语依赖和语态特征能够捕捉词汇和句法特征之间的相关性。