6.3.3 实验结果与分析

6.3.3 实验结果与分析

在博客作者属性识别实验中,由52位名人博客共约有8700篇博文构成。每位作者博文从15篇到675篇不等。为建立尽可能平衡的数据集,选择三个不同的博文数据集作为性别、教育程度和年龄识别数据集。作者性别识别数据集包括24位作者共5100篇多博文,教育程度识别数据集包括34位作者的4900多篇博文,年龄识别数据集包括32位作者的5200多篇博文构成。

表6.6给出了使用9种方法进行性别、教育程度和年龄识别的准确率。这九种方法由三种博客表示方法和三种作者属性预测方法组成构成。其中,三种博文表示方法包括基于TF-IDF的表示方法、基于Doc2vec的表示方法,以及基于Doc2vec和TF-IDF的分布式集成表示方法。三种作者属性预测方法包括决策树(Decision Tree,DT)、随机森林(Random Forest,RF),以及支持向量机序列最小优化(Sequential Minimal Optimizatio,SMO)。例如,表6.6中第五种方法“Doc2vec⊕SMO”表示基于文档向量模型Doc2vec生成博文向量表示,利用序列最小优化方法识别博文作者属性。

表6.6 作者性别、教育程度和年龄识别准确率

表6.6的实验结果表明,对于作者属性性别和教育程度,混合式的博客作者属性识别方法的性能优于其他9种识别方法。对于年龄,混合式的博客作者属性识别方法的性能优于其他7种识别方法。对于作者属性年龄和教育程度,基于Doc2vec和TF-IDF的分布式集成表示方法的性能优于基于TF-IDF或Doc2vec,利用随机森林和序列最小优化的识别方法。

对于参数敏感性实验,分析不同博文向量维度对作者属性识别性能的影响。基于Doc2vec的博文向量设置50、100、200、300、500、800和1 000维度。基于TF-IDF的博文向量设置从301维度到5 003维度。图6.6~图6.8给出了基于Doc2vec的博文表示方法、基于TF-IDF的博文表示、基于Doc2vec和TF-IDF的博文分布式集成表示方法。

图6.6 作者属性性别识别的参数实验

(a)基于TF-IDF的博文向量;(b)基于Doc2vec的博文向量;(c)基于Doc2vec和TF-IDF的博文向量

图6.7 作者属性教育程度识别的参数实验

(a)基于TF-IDF的博文向量;(b)基于Doc2vec的博文向量;(c)基于Doc2vec和TF-IDF的博文向量

图6.8 作者属性年龄识别的参数实验

(a)基于TF-IDF的博文向量;(b)基于Doc2vec的博文向量;(c)基于Doc2vec和TF-IDF的博文向量

进一步,图6.6(b)和图6.6(c)表明基于序列最小优化的性别预测性能优于决策树和随机森林的性能,它们分别采用基于Doc2vec的表示方法、基于Doc2vec和TF-IDF的博文分布式集成表示方法。图6.7(b)、图6.7(c)、图6.8(b),以及图6.8(c)表明基于序列最小优化的教育程序和年龄预测性能优于决策树和随机森林的性能。总结起来,图6.6和图6.7表明本节的混合式作者属性识别方法取得更优性能。

总结起来,本节阐述了一种面向博客的分布式集成表示方法。该方法不依赖于对博文的语法和语义解析,可以捕获博文主题和句子词语之间的语义关联关系。另外,该表示方法是一种无监督学习方法,能够根据未标记数据学习博文向量。总体上,本节提供了一种有前途的能够同时识别博客作者的年龄、性别和教育状况的方法。实验性的结果表明,本节方法优于基于TF-IDF或Doc2vec的博客表示方法,以及采用决策树、随机森林或序列最小优化的博客作者属性识别方法。