6.3.1 研究任务

6.3.1 研究任务

作者画像识别是指识别文本信息的作者身份属性或特征。文本信息包括博客、微博以及社交网络平台或电子商务平台的评论。作者身份属性包括年龄、性别、地理位置、教育状况和母语等。作者画像识别是网络挖掘、网络舆情监测、社交网络分析和意见挖掘的重要研究内容。

作者画像识别技术可以应用到众多领域,包括数字取证、电子商务和信息安全[80,104,105,106]。例如,作者画像技术能够极大地帮助鉴别网络犯罪分子,他们可能通过社交媒体实施网络盗窃和欺诈、恐怖主义或儿童掠夺[107]。另外,作者画像技术对目标营销、产品和服务开发、产品和服务评论挖掘等具有潜在的应用价值[108]。然而,通过人工检测和识别很难实现作者画像识别任务[107]。因此,本节阐述博客作者的年龄、性别和教育状况的识别方法[109]

博客作为社交媒体中的一种文档类型,博客主要具有两个特点。第一,博客中的句子可能包含很多非标准、非正式或口语词语、短语和语言用法。例如,博客可能包含有缩写词、网络俚语或表情符号。第二,不同于小说、书籍或其他传统文档,博客中的主题十分广泛,但博客条目相对较短,往往带有个人或主观想法和观点。

解决博客作者画像识别问题的难点包括以下两个方面。第一,提取哪些特征能够识别博客作者的不同属性,并且这些特征应独立于特定的博文主题;第二,如何设计博客表示的生成方式,建立统一的识别方法以识别不同作者的属性识别。下面给出本节作者画像识别任务的定义。

定义1(作者画像识别任务):给定博客作者集合及其博客,已知这些作者的年龄、性别、教育程度。作者画像识别任务是指识别匿名博客的作者属性包括年龄、性别和教育程度。换句话说,将匿名博客中的博文分类为:年龄类别集合Cage中的类别、性别类别集合Cgender中的类别、教育程度类别集合Ceducation中的类别。其中,

Cage={25岁及其以下,26~40岁,41~60岁,60岁以上},

Cgender={男性,女性},

Ceducation={研究生,本科生,其他}。

本节将描述一种混合神经框架来实现作者画像识别任务。在该框架中,设计了基于文档向量模型Doc2vec和词频逆文档频率TF-IDF的分布式集成表示方法,并采用卷积神经网络(Convolutional Neural Network,CNN)识别博客作者的年龄、性别和教育状况。首先,利用文档向量模型Doc2vec生成博文的分布式表示。其次,基于词频逆文档频率(TF-IDF)构建博文表示。然后,根据这两种博文表示,构建博文的分布式集成表示。最后,采用卷积神经网络来预测博客作者的属性。实验结果表明,本节方法的性能优于基线方法。

在较多研究工作中,将作者画像识别任务看作二分类或多类别的文本分类问题。目前有许多研究工作实现博客、微博、新闻文本以及电子邮件等载体的作者性别识别[104,110,111,112,113,114]。例如,Mukherjee[115]提出了一种关于词性序列模式的特征来表示文档,并使用支持向量机分类、支持向量机回归和朴素贝叶斯来识别博客作者的性别。Ansari et al.[111]首先构建三种相互独立的特征包括词语频率、基于token的TF-IDF和词性,然后利用ZeroR和Naive Bayes对博客作者的性别进行分类。

对于微博和新闻文本等,Ramnial et al.[110]首先提取如下特征作为博士论文的风格特征,包括组合词语、词尾、功能词、词性标注以及关于字符、词语、句子和标点符号的统计特征。然后,利用两个分类器或k-近邻和支持向量机预测作者性别。王晶晶等[112]首先设计了基于用户名称特征和基于微博文本特征的两个分类器;然后,采用贝叶斯规则集成这两种分类器来识别微博作者的性别。Cheng等[104]构建字符特征、词语特征(包括心理语言学词语)、句法特征、结构特征、功能词(包括性别偏好词语)来表示文档。然后,利用三种机器学习方法包括支持向量机、贝叶斯逻辑回归以及AdaBoost决策树来识别新闻文本和电子邮件。

相对地,识别互联网文本作者的年龄和教育状况相关工作不多[114,116]。Nguyen等[116]使用逻辑线性回归方法将Twitter用户分为三个年龄段。另外,Alvarez-Carmona等[114]基于二阶属性和潜存语义分析来表示Twitter文本,并利用支持向量机预测作者的性别、年龄和个性特点。