5.2.3 基于词项距离的共现网络分析法

5.2.3 基于词项距离的共现网络分析法

一般地,在基于文本的共现分析中,研究者会更多的关注于词的主题或频次。其中主题决定了该词是否“要”的问题,而频次更多的是决定了后面在使用的过程中该词有“多重要”的问题。但是无论是主题词、高频词还是关键词,其实凸显的都是频次问题。我们经常见到的词云图也是如此,如图 5-1所示。

通过词云图虽然可以快速了解数据集的部分特征,但是这些往往只是浅层特征,无法获知特征之间的关联性和内在逻辑。例如通过词云图我们可以大概获知该数据集涉及了“微信”“企业”“新闻”“经济”“发展”“市场”等内容,但是我们无法通过该图获取这些主题之间的联系。当然,具备领域背景知识的分析者也可能通过自身专业背景弥补词云图缺失的信息。尤其当面对一个陌生领域的时候,这种情况更为突出。

另外,呈现词云图时,一般更多的是基于名词,这种方法很容易就丢失了逻辑层次。从某种意义上我们可以说,动词是名词间逻辑关系的表达者。假如我们把名词视为信息岛,那么动词就是信息岛之间的桥梁。因此略去动词,词云图就如一片由孤岛组成的洋面。当然,若在词云图中保留动词,虽然并非难事,但是动词的加入,往往会使词云图显得突兀而无意义,缺少主宾角色的动词在词云图中就失去了其本应该具有的意义。

由于词云分析的不足,基于词项网络(词簇)分析的方法被提了出来。所谓词项网络分析,即利用社交网络分析的方法来对词项之间的关系进行分析。为了在纷繁复杂的词项网络中呈现易于被接受的可视化结果,研究者需要根据词项间的关联关系,分析词项复杂网络中的词簇,即关系密切、表现为“团簇”现象的那些词项,因此我们也常将词项网络分析称为词簇分析。词项网络分析一般还应该考虑词项间的关联问题。在众多的词项之间,其关联强度是不一致的,关联的强弱体现了当前分析主题所蕴含的某种内在逻辑或关联。常规的以频次代表关联强度的做法,将会导致某些具有高主题辨识度而低频的词项关联被弱化。为完成词项关联计算,结合共现分析,笔者提出文档频次(各文档间层次)、累积频次(所有文档内频次累积)以及与之相应的两个中心频次共计四个指标来实现词项间关联计算,以满足不同可视化类型的需要。

在社交网络中,网络的节点是每一个研究实体(物理空间中具体的人或者虚拟空间中的账号),节点之间的连线代表了实体之间的关系。与此类似,在词项网络之中,节点不再是人名、机构名或其账号,取而代之的是词语;节点之间的连线表达了在文本文档或者文本数据集中词语之间的逻辑关系或者上下文关系。由于词项网络具备了表达词语之间关系的能力,并且可以通过词项节点的大小来表达其频次。换句话说,词项网络不仅能够表达词云图所表达的频次大小,而且还能表达词之间的关系。较词云图而言,由于词项网络可以表达词语之间的关系,因此可以很自然地将动词纳入词项网络之中。词项网络示例图如图5-3所示。

图5-3 词项网络示例图

另外,在可视化过程中,结合前期研究经验,笔者初步总结了两种较为合理的可视化布局方式:即时序扩散型和谓词扩展型。其中时序扩散型又可以分为显式和隐式两种,显式时序扩散将把时序词项纳入呈现对象集,而隐式则不是。时序扩散布局的可视化将使得时序演化类大数据项目的演化发展脉络更为清晰。而谓词扩展型则是以主体词项为呈现中心对象,通过谓词扩展至其他主体、客体,其他主体再通过其相关谓词扩展。该可视化方式则有利于研究者理解与主题相关的大数据中的核心驱动激励要素以及蕴含在其中的内在逻辑关联。研究者也可以根据实际情况,结合两种布局进行可视化呈现。

词项网络分析的一般流程如图 5-4所示。

图5-4 词项网络分析的一般流程

下面对部分步骤稍做展开。

(1)数据采集。当前述步骤确定了明确的分析目标,该步骤一般采用主题采集模式。

(2)聚类分析。该环节根据具体分析任务,可以决定词项的取舍。该步骤和词簇拼接是相关联的。即若需要层次化的可视化词项网络,则需要执行聚类分析,后续也需要执行词簇拼接。若只是常规的词项网络分析,则聚类分析和后续的词簇拼接都是不必要的。当采用前文中的R-Grams聚类法时,因为该方法无须分词支持,因此分词置于后续环节。若采用基于词项的聚类方法时,则分词方法需要前置。

(3)分词。当用于后续词簇分析时,分词是必需的步骤。但是若研究者采用前置聚类分析,则呈现结果既可能是直接的分词及特征构建,也有可能是其他特征构建方式。

(4)词项选择。根据分析目标的不同,词项的选择也将有所不同。

(5)词项关联优化。即采用不同的频次处理方法,突出分析目标。例如若目标是分析某个主题下的团伙时,则注重的不是绝对频次,而应该是相对频次问题。

(6)词簇拼接。在前“(2)聚类分析”已述及,此处不再展开。

我们开发的舆情文本分析系统如图 5-5所示。

图5-5 通用舆情文本分析系统

但是,由文本共现分析的结果到词项网络的可视化呈现之间,尚有两大难点阻隔。其一是词项网络比词云图要复杂很多,很容易导致计算机运算资源的不足或者可视化分析和呈现工具的崩溃。这是因为,在词云分析的时候,研究者只需要根据分析需要,从高频词列表中取其前若干个即可。但是在词项网络分析的时候,高频词之间往往两两之间都会存在共现关系。即若有n个高频词,在词云分析时,便只涉及n条记录,而如果进行词项网络分析的时候,将可能面临高达n(n-1)/2条的记录。其二是无意义的词项数量太多。在通常的文本共现分析中,研究者常常关注的是两个词是否同时出现在同一个文本文档之中,更精细化一点,研究者可能会考虑到这两个词是否出现在同一个段落或者同一个句子之中。文档级或者段落级粒度共现分析的缺陷是很明显的,句子级粒度是有一定的合理性的,不过句子有长有短。在短句子当中。没什么问题,但是在长句子当中问题也很明显,尤其是那些结构复杂的长句。

针对文本共现分析的不足,笔者提出了基于词项距离的文本共现分析法。该方法的改进主要体现在以下两点:

(1)除了继续使用常规方法所使用的名词,同时还保留动词。

(2)纳入词项距离。所谓词项距离,即词之间的距离,研究者可以采用两种度量方式:字符和词。以字符度量时,两个词之间的距离即其间所夹的字符数;以词度量时,两个词间距离即其间词的数目。正因为如此,采用的词库或分词方法的不同,可能会导致词项距离的不同。

上述改进的意义在于:

(1)考虑了动词,因此各个名词不再是孤立的概念,通过名词间的动词,使得词间关系不仅仅是共现,更重要的是体现了词之间内在的关联逻辑。并且在纳入动词后,词项网络理应成为一个单向网络,即词项与词项之间的连接是单向的。这对应前述的谓词扩展。

(2)词项距离的纳入,使得词间的共现关系成为更为名副其实的共现。例如,对于一篇万字长文,从文档的角度来看,文章开始的词项和文末的词项是共现的。但事实上,这么长距离的两个词项是不一定有关系的,甚至经常是没有关系的。此外,词项距离的纳入,可以避免前述距离相隔遥远的词项被判定为共现,即实现对复杂的词项网络的大幅剪枝。

例如,给定如下示例文本。

该项目是围绕着网络舆情的涨落研究而系统展开的。具体而言包括以下几个方面:

①网络舆情的含义和媒体平台特性研究。作为大数据处理的前置环节,结合前人研究成果和客观实际情况,我们对网络舆情的含义进行了解读和延展,并对各种媒体平台进行了较为深入的研究,提出了一些新的观点,例如操作代价和操作收益等。

②网络数据抽取研究。作为大数据研究的基础,自动化的获取和网络数据处理是一种基本功能。因此我们深入的研究了各类网页的信息提取及结构化处理,主要包括基于逻辑链接块的网页正文抽取、多特征融合的网页正文抽取等。

③网络舆情热点识别研究。舆情研究必须找到被研究对象,因此自动化识别出网络舆情热点就成为舆情涨落研究的基石。网络舆情热点的识别最重要的方面之一即文本的聚类。在该部分我们研究了基于随机n-Grams成本相似度计算的随机策略以及相应的文本聚类方法。

④网络舆情数据的网络分析及内容分析研究。网络分析和内容分析是舆情研究的两个极其重要的方面。针对这两个方面,我们都在前人研究的基础上做了有益的尝试和探索,并分别提出了基于词项距离的共现分析法和基于网络拓扑和权值的虚拟团伙识别方法。

⑤网络舆情的涨落研究。针对舆情的涨落研究,基于前述各个方面的研究,我们提出了多维度的舆情演化研究范式,将舆情的研究归结为时间维度、用户维度、媒体维度、内容维度等几个方面。

⑥网络舆情的案例研究。在此部分我们利用前面的方法,较为深入地研究了关于供给侧结构改革等的网络舆情。

⑦网络舆情中形形色色的安全问题研究。在此部分。我们将网络舆情相关的安全问题从三个方面进行了阐述,分别是网络舆情载体平台的安全问题、网络舆情载体的内容安全问题以及基于网络舆情载体的信息隐藏安全问题。其中网络舆情载体的信息隐藏安全问题,此前在舆情研究中一直没有受到应有的关注。

分析示例如图5-6所示。

图5-6 基于词项距离的词项共现网络分析演示

基于词项距离的计算方法,通过调整词项距离阈值(以词来度量词项距离),并且统计在两种情况下的压缩比,我们在自建的网络舆情数据集上的实验结果如表5-1所示。其中我们将压缩比定义为:压缩比,N表示不采用词项距离下文档级粒度共现分析所得到的词项对数目;Nd表示采用词项距离时的共现分析所得到的词项对数目。

两种情况分别为:

(1)计算词项距离时,若遇到标点符号(仅考虑“.”“。”“?”“!”“,”等标点)则结束计算;

(2)计算词项距离时不受标点符号的影响。

表5-1 词项距离与压缩比

从上表可见,随着词项距离阈值的增大,整体上,两种策略的压缩比都是在减小的。但若分开来看,两种策略则呈现出不同的变化特征。

(1)采用标点截止策略。此时,不难发现,其变化呈现出两个特点。其一是随着词项距离的增大变化缓慢;其二是当其降到一定的程度时不再变化而是维持在某个固定值。

(2)不采用标点截止策略。此时,与前一策略相比,不难看出它也具备两个特点。其一是压缩比随着词项距离的增大而不断明显下降;其二是其下降趋势呈近乎线性下降方式。

两种策略下的压缩比随词项距离变化的直观感受请参照图 5-7。

图5-7 词项距离对词项共现网络的压缩