5.1 词云分析
词云分析技术是Web文本大数据可视化的核心支撑之一,也是内容分析法的重要方面。海量的Web文本数据仅依赖传统的浏览展示方式,不仅会造成工作效率低,而且也不直观,无法与人的逻辑思维发生直接的联系。一种友好的呈现方式即使用词云,这种方式既可保留海量网络群体事件数据的核心梗概,即那些关键词,同时也可以以简单友好的方式将结果呈现给用户。搜索引擎的用户热搜词作为一类特殊的关键词,也被广泛应用于舆情分析中(韦秋宇等,2021;喻国明,2013;陈涛等,2013)。
词云分析即通过对文本文档或者文本文档集合进行分析。其最重要的分析包含两点:分词和词频统计。然而仅此两点是难以呈现一个优秀的词云图的,因为词云图不仅要靠外表,同样需要靠内涵,也就是对词项的选择。
在对词云分析进行应用研究的过程中,我们既对词云分析有了新思考,同时也将这些新思考融入了后文的词项网络分析(有时,我们也称其为词簇分析)中。一些总结于实际应用研究的新思考具体体现在以下几个方面。
(1)词项的选择问题。对Web文本文档处理之后,将会获得大量的词(亦称词项),这些词项最终将成为可视化呈现的对象。常规的选择标准是根据词频来进行选择,然而高频词并非一定是最佳的。词语作为信息的载体,在不同环境中传递着不同的信息,在不同的结构中承载着不同的语义。语言环境不同,词语也会表达出不同的语义信息。根据分析主题的不同和词语所处语境的不同,相同的词所表达的语义、信息量往往也会有所不同。在考虑词频的同时,结合词项的主题辨识度来进行词项选择,会是一个不错的选择。
(2)词项归并问题。经过常规的词项选择,虽然可以实现高频词和高主题辨识度词语的提取,但是该词项集合还有待进行更深入的挑选,即词项归并。通常由于语言表达的灵活性、不同文章编撰者的语言风格的差异性等,会导致词项集合中出现相当数量的意义重复的词汇(如在同一项网络舆情中,“公安干警”和“民警”往往是同一指代),这些词汇应该进行归并,但归并却并非简单地词频相加。词项归并可通过词语相似度计算来解决。词语相似度的计算,对于中文而言,研究者普遍采用哈尔滨工业大学社会计算与信息检索研究中心同义词词林扩展版或者HowNet来计算。
(3)词云示例图如图5-1所示。

图5-1 词云图
其优点是简单直观,可以通过词云图迅速判断文档或文档集的高频词,并借此判断文档或文档集的主题。例如仅通过图 5-1,研究者虽然不知道分析中确切的文档集,但是我们可以根据高频词推测出原始数据集的主题。