10.1 引言

10.1 引言

自从1995年Feldman和Dagan(1995)引进文本数据挖掘技术以来,这项技术已经被广泛应用于从大众社交媒体到科学出版物和专利的文本分析。文本挖掘是分析自然语言文本的过程,旨在发现和捕捉包含于其中的有用信息。基于此,文本挖掘利用不同的算法从大量可获取的数据中识别有趣的模式。文本挖掘使用与数据挖掘具有相似的探索性数据分析方法,它也依赖于信息检索、信息抽取、计算机语言学和自然语言处理等领域的技术和方法学的应用,以处理基于文本的语料库(Feldman,Sanger,2007)。

文本挖掘的步骤与传统数据挖掘相似,只是将分析的焦点从一般数据转移至文本文件。焦点的改变给文本挖掘领域的研究带来了新的问题和挑战。第一个主要挑战与由非结构化数据集的使用引起的问题相关——数据建模的视角。为了解决这一问题,文本挖掘领域的研究应用各种各样的传统技术(如文本表示、分类、聚类和信息抽取)来探索文本中的隐含模式和重要的概念或主题。在这种情况下,特征的选择、相关领域的知识和特定领域的程序在挖掘技术的性能方面起着至关重要的作用。

文本挖掘的主要方法包括:自动分类、自动提取和链接分析(Feldman,Sanger,2007)。基于此,科研人员常强调文本挖掘和文献计量学研究之间的协同性(Kostoff,del Río,Humenik,García,Ramírez,2011)。因此作为一种文献分析技术,文本挖掘为某一学科领域、国家、机构或是本章所举的例子——期刊的分析提供了可能。文本挖掘广泛应用于商业和生命科学领域,已经成为信息计量学研究的一种标准技术(Bar-Ilan,2008)。

本章中,我们首先介绍了文本挖掘在文献计量学领域研究中的应用历史,接着,介绍了文本挖掘体系的架构和其性能。随后,介绍了Stanford CoreNLP解析器,并使用该软件对2012年发表在《美国社会信息科学和技术》期刊上的177篇文章的标题和摘要进行分析,提供了一个该软件在文献计量学分析中应用的实例。最后,我们对文本挖掘技术在文献分析领域的应用前景进行了讨论。