利用Stanford CoreNLP软件进行文本挖掘

10 利用Stanford CoreNLP软件进行文本挖掘

Min Song,Tamy Chambers[1]

摘要 文本挖掘技术已经广泛应用于分析各式各样的文本,从大众社交媒体到科学出版物和专利。作为一种文献分析工具,它为大规模的文献主题分析提供了一种可能,分析内容涵盖某一学科领域、国家、机构或者特定期刊。Stanford CoreNLP分析器具有可扩展性和丰富的功能,因此我们选择它进行文献计量学研究。软件当前的版本包括了一系列的处理工具,它们以原始的英文语言文本作为输入文件,输出一个完整的文本分析和语言学注释结果,以供更高级别的文本分析。本章的数据为2012年发表于Journal of American Society for Information Science and Technology(JASIST)期刊上的177篇文章的题目和摘要。我们的分析对2012年JASIST期刊上的论文所涉及的概念提供了一个概述分析,并且强调了其中出现最频繁的概念,以构建该年的总体研究趋势。