6.1 文本分析简介
1.文本数据与数值数据的比较
数值数据是指按数字尺度测量的观测值,如学生的年龄、工人的工资等。数值数据可以进行排序、计算等操作,并且一般是结构化数据,存储在关系型数据库中,易于处理。与数值数据明显不同的是,文本作为数据具有四大特点:一是数据来源、发布主体(个人、企业、政府等)、发布形式(博客、微博、论坛等)都更加多样;二是文本数据通常是高维数据,承载的信息密度高,而数值数据多为2维、3维的低维数据,承载的信息有限;三是隐性显性兼并,文本数据不仅有显性的形式和内容,也具有潜藏的隐性特征;四是文本数据依赖语义情境,文本的形式、对象各异,其传递的信息在不同情境下有着不同的内涵,这属于语言学中语用学常常探讨的范畴。
2.文本分析的内涵
文本分析,也称为文本挖掘,是从非结构化文本中提取有用信息和知识的过程。文本分析能够通过计算机技术从海量的、非结构化的文本数据中自动化提取有价值的信息,并解决特定领域的问题。文本分析所使用的文本数据既可以来源于传统媒体,如书籍、报纸,也可以来源于新兴媒体,如数字杂志、网络等。常见的文本分析任务包括词频(Term Frequency,TF)分析、主题分析、情感分析、相似性分析、文本可视化等,这些任务的实现一般需要借助于自然语言处理技术和机器学习等方法。
3.文本分析的重要性
我们可以从应用驱动和必要性两个角度来探讨文本分析的重要性。
从应用驱动方面来讲,人们希望对文本数据进行分析的原因在于,这些数据蕴含着有价值的信息,能够帮助人们解决问题、创造价值。例如,我们平时接触的淘宝、京东等电商平台都有发布评论的功能,电商平台可借此对大量用户评论进行分析,从而改善其服务。
从必要性上来讲,在大数据时代背景下,个人、团体、公司、政府等不同组织形态的主体深深嵌入互联网世界中,留下了大量的文本材料,即使在一个相对较小的领域,我们也能搜索到帖子、评论等不同形式的文本材料。这些文本材料综合了各行业从业人员的认知,通常蕴含着有价值的信息,社会学、管理学等不同学科都可以通过研究这些文本材料探索新的研究对象和研究领域,因此,数据科学家需要构建完善的文本分析框架来对这些文本进行分析。
综上所述,从应用驱动的角度来讲,文本蕴含着有价值的信息,对海量的文本数据进行分析能够解决现实问题。从必要性的角度来讲,在大数据时代背景下,数据量大且结构复杂,我们需要对文本分析予以重视。