16.1.1 案例一数据集介绍

16.1.1 案例一数据集介绍

本次分析用到的数据集为20news-bydate.tar.gz,它是由肯·朗(Ken Lang)在1993年收集并发布的公开新闻文本数据集,其具体用途并未公布,但是该数据集目前多被用于文本分析的学习。此数据集中的20个新闻组是按日期排序的,并且已经经过了去重处理,数据按6∶4的比例被分为训练集和测试集。

该新闻数据集中共包含20个主题,每个主题包含的数据量分布比较均匀,其中一些主题是密切相关的,而另外一些主题则完全没有关联。20个主题的数据按照相似程度划分的结果如图16-2所示。

图16-2 新闻主题分类结果

上述网站提供了3种数据集的版本:一是原始数据集,未进行处理;二是按照日期排序的数据集,并且进行了去重处理,包含18 846条数据;三是经过去重处理的数据集。本章以第2种数据集为例进行文本分析,因为第2种数据集去除了新闻组识别信息,并且已经划分了测试集和训练集,便于得出更准确的结果。