15.2 数据预处理
2025年09月26日
15.2 数据预处理
对采集的原始数据进行预处理是数据分析流程中的重要一步。由于多种原因,原始数据可能存在字段或记录不全、数据取值异常等情况,经过预处理解决这些异常问题后,方能开展下一步的分析。一般而言,数值型数据的预处理主要应对数据缺失值和异常值问题,下面简要说明处理步骤。
从新浪微博爬取的19个字段数据集,并不是都要用于分析,有一些数据字段,如用户的地址、简介、标签和微博昵称等,尽管存在缺失和异常情况,但这些字段不用于后续分析,因此不需要进行预处理。用户等级、活跃天数等字段与研究问题密切相关,将用于后续的数据分析,因此需要对这些字段存储的数据记录深入分析,妥善处理。
获取的新浪微博用户数据集为Excel文件,我们使用readxl包对其进行读取,代码如下:
在预处理数据字段前,可以先查看读取的数据对象记录情况,代码如下:
输出结果表明,数据对象sina包含202 538条数据记录,20个变量。之后用summary()函数和str()函数查看各变量类型、变量名称等信息,代码如下:
我们也可以使用Hmisc包中的describe()函数对数据进行全面的描述性统计,如果数据集数据记录较多,使用此函数查看结果可能需要耗费一些时间,示例代码如下,输出结果如图15-3所示。
图15-3 数据集描述统计分析输出结果
图15-3显示了数据集各个字段的数据记录缺失及描述性统计结果,方便研究者针对各字段的缺失情况选取不同的缺失值应对办法。