15.2.3 数据集的划分

15.2.3 数据集的划分

本次数据分析要解决的研究问题之一是普通用户和会员用户的内容相关行为(如消费与生产)以及社区行为(粉丝与互动)有哪些差异?要回答这一问题,需要将数据集按照是否为收费用户进行划分。为了便于对两类用户行为进行非参数检验(U检验和T检验),接下来将数据集划分为两类子集,一类是收费用户,另一类是未收费用户。该分析步骤与研究问题密切相关,需要研究人员在研究设计阶段做好规划。在研究中,划分数据集或者用于变量的比较分析,或者用于数据集预测效果的检验,例如,将数据集拆分为训练集和验证集,其中,训练集数据训练模型,验证集数据检验模型预测的精准性。

在本案例中,数据集拆分的步骤如下。

首先,查看以哪个变量来确定收费用户数,示例代码如下:

从4个字段变量的描述性统计分析结果看,feelevel(收费会员等级)、feestatus(是否为收费会员)、feespeed(收费会员成长速度)和feegrowth(收费会员成长值)4个字段的数据记录缺失不一,其中,是否为收费会员字段缺失值有18 403条,其他字段缺失值均为18 404条,因此,选取feelevel(收费会员等级)变量作为确定收费用户数的依据。

其次,构建收费用户数据子集sina_feeuser和非收费用户数据子集sina_nofeeuser,构建两类数据子集的示例代码如下:

经过上述步骤构建的收费用户数据对象sina_feeuser含数据记录18 404条,非收费用户数据对象sina_nofeeuser含数据记录154 268条。考虑到经过之前的数据处理,生成了不少中间变量,为减少这些中间变量对电脑内存的占用,可使用以下示例代码删除无用的中间变量,释放占用的内存空间:

至此,新浪微博数据分析的前期数据预处理工作已完成,接下来进入数据的描述性统计与建模分析环节。