15.3 数据的描述性统计与建模分析
针对sina_feeuser和sina_nofeeuser两个数据子集的描述统计与建模分析可分为以下两个阶段。
第一个阶段:描述性统计以及非参数检验(U检验和T检验)。之前的数据预处理过程已经使读者对数据有了初步了解,描述性统计可以进一步帮助读者一览数据全貌,挖掘更多有价值的信息,如各字段的均值、中位数、众数等。此外,针对研究问题设定的假设,我们可以对两个数据子集进行非参数检验,比较两类用户行为的异同。
第二个阶段:选用成熟算法,实施数据建模分析。通过选择合适算法,我们可以挖掘数据间的深层关系,进一步检验UGC用户的行为差异将对普通用户向会员用户的转换(是否成为会员)以及转换速度(多快成为会员)产生的影响。考虑到分析变量的特征,本分析案例将使用逻辑回归分析以及生存回归分析。由于本案例中的因变量为0-1变量(是或者否),因此可以使用逻辑回归模型进行分析。另外,研究还需要揭示UGC用户行为对普通用户转为收费用户速度的影响,此时选择生存回归分析更适合研究情境。