15.3.1 数据的U检验和T检验

15.3.1 数据的U检验和T检验

使用Hmisc包中的describe()函数对两类数据子集开展描述性统计分析,两类数据子集描述性统计结果,即新浪微博收费用户与非收费用户描述性统计结果如图15-4所示。

图15-4 新浪微博收费用户与非收费用户描述性统计结果

U检验是一类非参数检验方法,假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著差异。使用U检验验证收费用户数据集(sina_feeuser)和非收费用户数据集(sina_nofeeuser)的用户行为(微博数、关注数、粉丝数)是否有显著差异。以关注数(aten)为检验对象,使用coin包中的wilcox.test()函数实施U检验,示例代码如下:

U检验的p值小于2.2×10-16,表明收费用户与非收费用户的关注数有显著差异。

T检验是一类参数检验方法,可用于验证两个正态分布样本的平均值是否有显著差异。以用户关注数(aten)为检验对象,使用stats包中的t.test()函数实施T检验,示例代码如下:

T检验的p值小于2.2×10-16,表明收费用户与非收费用户的关注数均值有显著差异。

分别对表征两类用户行为的数据字段实施U检验和T检验,检验结果如图15-5所示。

图15-5 新浪微博收费用户与非收费用户行为的U检验和T检验结果

图15-5表明,收费用户与非收费用户的内容生产行为、内容消费行为、社区领导行为均有显著差异。