15.3.3 数据的逻辑回归分析
逻辑回归分析又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘、医疗自动诊断、经济预测等方面。本研究设定的一个研究问题是:UGC用户的行为差异将对普通用户向会员用户的转换结果(是否成为会员)产生怎样的影响?为此,前面已将数据集划分为收费用户和非收费用户两类。之前的统计检验表明,两类用户的微博数、关注数、粉丝数存在显著差异。考虑到因变量为0-1变量,因此选择逻辑回归分析,选择的自变量要与因变量有相关关系,如用户年龄、等级、性别、微博数、关注数等。通过逻辑回归分析可以得到自变量的权重,可以进一步定量分析不同自变量因素对普通用户向会员用户转换的影响程度,同时也可以根据构建的逻辑回归模型预测一个普通用户转向会员用户的概率大小。
数据集开展逻辑回归分析设定的因变量和自变量如图15-6所示。
图15-6 逻辑回归分析中的因变量与自变量
在逻辑回归分析前,首先将两类用户数据子集合并为一个,然后划分因变量和自变量,示例代码如下:
使用table()函数统计因变量的频次和频次占比,示例代码如下:
使用glm()函数构建逻辑回归方程,使用summary()函数查看分析结果,示例代码如下:
glm()函数可用于建立逻辑回归模型,Y~X为数据源,X为自变量,Y为因变量。family允许各种关联函数将均值和线性预测器关联起来,常用的family类型有logit、probit、identity等。step()函数用于逐步回归分析。逐步回归分析是一种将解释变量(自变量)逐个引入模型,并逐个对引入的变量进行检验,剔除对因变量作用不显著的变量,从而保证模型中自变量有用性的方法。both参数表示综合backward(向后剔除)和forward(向前引入)两种方法。
stargazer包提供的stargazer()函数可以输出较为美观的回归表格,示例代码如下:
逻辑回归分析结果(部分)如图15-7所示。
图15-7 逻辑回归分析结果(部分)
逻辑回归分析结果表明:用户的社区参与同其决定成为付费会员的可能性呈正相关,同其发表微博的行为呈负相关,同时用户的社区领导对其最终成为付费会员的可能性没有显著影响。此外,用户等级和活跃天数与用户最终成为付费会员可能性呈正相关,用户使用时长与最终成为付费会员可能性呈负相关。用户等级越高,活跃天数越多,越有可能选择购买会员。