15.1.2 数据来源与采集

15.1.2 数据来源与采集

案例数据来源于采集的新浪微博用户数据。我们以2014年9月底至10月中旬为数据时间段,并以分层抽样(按地域分)的方式,通过爬虫程序采集了202 538条微博用户数据,含用户人口特征、用户行为信息等20个字段。考虑到采集字段主要包括因会员用户身份所享有的特权,可能会对参与行为产生一定的影响,因此,研究仅筛选会员等级为1的会员用户作为研究对象。选定爬取的种子用户页面及页面字段如图15-2所示。

之所以选取新浪微博用户作为研究对象,并将2014年10月31日新浪微博改版前的用户行为数据作为分析基础,主要基于以下原因。

·新浪微博是中国目前规模和影响力最大的开放式UGC社交媒体。

·与其他UGC社交媒体相比,改版前的新浪微博可采集的用户数据字段较为完整。

·据2015年新浪微博发布的用户报告显示,2014—2015年,微博活跃用户和会员用户同比增幅都在30%以上,在高速发展期间采集的微博用户数据更能反映用户参与行为与微博前向商业变现间的关系。

图15-2 选定爬取的种子用户页面及页面字段