1.3 研究方法

1.3 研究方法

1.3.1 从基站到居委会尺度的空间单元映射

研究中手机位置只能精确到基站单位,且在不同地区基站分布的稀疏程度不同,以基站为空间分辨率对位置的表达不利于空间维度上的信息挖掘。为了消除该影响,借鉴已有研究,本文采用维诺图(Voronoi diagram area,VDA)[37]分区方法。每一个VDA区域对应着唯一一个空间位置的基站,其大小可以近似地描述对应基站的覆盖区域。再将这一基站的记录人数在这一VDA区域内随机散点,根据居委会的空间单元区域进行汇总,实现从基站分布到居委会的空间尺度,给后期移动通信数据与交通、土地利用、POIs等其他数据的融合提供了相同的空间参照单元。

1.3.2 职住地和消费休闲地的识别

研究通过对全市原始数据的整体分析,结合居住和就业行为的一般规律,制定了手机用户居住地和工作地的筛选规则,得到用户的居住地、工作地以及各类行为目的地的分布。

在居住地的识别上,研究首先针对每一个用户,选择十个工作日的第一天0:00—6:00的所有记录点,计算每半个小时出现的记录点的众数位置,得到该用户的位置点集{P1,P2,…,Pi},i为位置点的个数;然后计算位置点集中的每一个位置点与其他所有位置点的距离和{PD1,PD2,…,PDi},从距离和的集合中找到最小值的点P作为当日居住地H_day1。对剩余9个工作日重复上述工作,找到每日居住地{H_day1,H_day2,…,H_dayn},n为可以找到日居住地的天数,且0≤n≤10。在找到每日居住地后,计算各日居住地{H_day1,H_day2,…,H_dayn}与其他日居住地的距离和{HD1,HD2,…,HDn},以及与其他日居住地距离的平均值{HD1_avg,HD2_avg,HDn_avg}。找到与其他记录点距离和{HD1,HD2,…,HDn}最小HDmin的点作为该用户潜在的稳定居住地H_potential,其对应的与其他日居住地距离平均值为HD_potential_avg。最后,判断该用户的可识别日居住地的天数n是否大于等于5,且点H_potential在{H_day1,H_day2,…,H_dayn}中出现的次数是否大于等于2,且其与其他日居住地的平均距离HD_potential_avg是否小于1 000 m,若满足上述所有条件,则该点为该用户的稳定居住地,反之则认为无法识别到该用户稳定的居住地。具体操作流程如图2所示。

同理,利用9:00—17:00点的记录,使用上述流程识别出用户的稳定工作地。

最后得出在具有稳定工作和居住地的用户数量约为751.99万人,占同年上海常住人口的31%,这部分用户可以认为是在上海稳定居住和工作的用户[3]。从概率统计的角度来看,人口数据乘以相应系数,就近似于实际管理的人口数据,且在空间分布上也具有一定的可靠性。

图2 居住地的识别工作流程
Fig.2 The framework of identifying place of residence

除居住就业外,消费休闲行为是人的另一项主要活动。由于手机数据并不能反映用户的出行目的,因此本文根据消费休闲的一般行为规律即出现频率较低,且有一定的停留时间,进行了多次尝试,制定合适的筛选标准,将2周内至多出现2次且每次停留时间在2 h以上的驻留点认为是消费休闲活动的目的地[4],并在此基础上计算家到目的地的距离。

1.3.3 昼夜比指标计算

本文以数据记录的2周内,10:00—12:00的记录人数天平均值与22:00—24:00的记录人数天平均值的比值作为昼夜比指标进行计算,计算公式为: