5.6.3 就近入学评估的地理空间描述模型

5.6.3 就近入学评估的地理空间描述模型

1.基于地理空间分布特征的定量评估指标体系

就近入学的问题本质上是地理空间中学生家庭与学校的空间关系的问题,因此本书分别针对学校和学生这两个空间对象,根据其地理空间分布特征,定量基于学校和学生的评估指标体系,从学校和学生两个层次评估就近入学的效果。基于学校的指标包括学生空间分布熵和平均上学距离,基于学生的指标包括上学距离与平均距离的比、上学距离与最近学校距离的比,其中所述上学距离均为步行距离。

1)学生空间分布熵

按照学区规划入学的学生家庭聚集在学区内,而择校学生的家庭往往随机分布在区县或全市。这一趋势表明,学校在校学生家庭在地理空间中的空间分布特征可以反映学校在执行就近入学政策方面的整体状况。学生家庭分布越分散,其在地理空间中表达的空间信息越丰富;学生家庭越集中,其在地理空间中表达的空间信息越单一。因此,本节将对学校的就近入学的整体状况的量化,通过在校学生家庭在地理空间中的空间分布特征,转化为在校学生家庭的地理空间分布所表达空间信息量的度量。

信息度量是对信息中所包含的不同信息特征数量的统计描述。香农认为信源输出的消息是随机的,信息源的信息量应是概率的函数,用信息源的信息熵表示[20],即

图示

利用香农信息熵的原理,本书定义了一种学生空间分布熵,以度量在校学生家庭在地理空间中的空间分布特征,从而定量描述学校的就近入学的整体状况。假设在校学生人数为T,空间聚类分析获取M个聚类,每个聚类中学生数量为Ni(i=1,2,…,M),则每个聚类的学生分布概率为

图示

根据香农新生信息熵的公式,信息熵为

图示

若在校学生家庭分布极为分散,即任意两个家庭间的欧式距离都大于距离阈值,空间聚类分析将获取M=T个聚类,每个聚类中学生数量均为Ni=1(i=1,2,…,T),其概率为

图示

则信息熵为

图示

显然在校学生家庭分布极为分散时的信息熵值最大,为lnT,其与学生数量相关。不同学校的学生数量一般都不一样,导致最大熵值不一样。为了使得不同学校的学生空间分布的信息熵与学生数量无关,利用最大信息熵对其进行归一化处理,使其值域为[0,1]。本书将该归一化的信息熵定义为学生空间分布熵,即

图示

根据学生空间分布熵的定义,在校学生家庭在地理空间中的聚集程度的值越小越聚集,值越大越分散。由于按照就近入学原则入学的学生都集中分布在对应学区,而择校学生的家庭是随机分布的,所以学校内择校学生越多,学生空间分布熵越大,反之越小。

2)学生上学平均距离

在空间聚类的基础上定义学生上学平均距离。假设在校学生人数为T,空间聚类分析获取M个聚类,每个聚类中学生数量为Ni(i=1,2,…,M),每个聚类的学生上学算术平均距离为图示(i=1,2,…,M),每个聚类的权重为wi,则学生上学平均距离为

图示

其中,权重为

图示

当k=1时,权重为

图示

此时,学生上学平均距离为算术平均距离,其结果与空间聚类分析无关,易受个别距离较远的择校学生的上学距离影响,导致值偏大。

为降低分布分散的择校学生的上学距离影响,突出分布集中的就近入学学生的上学距离,权重wi的k值设置为k≥2,k越大越突出分布集中的就近入学学生的上学距离,忽略分布分散的择校学生的上学距离。

3)上学距离/平均距离

上学距离/平均距离指标用于相对度量学生的上学距离。受城市规划、教育资源分布差异等影响,不同学区内学生上学距离存在一定的差异。例如,老城区内学生、学校的分布都较为密集,而新城区内学生、学校的分布较稀疏,使得不同学校在校学生的上学距离存在一定差距。为了比较学生个体在上学距离出现的地域差异,以该校平均上学距离为参考,将上学距离与平均距离的比作为度量学生个体上学相对距离的指标。(https://www.daowen.com)

假设学生上学距离为d,该校的学生上学平均距离为D,则其比值为d/D,值域为(0,+∞),值越大,上学距离越远。

4)上学距离/最近学校距离

上学距离/最近学校距离用于评估学生个体的就近入学的程度。假设学生上学距离为d,离该学生家庭附近学校的最小上学距离为Dmin,则其比值为d/Dmin,值域为[1,+∞)。虽然就近入学并非最近入学,但在不考虑学区划分的前提下,最近入学并不违背就近入学。另外,如果当前上学距离远大于最近学校的距离,则违背就近入学的可能性更大。因此,上学距离/最近学校距离的值越大,学生择校概率越大,值越接近于1,就近入学的概率越大。

2.基于地理空间分析的定量化指标计算算法

就近入学评估模型的指标计算算法如图5-14所示。算法的输入数据为学生学籍数据中的学生家庭住址和入学学校名单列表,输出数据为每个学校的学生分布熵值和学生平均上学距离值、每个学生的上学距离/平均距离的值和上学距离/最近学校距离的值。整个算法的难点在于如何由学生家庭住址和学校名称计算学生步行上学距离,以及如何由学生家庭住址进行地理空间聚类。解决该问题的第一步在于将学生家庭住址和学校名称映射到地理空间,获取其空间位置的经纬度坐标;然后才能在地理空间中利用地理空间分析算法进行空间聚类和步行距离计算;最终根据就近入学评估模型的指标定义,计算其指标值。

图示

图5-14 就近入学评估模型的指标计算算法流程

1)基于百度地图API的空间分析

本算法利用百度地图API的空间分析功能实现上述关键步骤,包括利用百度地图API的地理编码功能由地址获取经纬度坐标,利用百度地图API的批量算路功能,计算步行运动模式下的路径距离。

(1)地理编码算法。

地理编码算法将一段表示地址的文字与大量表示地址并包含地理位置属性(如经纬度坐标信息)的文字进行相似性匹配,在这些表示地址的文字中匹配到相似度最高的文字,最后返回匹配结果和相应的地理位置信息作为算法输出结果。

该算法主要利用数据库技术实现。首先是构建POI(point of interest,兴趣点)数据库,其中每个POI至少包含该点的地名或地址、经纬度坐标值。其次是基于地名或地址的POI检索。通过被检索地名文本与POI数据库中各POI的地名或地址的文本间的相似性度量,将相似性最高的POI作为检索匹配的最优POI,并将其经纬度坐标值作为地理编码的结果,实现由地名或地址文本向地理空间坐标的转换。

百度公司以其海量的POI地图数据库和功能强大的地图检索能力为支撑,开发了一系列的百度地图API,其中包含一项名为地理编码服务(又名Geocoder)的Web API接口服务,将结构化地址数据(省/市/区/街道/门牌号)转换为对应的位置坐标(经纬度),地址结构越完整,地址内容越准确,解析的坐标精度也就越高。因此,本书基于百度地图API的地理编码服务实现了地理编码算法。

(2)步行距离计算。

步行距离计算是交通规则约束下的基于城市路网的两点间的最近距离计算,属于交通导航领域的路径规划功能的一部分。

首先将路径的起点和终点按最近距离原则投影到路网中最近的道路上,其在道路线上的垂足作为基于城市路网的两点间的最近距离计算的起点和终点。图搜索算法Dijkstra是路网的两点间的最近距离计算的传统算法,但难以满足互联网地图检索实时响应这种性能要求。因此,各地图导航公司都采用分层或者预计算的预处理方法,以提高算法的效率。在2008年前后,以KIT(德国卡尔斯鲁厄理工学院)为主的研究机构设计了多种路径规划加速算法,其中以Contraction hierarchies和Highway hierarchies较出名,加之微软研究院提出的支持大型路网数据的路径规划算法Customizable Route Planning,与传统的A-star结合,基本上支撑了目前工业界地图产品的路径规划服务。

百度地图API的批量算路服务(又名RouteMatrix API)是一套以HTTP/HTTPS形式提供的轻量级批量算路接口,用户可通过该服务,根据起点和终点坐标计算路线规划距离和行驶时间,批量算路服务的配额和并发是按最终路线数来计算的。本节基于百度地图API的批量算路服务实现了从学生家庭住址到学校地址的学生上学步行距离计算。

2)空间聚类

为了保证针对不同学校的在校学生空间聚类的尺度一致性,本书采用基于欧式距离的聚类算法进行学生家庭地址的空间聚类分析。首先采用地理编码算法将学生家庭地址转换输出的WGS84坐标系的地理空间经纬度坐标转换为UTM坐标系下的平面直角坐标;然后以每个家庭住址的UTM平面直角坐标创建点状地物对象;最后以点状对象间的空间直线距离为聚类指标,对一个学校的在校学生家庭的点状地物对象进行空间聚类分析,获取该校学生家庭的空间分布状态。

基于欧式距离的聚类算法具体的实现方法大致如下:

(1)在在校学生中随机选择一个学生的家庭住址P0,作为初始聚类C0

(2)设置空间邻域的距离阈值δ,查找P0的圆形邻域内的其他点,并将这些点加入C0

(3)继续以距离阈值δ,查找C0内其他点的圆形邻域的点,并将这些点加入C0

(4)重复步骤(3),直到没有新的点加入聚类C0,从而获取完整的第一聚类。

(5)按照上述步骤对剩余点进行聚类,获取其他聚类。

3)指标计算

在地理编码和步行距离计算,以及欧式距离聚类分析的基础上,根据就近入学评估模型指标的定义,计算各指标值。