“基础信用”的合成

一、“基础信用”的合成

(一)关键词的筛选

根据“信用”一词的语义(道德准则、履约能力、法律责任),从正面守信舆情和负面失信舆情两个层面,采用主观选词和算法选词相结合的方式,筛选信用及关联的核心关键词。要求满足:与“信用”相关(需同时满足语义相关、数据相关),搜索热度达到一定标准(日均搜索指数值达100频次以上)。同时剔除相关性不高或指标热度过低的关键词。通过筛选,最后用于合成“基础信用”的关键词共计24个,包含1个核心关键词和23个关联关键词(见表6-1)。其中,公信和公信力采用组合关键词的方式检索。

(二)信息的爬取

在百度指数搜索引擎中爬取24个信用及关联关键词的天搜索指数值,然后由天搜索指数值换算得出全国2011至2018年,以及2018年31个省级行政区(不含港澳台地区,下同)的年搜索指数序列。其中,日搜索指数序列主要用于测算关联关键词与核心关键词“信用”之间的相关程度,并确定各关键词的指标权重;年搜索指数用于测算样本观察期内“基础信用”的变化趋势,以及各地区的横向比较。

(三)权重的确定

为了合成“基础信用”值,需要确定核心和关联关键词的指标权重。权重的计算采用关联程度和搜索热度综合加权的方式,即先计算“诚信”等关联词与“信用”一词的相关系数,然后用相关系数乘以日均搜索指数,计算得到经相关性调整后的日均搜索指数,再将调整后的日均搜索指数作为热度值,归一得到各关键词的权重(见表6-1)。之所以用高频的日均搜索指数计算相关系数,而不用低频的年数据,是因为日数据对各关键词之间的相关性衡量更为精确。(https://www.daowen.com)

表6-1 “基础信用”加权值的生成

图示

注:**表示在0.01水平(双侧)上显著相关。

(四)加权值的合成

先对信用及关联关键词的年搜索指数序列进行预处理,由于搜索指数均为正向指标,即指数值越大舆情热度越高,因此无须做方向一致性转换。计算历年“基础信用”值时采用极大值进行无量纲化转换,在计算2018年各地“基础信用”值时采用功效系数法转换,分别取最大值60和最小值40。信息集结模型采用线性加权公式,通过将各关键词加权,得出全国2011—2018年的“基础信用”加权值和2018年31个省级行政区的“基础信用”加权值。