基于大数据的信用舆情指数构建

第六章 基于大数据的信用舆情指数构建

信用舆情是作为主体的民众对政府、企业个人、社会组织等不同客体的信用活动所持的信念、态度、意见、情绪等社会政治态度的总和。信用舆情指数则是量化评估民众对各类信用活动社会政治态度的工具。它为及时掌握社会信用舆情动态以及进行舆情监测预警提供了依据,是当前推动我国社会信用体系建设,提升社会信用治理能力的有力抓手。

舆情指数的相关研究主要集中在两个领域:社会领域的舆情指数,主要关注各类社会热点和典型舆情事件,具体有社会舆情指数、网络舆情指数、食品安全舆情指数等;经济领域的舆情指数,主要关注金融市场和宏观经济形势,具体有房地产市场认知舆情指数、CPI舆情指数、投资者舆情指数等。(https://www.daowen.com)

从舆情指数编制方法上来看,传统的根据调查统计数据编制舆情指数的做法,无论是舆情数据采集效率,还是舆情监测时效性等均存在诸多局限性,因此当前主要基于网络舆情数据来实现,典型的做法有两种。第一种做法,从舆情热点事件出发,先按舆情概念划分出若干舆情维度并确立可量化的指标体系,通过采集网络舆情数据,将不同维度指标进行加权,得到单起舆情事件的个体指数,最后将观测期内全部个体舆情指数加权合成舆情总指数。该方法的优点在于既可进行个体舆情事件分析,又能进行总体舆情趋势研判;缺点是只能依靠有限维度的少量可量化的网络舆情指标,对大量非结构化指标数据的挖掘不够。第二种做法,从舆情关键词出发(非针对具体的舆情事件),先通过抽象的舆情语义分析分解得到与舆情核心词存在某种关联的关键词集合,然后爬取该集合中各关键词的非结构化或结构化大数据,通过一定算法对各关键词做进一步筛选验证,并将验证后的关键词加权合成舆情总指数,主流的做法主要依靠搜索引擎工具,或者专业的舆情监测软件来实现。该方法发挥了大数据的优势,舆情评价不再局限于少数几个维度,适合对舆情趋势做整体研判;缺点是舆情关键词的单体价值密度低、噪声大,容易遗漏或者误选关键词,此外,无法得到个体舆情指数,也无法进行单起舆情事件分析。

综上所述,已有的研究虽然取得了较多的成果,但也存在进一步研究和改进的空间。本章以信用舆情为对象,基于大数据指数构建方法,对指数编制做了改进:首先,对选词方法做了改进,结合舆情热点事件将信用舆情关键词进行分类,通过主观选词和算法选词相结合的方式筛选关键词。其次,对指数合成进行了改进,采用关联程度和搜索热度综合加权方式,用信用及核心关联关键词合成“基础信用”舆情值,作为信用舆情指数的基础组成部分;通过波动性和搜索热度综合确权,得到不同领域不同维度的分类舆情指数,并将“基础信用”与分类舆情指数合成舆情总指数,并用互联网普及速度对指数序列进行修正,剔除互联网用户基数变化带来的影响,从而更为客观地反映信用舆情的整体变化。最后,对2011—2018年的信用舆情态势进行了实证,对不同阶段、不同领域多个维度信用舆情的结构性特征进行了剖析,同时对2018年全国各地区的信用舆情特征进行了横向比较。