4.3.1 政务知识图谱

4.3.1 政务知识图谱

政务知识图谱构建方法是实现海量政务数据自动化分析检测的关键手段,借助前沿的人工智能技术和最新的深度学习理念,将其与政务数据的具体特征相结合,可以实现高精度、高效率的信息抽取。信息抽取任务致力于将文本中的非结构化信息,借助算法自动转换为结构化信息,该过程可分为两个步骤。首先是命名实体识别(Named Entity Recognition,NER),又称为“专名识别”,主要任务是识别文本中的实体边界和实体类别。具体的实体类别根据用户的使用需求选定,在政务文本的实际应用中,一般选取人名、地名、组织机构名、民族、籍贯、学历、专业和职务等类型的实体作为识别对象,其中识别难度较大的、重要性较强的是人名、职务名和组织机构名。其次是实体关系抽取(Relation Extraction,RE),主要任务是识别两个实体对之间的关系类别,政务文本中常见的关系类别包括民族关系、本人籍贯、政治面貌、教育经历、所学专业、所在单位、担任职务、专业设置、职位设置等。除此之外,针对不同政府机关的公文数据,还可包括活动主办、发生时间、发文机关、指标数值等关系类型。通过命名实体识别和实体关系抽取两个步骤,即可获取文本中的语义关系。政务知识图谱既能打破不同部门之间的信息壁垒,实现信息共享,简化服务流程,提高办公效率,促进数字政府建设,又能降低个人和企业获取政务数据的门槛,为开展相关领域的科学研究和商业应用打下坚实基础。

1.命名实体识别

命名实体识别。该任务由Rau等人[128]首次提出,其后受到众多专家学者的关注,经由MUC(Message Vnderstanding Conference)、ACE(Automatic Content Extraction)、CoNLL(Conference on Computational Natural Language Learning)、SIGHAN(Second International Chinese Word Segmentation Bokeoff)等会议评测不断丰富和发展,其定义与内涵不断完善细化,逐渐成为自然语言处理领域的一个重要研究课题。命名实体一般是由多个词构成的复合词,是人们最关注的词汇,同时也是信息抽取任务的焦点。不同领域对于实体的定义各不相同,通常根据实际需求进行选取,例如政务文本中会将政治面貌、组织机构、公文名称等复合词视为命名实体。命名实体识别的任务是检测实体的左右边界和类别属性,根据技术的发展演化阶段可将其划分为三类不同的方法。

(1)基于规则和词典的方法

基于规则和词典的实体识别方法需要人工制定词汇与语法的匹配模式、针对特定研究领域的专有名词词典。对于规则性较强的命名实体,例如通用文本中的网址、邮箱地址和商品编号等,可借助正则表达式进行规则匹配。基于规则的系统设计思路简单清晰,当规则能充分刻画语言现象,且词典的内容较为详细时,该方法能实现较高的查准率。在实际应用场景中,该方法的主要缺陷在于:严重依赖人工干预,需要经验丰富的领域专家参与,系统开发工作量较大、建设周期长;规则和词典与知识领域、文本风格密切相关,导致系统可迁移性较差;有限的匹配规则和名词词典难以囊括近乎无穷的语言现象,容易产生错误。

(2)基于传统机器学习的方法

传统的机器学习(Machine Learning,ML)方法逐渐被应用于命名实体识别任务。这些方法充分利用词汇特征、列表查找特征、文档和语料库特征,将实体识别问题转换为序列标注问题进行处理,在识别过程中需要考虑预测标签序列之间的依赖关系[129]。最开始被应用的模型是最大熵模型(Maximum Entropy,ME)[130]。该模型基于最大熵原理,可灵活地设置约束条件,用于表示模型对样本的拟合程度。当训练集的规模增大时,ME需要增加约束条件的数量,使得模型的计算开销增大,限制了该方法在命名实体识别任务中的应用场景。后续Bikel等人[131]设计的Identi Finder系统,用于识别人名、数值、时间和日期,该系统基于隐马尔可夫模型(Hidden Markov Model,HMM),具有训练时间短,识别效率高等优点。2002年McNamee等人[132]使用支持向量机模型(Support Vector Machine,SVM),对4种实体类别的2个标签类型进行分类。SVM的决策函数充分利用少数支持向量,通过剔除冗余样本,既能降低模型的计算复杂度,又能增强模型的鲁棒性。该方法通过求解二次规划得到支持向量,当训练样本规模较大时,对计算设备的内存需求和计算时间开销都将显著增加。2003年McCallum等人[133]将CRF(Conditional Random Field)模型引入到NER(Named Entity Recognition)任务之中,通过文本局部特征的线性加权组合计算联合概率,可显著提高预测精度。该模型的主要缺陷在于过度依赖特征的选择和优化,影响系统输出效果。

(3)基于深度学习的方法

深度学习(Deep Learning,DL)相关技术的不断发展和完善,给命名实体识别任务注入了新的活力,无须特征工程和相关领域经验,有效减小了面向特定领域的NER算法开发难度[134]。借助各种深度神经网络(Deep Neural Network,DNN),在不同隐藏层中选取适宜的激活函数,实现输入输出数据之间的非线性映射,借助非线性映射关系逼近任意函数,有助于学习文本中复杂的语言特征,即可进一步改善命名实体识别模型的性能。根据数据表示方法的不同,可将基于深度学习的NER方法可划分为三类:基于词汇信息的方法(Word-Based Method)、基于字符信息的方法(Character-Based Method)、混合词汇信息与字符信息的方法。中文命名实体识别领域的研究表明,基于词汇信息的方法相较基于字符信息的方法具有更加明显的优势,逐渐成为中文NER的基本方法[135]。基于词汇信息的方法能够较好地处理未登录词(Out-of-Vocabulary,OOV),共享语素级别的规则信息。基于字符信息的方法可充分利用词汇信息和词序信息,有助于改善实体识别效果,其主要缺陷在于分词过程不准确将会引入一定的误差。此外,也可以利用基于词典信息的图神经网络,将NER问题转换为图节点分类问题,通过迭代聚合机制解决中文词语边界模糊问题,有效捕捉全局上下文信息。

尽管现有的深度学习方法已在MSRA、Ontonotes4、Resume、Weibo等公开数据集上取得了较好的效果,但是由于不同领域的文本特征差异较大,对实体识别任务的个性化需求不尽相同。

2.实体关系抽取

在完成命名实体识别之后,需要进行实体关系抽取。作为自然语言处理领域的经典任务,实体关系抽取方法在近20年的时间里不断丰富和发展,模式匹配和词典驱动等方法均被应用其中,取得了丰硕成果。随着深度学习理论的不断发展,各种神经网络结构层出不穷,为实体关系抽取模型的设计提供了更加多元化的选择。根据训练数据的标注状况,可将现有的实体关系抽取方法划分为三类:基于有监督实体学习的抽取方法、基于半监督学习的抽取方法、基于无监督学习的抽取方法。

(1)有监督实体学习的抽取方法

有监督实体关系抽取方法使用已标注的数据训练模型。该方法将关系抽取任务转换为分类任务进行处理,通过学习训练数据中的有效特征,预测实体间的关系。将BiLSTM(Bi-directional Long Short-Term Memory)模块与Attention机制相结合,应用到实体关系抽取任务之中,端到端的模型无须构建特征工程,实现了较高的关系分类精度[136]。除此之外,Bert模型的提出也为实体关系抽取领域的研究带来了新的启示,将Bert应用于关系抽取任务之中,借助Bert的输出部分实现关系分类,在SemEval-2010Task8数据集上取得了较好的效果[137]。为了减小应用有监督方法过程中数据标注工作量较大的问题,远程监督实体关系抽取方法也得到了一定程度的发展,通过将数据与远程知识库对齐,实现数据的自动化标注。

(2)半监督实体关系抽取方法

半监督实体关系抽取方法的提出是为了减少人工标注数据的工作量,使用大量未标注的数据和少量已标注的数据即可训练模型。Brin等人[138]提出Bootstrapping方法,首先为各个类别的关系选定多个种子实例,然后以迭代的方式从数据集中提取该类关系对应的模板和实例,基于未标记的数据提升预测性能。该方法的主要缺陷在于对每种类型的关系均需选取种子实例,且在循环过程中错误的叠加将影响输出精度。

(3)基于无监督的抽取方法

无监督产生的数据集将引入一定的噪声,不适用于对模型精度有较高要求的场景,例如政府机关信息公示平台、管理驾驶舱(Management Cockpit,MC)等关键业务数据指标分析系统。