5.4.4 知识管理工具
1.工具概述
知识管理工具主要通过结合专家及专题知识对政府数据资源的有效整合与动态关联,并充分挖掘和利用资源之间的语义关系,最大限度优化资源搜索粒度和深度,在支持原数据的存储、访问、搜索等功能的基础上,能够实现关联知识的自动推荐、延伸阅读与动态展示等强化功能。同时知识管理工具的标准化服务接口,为资源整合、综合管理及智能搜索提供技术支撑。
2.功能模块
知识管理组件主要包括:主题提取、信息自动分类、知识关联展示、数据资源管理等四大功能模块组成。主题提取又可以细分为:专题主题关键词库构建、主题关键词提取、主题词的反馈与学习、近期热点词提取;信息自动分类则可细分为:知识谱系构建、文档自动归类、分类结果的自学习;知识关联展示可细分为:知识地图展示、智能推荐、检索结果分类显示;数据资源管理可细分为:专题主题关键词词库管理、热点词词典管理、知识谱系管理。
知识管理工具功能图如图5-18所示。
图5-18 知识管理工具功能图
(1)主题提取模块
主题提取模块为数据整合工具、全文检索工具提供相应的主题知识支持。主题提取模块主要包括:专题主题关键词库的构建、主题关键词的提取、主题词的反馈与学习、热点词的提取等功能模块。主题提取模块集示意图如图5-19所示。
图5-19 主题提取模块集示意图
①专题主题关键词库构建:根据不同专题的主题、内容及指标等特征属性,通过各个领域专家或互联网搜索关键字的排序等方法,针对常用的主题信息内容,搜集和整理主题相关的关键词汇,构建各个专题主题的关键词库,如空间信息专题关键词库、经济信息专题关键词库等。
②主题关键词提取:基于中文处理技术、词频词汇提取技术、关键词提取技术等关键技术,研究文本信息的关键字提取算法,充分利用文本分析、语义相似度计算等方法,实现对各专题文本进行摘要及关键字提取,同时将该文档归类到相应的主题类别下,并结合主题关键词库中主题关键词的特征,过滤和提炼该主题相关的重要关键词。
③主题词的反馈和学习:根据主题关键词提取模块的结果,并针对用户对结果的满意程度及充分利用用户自身检索的主题关键词,自动形成主题词的样本示例库,通过主题关键词样本库的测试,设计相应的主题词库更新算法,对主题词库中各主题词条目进行重新增加或修改,从而实现及时修正和补充各专题主题的特征关键词,完善专题主题的关键词库,提高主题关键词提取的准确率。
④近期热点词提取:通过记录登录用户的搜索痕迹,阶段性地统计近期发布的新闻、报道等热点事件及用户检索的热点词汇与资料等信息,返回某段时间内系统的热点词汇,形成该时间段内的系统热点词汇集合,构建相应的热点词汇库。
(2)自动分类模块
自动分类模块为数据整合工具、全文检索工具提供相应的文档归类与聚类等功能支持。自动分类模块主要包括:知识分类体系构建、文档自动归类、分类结果的自学习等功能模块。
①知识分类体系构建:根据整合与梳理的现有各个系统的栏目、目录等信息,利用目录组件中构建的各类型的指标因子,设计知识分类体系构建模块,实现各栏目类型之间的语义关联及每个分类类别与其设计的语义因子的动态关联,完成整合工具后的平台统一的知识分类体系的构建。
②文档自动分类:自动提取文档信息中主题类型、内容特征、主体/客体对象等关键属性信息,设计综合的文本语义相似度计算方法,实现基于各部分不同权重动态设计的文档自定分类,使得文档能够自动归类到按照事先划分好的知识分类体系中的各个分类节点/栏目中,而针对无法归类的文档,则根据文本聚类方法,对这些文档集进行自动聚类,从而实现多源、多维文档知识的归类整理。
③分类结果的学习:根据自动分类结果,用户可以修改分类或者是对分类结果进行评价,使得能够通过人工对自动分类结果进行修改和校正,自动形成各类别的文档分类样本库,然后利用已有分类样本集合,对文档归类算法进行自我学习和阈值调整,提高文档归类的正确率。
(3)知识关联模块
知识关联模块作为全文检索工具的检索结果显示和知识地图展示提供相应的知识关联与分类关联等功能支持。知识关联模块主要包括:知识地图的展示、相关主题的自动推荐、检索结果的分类显示等功能模块。
①知识地图展示:根据知识库中各类别知识的相互关联和文档实例归类集合,利用图形化界面表达方式,针对知识分类/栏目之间的包含、相关等关联关系以树状/图状的图形化方式进行友好展示,使得用户能够根据自己的需要,查看相关文档所属的类别及与此类别相关的其他相关知识,为用户对知识库的关联提供图形化学习方法。
②智能推荐:根据用户日常查询和关注信息类型及某段时间内搜索的相关文档,利用知识库中不同知识类别之间的关联关系,对用户可能感兴趣的其他相关分类进行智能推荐,使得用户能够在查询某类信息的同时,方便随时查看其相关的信息内容,实现面向用户的知识智能化的有效应用。
③检索结果分类:利用知识库中知识分类体系的关联关系,根据系统默认/用户自身设定显示模式和排序方式,针对用户搜索的结果,按照用户感兴趣的知识分类/栏目的程度,进行有序的排列和显示,实现信息结果的分类、模块等方式的友好显示。
(4)知识资源管理
知识资源管理模块用于对知识管理工具中各种数据资源进行管理、更新与维护,主要包括:专题主题关键词词库管理、热点词词典管理、知识谱系管理等子模块。数据资源管理层次图如图5-20所示。
图5-20 数据资源管理层次图
①专题主题关键词词库管理:通过系统运行及专题主题关键词的自我学习,管理人员需要根据应用要求,增加或更改不同的主题类别及主题关键词的词汇,因此针对专题主题关键词的词库,需要实现对词库条目的增加、删除、更新等管理维护的操作模块。
②热点词词典管理:针对近期热点词汇形成的热点词汇词典,管理人员能够根据互联网上最近关注的热点事件,对词典中热点词汇条目进行增加、删除、更新等管理维护操作,实现对热点词汇的统一管理和持续更新功能。
③知识谱系管理:针对知识谱系的知识分类中各分类节点信息的管理,构建知识谱系界面管理工具,使得管理员根据不同专家、用户的反馈意见,通过知识谱系管理工具,实现对知识谱系中各个知识类别进行增加、删除、更新等管理维护操作。