5.4.2 主题描述工具

5.4.2 主题描述工具

1.工具概述

主题描述工具通过一个完整的知识框架对已有的信息资源完成主题描述目录构建的。目前作为构建主题描述工具的数据资源主要涵盖了互联网数据、政府已有的业务资源数据,根据这些数据进行知识分析和数据挖掘来构建主题描述目录树。

2.功能模块

主题描述工具构建主题描述目录树,需要从数据源经过汇总、整理后,进行挖掘分析最终形成主题描述目录树。在形成主题目录树的过程中需要五个功能模块来支撑主题目录树的建设。该模块包括了主题与信息条目相似度研究模块、主题树动态展示模块、信息条目关联主题树模块、信息主题树构建模块、主题树管理模块等构成,主题描述工具功能图如图5-11所示。

(1)主题与条目相似度研究

主题与条目相似度研究主要由相似性查询算法、主题树节点的向量表示等功能组成,该功能是准确描述主题与条目构建是否科学、是否准确合理的重要算法依据。

相似性查询算法:信息时代信息的急速增长使得传统意义上的检索无法满足信息的全面性,这就要求将已有的信息组织起来,通过与用户之间的交互了解用户的信息需求,找出相关的信息。针对相关属性相似性查询算法进行研究,这是实现其查询准确性的一条算法原则也是实现主题与条目智能确立联系的一条参考原则。

主题树节点的向量表示:由专家和技术人员确定主题树节点的向量如何表示以及向量表示的原则。

(2)主题树动态展示

主题描述目录树是行业资源分类与分词有机结合,在主题描述目录树上可以进行目录树全部展开、分类展开、折叠等功能,还可以在某个主题节点下创建子节点、可以挂接主题分词、可以设置主题树节点状态、重命名目录和分词功能。

图5-11 主题描述工具功能图

主题描述目录树展示包括了主题树节点动态调整与维护、信息条目动态关联与展示模块。主题树节点动态调整与维护:实现主题描述目录树目录节点展开子目录和条目、折叠子目录以及折叠分词、支持创建主题目录以及子目录、重新定义目录、移除目录等操作功能。信息条目动态关联与展示:展开目录的同时目录展开目录下条目信息,目录和条目建立挂接关系,实现目录与条目动态关联以及目录与条目挂接关系维护。

主题描述目录树的参考图如图5-12所示。

图5-12 主题描述目录树

由图5-12看出整合后主题描述目录树,主题分类更加的一目了然。该目录树是由各行业领域的资深专家经过对汇总的数据进行知识挖掘和知识分析的基础上建设而成。主题描述目录树所展示的是目录和主题分词的挂接展示,看上去更加客观、更加科学地反映出真实的主题信息,为其他系统应用提供依据和帮助。

建设主题目录树首先从行业开始分类,经过对该行业深度细化,再层层分类划分系类,周而复始分析才使得主题目录更加科学合理。目录树的展示由大到小、由宏观到细微分类逐级展示。主题目录树原则上是无限扩展的,扩展也是需要知识的挖掘和分析。

(3)条目关联主题树

条目关联主题树包括了设置信息条目内容、信息条目的维护、设置信息条目的关键词、设置信息条目优先级等功能。主题树挂接条目的方式分为信息条目自动归类以及人工调整条目信息与主题树关联与挂接。

信息条目自动归类:根据主题目录的分类以及信息条目相关属性信息的设置,实现条目自动归类功能。要实现条目自动归类,需要准确分析条目与目录的相似度及关系。

信息条目分类人工调整:人为地纠正自动归类出现的错误以及归类不准确的条目所做的操作。人为地调整条目所属关系,调整所属目录。

主题树挂接信息条目如图5-13所示。

图5-13 主题树挂接信息条目

由图5-13看出,在主题目录树中某个主题关联右侧的信息条目,同时在主题下一个层次挂接了主题分词条目。

在分词条目信息列表中可以变更挂接信息,也可以进行主题的检索,检索的信息包括了目录信息和该目录下主题分词信息。在该界面还可以创建子目录和创建分词。专家在梳理主题目录或梳理主题分词时,发现目录或分词划分得不合理或不完善的话,可以在该界面选中该目录或该分词进行删除操作。

(4)信息主题树构建

构建信息主题树需要在各行业领域专家对行业的信息进行抽取、研究、分析、挖掘。并在研究分析基础上对主题进行分类管理形成主题目录信息主题树。构建的信息主题目录树也是某行业领域知识分布的指标主体系。具体包括了主题树管理、分类采集、指标采集、主题树构建模块。

主题树管理:行业领域特点,针对这些特点进行细化研究、分类。确定这个行业主题树中行业分类的特点进行管理。

主题分类采集:实现对主题分类的定义、编码、分类权重设置以及分类次序设置功能。

主题指标采集:在主题分类的进一步在该分类上深度研究确定指标信息的采集。实现指标体系构建、指标采集导入、导入后的指标信息进行编辑等功能。

主题树构建:结合主题分类和指标构建主题描述目录树,包括实现主题树的构建以及主题相关信息的编辑与维护以及检索设置等功能。

信息主题树参考界面描述如图5-14所示。

图5-14 信息主题树参考界面

图5-14所示为信息主题树构建参考界面,该界面是完成信息主题树的构建包括知识架构目录的分类以及知识分词分类挂接。由图5-14可以看出该界面分成两大部分左侧是主题描述目录树,右侧是目录下子目录或创建的分词列表。

(5)主题树管理

主题树管理模块包括目录创建、分词创建、信息导入、主题信息描述、主题信息排序、主题目录按树展开、主题归类、主题信息编辑修改、主题信息删除、主题信息的检索、主题目录树无限级扩展等子模块。主要功能在于基于构建好的主题树进行更新及扩展操作,如图5-15所示。

图5-15 主题目录树管理操作界面

图5-15所示为功能区参考图,在功能区实现主题目录的创建、分词创建、批量删除数据、信息导入以及对主题进行检索等操作。而具体目录和分词信息以及主题描述信息的管理如图5-16所示。

图5-16 主题描述信息管理

在图5-16中实现主题信息的维护管理,主要包括主题名称的定义、主题描述以及与主题相关辅助信息的维护管理。

主题目录构建:创建主题描述的目录信息,主要包括目录的创建、编辑、检索、删除等功能。

分词构造:在主题目录挂接分词设置,包括了分词信息创建、编辑与维护、检索以及删除等功能。

主题描述:准确科学地描述主题信息,对主题信息进行编辑、维护、检索与删除等操作功能。

信息采集与维护:信息采集采用人工导入、人工编辑的方式实现信息的采集与维护。