1.2 知识工程挑战

1.2 知识工程挑战

第三代人工智能通过“知识、数据、算法和算力”四要素,实现能够模拟人类认知、思维和决策等的人工智能技术和应用[6]。知识工程的研究内容主要包含知识处理的理论、方法,以及技术和应用。知识工程涉及自然语言处理、人工智能、机器学习、大数据分析和数据挖掘等技术[7]

知识工程技术面临的主要挑战包括:

(1)海量知识的多源异构性。

在知识工程中,知识来源呈现多样性和分散性特点。知识来源包括书籍、领域专家和互联网等。互联网主要包含新闻网站、百科网站、社交平台等。从数据类型看,主要包括文本、图片、音频和视频等非结构化数据。文本语言进一步包括书面语、口头语和网络用语等。文本包括短文本和长文本。从知识来源的模态看,知识来源包括单种模态数据(如文本或图像)和多种模态数据(如文本-图像对)。总之,知识工程所处理的数据多源异构,具有不同的模态特性、不同的模态规模、不同的时空粒度、不同的表征结构、不同的语义信息、不同的度量特性。如何实现高效的知识表示、知识获取,突破模态平衡的陷阱和粒度鸿沟,是其中的一个挑战性问题。

(2)知识的动态更新性。

近年来,社交平台和社交软件呈持续增长的态势,知识来源的种类不断增加,数据获取的渠道不断丰富。同时,各领域知识处于不断发展和更新之中。结构化数据、半结构化数据和非结构化数据呈现几何级增长态势。总之,不同软件系统或知识库中的知识表示不断更新,需要构建可自适应转换不同表示语言的知识表示方法,不断动态更新知识库,为知识融合、语义互操作、知识共享和重用开辟新的技术途径,是一个持续面临的技术挑战问题。

(3)多粒度知识融合。

知识工程涉及文本、图片、视频和音频等多种模态数据。在知识融合的内容方面,需要融合同一实体的相关知识、同一概念的相关知识、具有相同属性或相同关系的知识、隶属于相同类别的实体知识等。在知识融合过程中,还需要充分考虑不同类型的知识载体,包含来自不同专家的知识和来自不同软件系统的知识。因此,如何高效融合具有不同知识来源、不同模态特征、不同表示语言、不同自然语言形态、不同表示粒度的知识,是需要解决的技术问题。

(4)多类型知识验证。

在知识工程中,“知识”往往呈现出不同的性质。在知识内容方面,需要验证概念层面的知识、实体层面的知识。概念层面的知识包括概念的含义、概念之间的语义关系、概念分类层次知识等。实体层面的知识即知识图谱,包括实体之间的语义关系、实体的属性知识、实体与概念的隶属关系等。在知识验证的时间维度方面,需要验证不同时间的知识正确性和一致性。在知识验证的知识粒度方面,需要验证不同粒度的知识,包括同一概念同一属性的不同粒度的相关知识、同一实体和同一属性的不同粒度的相关知识。因此,知识验证需要充分解决多类型知识中可能存在的语义歧义、矛盾以及异构性,确保知识的一致性、正确性和完全性。