4.2 领域概念获取

4.2 领域概念获取

目前,在众多自然语言处理任务中,比如问答系统、意见挖掘或情感分析、信息检索、文本分类、主题识别、主题跟踪和探测任务中,通常以“词语”作为特征项。然而“词语”并不一定能准确忠实地表达文本的内容、类别、主题以及情感倾向性。这一问题在处理领域文本时显得尤为突出。例如,对于用户提交的检索需求,当前的搜索引擎主要采用关键词匹配的方式来检索用户所需要的信息。这种机械式处理方式主要存在三个问题:第一,多数情况下,从文本中提取的词语很难准确忠实地表达网页的内容。但是,用户通常很难简单地使用关键词或关键词串来表达用户所需要检索的内容。表达困难导致检索困难。第二,词语或语句表达差异导致精度下降。自然语言随着时间、地域或领域的改变,同一概念可以用不同的语言表现形式来表达。第三,返回网页太多,用户需要从大量的检索结果中查找真正需要的信息。因此,对同一概念的检索,不同的用户可能使用不同的关键词来查询。例如:“计算机”和“电脑”,“航天飞机”与“太空梭”,“知识补全技术”与“知识推理技术”。事实上,目前的搜索引擎缺乏知识处理能力和语义理解能力。将信息检索从基于关键词层面提高到基于概念或知识层面,才是解决问题的根本和关键。基于概念的检索,具有如下特性:第一,在概念层面或本体论层面,能够理解不同语词之间、概念之间、语词和概念之间复杂的语义关系,捕获用户的查询意图;第二,在自然语言层面,能够理解语言表面现象的知识,如一个词语的多语种形式和词语的层次关系或继承关系等;第三,在常识层面,能够处理主题或内涵相互关联的知识。

本节的研究对象是领域概念词汇获取方法及其在考古领域文本中的应用[8,52]。领域概念词汇识别和命名实体识别既有区别又有联系。现有研究工作中,命名实体识别(Named Entity Recognition)主要识别的实体类型为:人名、组织名和地名。在领域概念词汇获取或领域术语识别中,需要识别三类概念词汇:领域实体概念词汇(Domain Entity Concept Word)、领域关系概念词汇(Domain Relation Word)和领域性质概念词汇(Domain Property Word)。领域实体概念词汇包括面向领域的人名、地名和组织名。