4.2.1 领域概念词汇获取准则
判断一个字符串是否为领域概念词汇(Domain-Specific Concept Word)的基本准则是:
(1)领域概念词汇是词或词组。
分词规范规定了对现代汉语真实文本进行分词的原则及规则[53]。对于领域概念词汇获取中的分词,本节也遵循这些规则。
(2)领域概念词汇是一个实体概念词汇(Entity Concepts)。
领域实体概念词汇是反映领域各种具体事物或实体的概念词汇。例如,深度神经网络、仰韶文化、秦汉长城遗址。它们的内涵反映具体事物或实体的质的规定性。其语词表达形式通常是名词或代词。
(3)领域概念词汇是一个性质概念词汇(Qualitative Concepts)。
领域性质概念词汇是反映领域具体事物或实体的各种性质或属性的概念词汇。例如,精准、精致、粗糙。它们的内涵反映具体事物或实体的性质的规定性。其语词表达形式是形容词、不及物动词、数词等。例如,对句子“无监督方法的移植性比较强”,“比较强”是性质概念词汇。
(4)领域概念词汇是一个关系概念词汇(Relational Concepts)。
领域关系概念词汇是反映领域具体事物或实体之间的各种关系的概念词汇。例如,集成、发现、探讨、早于。它们的内涵反映具体事物或实体之间所具有关系的质的规定性。另外,关系不同于性质。性质可以为一个或一类事物或实体所具有,而关系至少存在于两个或两类事物之间。关系概念的语词表达形式是及物动词、表达关系概念的各种词组等等。例如,句子“机器学习方法包括监督学习、半监督学习以及无监督学习”中,“包括”是关系概念词汇。
例如,对于下面一个考古领域的句子:
“该遗址的人类化石包括两颗牙齿和一段股骨,其中出自第5层的犬齿大部分已残破,齿冠磨耗很重,代表一老年个体(出自《庙后山遗址》)。”
根据领域概念判别准则,本节的目标是从该句子中提取出如下考古领域概念词汇:
实体概念:该遗址、人类化石、该遗址的人类化石、牙齿、股骨、犬齿、第5层、齿冠、老年个体;
性质概念:两颗牙齿、一段股骨、残破、磨耗、很重、一老年个体;
关系概念:包括、出自、代表。