4.2.2 领域概念获取困难
从领域文本中获取概念词汇是一个困难的问题。汉语的特点包括[8,42,54,55]:第一,汉语在书写形式、虚词、词序、性、数和格变化标志等方面与英语不同。第二,汉语语法与英语语法不同,使用手段不同。汉语属于孤立语,词语缺乏形态变化,通过虚词和语序表达不同含义。英语属于屈折语,具有形态变化和词性变化,词序灵活。第三,汉语中词语、短语和句子构造具有相似性,英语的短语结构和句子结构不同[56]。
领域概念词汇获取的主要困难如下。首先,分词的语言学困难。词语的定义不统一。其次,汉语的分词标准需要结合分词规范、分词词表以及真实语料。然后,未登录词的不断增长也是影响分词性能的重要因素。最后,领域概念词汇识别的困难。如何从词语层面提升到概念层面,即从句法层面提升到语义层面,使得提取的概念词汇能够准确地反映文档的内容,也是一个难点。因此,需要研究新的方法来对专业术语进行切分。