4.1.1 汉语分词研究现状
汉语隶属于世界语系中的汉藏语系,英语隶属于日耳曼语族。英语等西方语言词语之间具有显式的分隔符,而汉语和日语等东方语言中词语之间不存在明确的分隔标记[40]。汉语是一种词根语,具有如下特点:
第一,词序严格,词序不同,意义也随之不同。例如,“计算”和“算计”意义截然不同。
第二,汉语缺乏形态变化,没有性别、数量、格的变化标志,词语本身不能显示与其他词语的语法关系,其形式也不受其他词的约束。
第三,虚词是主要的语法手段。例如,“蟹六跪而二螯”中的“而”表示并列关系,“青,取之于蓝,而青于蓝”中的“而”表示转折关系。
第四,汉语书写系统采用词标的形式,词与词之间没有明显的形态界限。因此,汉语的这些特征决定了针对英语等其他语言处理的方法并不能完全适用于汉语信息处理。
汉语自动分词是中文自然语言处理和理解的关键技术之一。其任务是指将汉语自然语言文本中的句子切分成词语序列。汉语信息处理又称中文信息处理(Chinese Information Processing),是指“用计算机对汉语的音、形、义等信息进行处理,包括对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工”[41]。汉语自动分词已成为许多中文信息处理应用任务的一项基础研究课题,例如,问答系统、机器翻译、信息检索、信息提取、文本分类、自动文摘、语音识别、文本语音转换等[42,43,44]。自动分词性能将直接影响这些应用任务的性能。
汉语自动分词是制约汉语信息处理发展的一个重要因素。它主要存在语言学和计算机科学技术两方面的困难。语言学方面的困难有:其一,词语的定义不统一,导致句子的分词结果不统一。其二,同一句子由不同的分词工具获得不同的分词结果,同一文本可能被不同工具划分为若干种不同的分词结果,这是人机共同面临的困难[41,42,43,45,46]。在计算语言学上,中文分词的主要困难包含:其一,难以给出一个通用的合理的自然语言形式模型;其二,如何有效地利用和表示分词所需的语法知识、语义知识或语料。
根据是否利用机器可读词典和统计信息,可将汉语自动分词方法分为三大类:基于词典的方法、基于统计的方法,以及基于词典和统计的混合方法。
基于词典的分词方法的基本思想是将词典中的词语与自然语言文本中的句子字符串进行匹配。基于词典的分词方法的三个要素包括分词词典、文本扫描顺序和匹配原则。基于词典的分词方法的性能依赖于词典、匹配准则等。该方法的挑战在于存在未登录词和切分歧义的问题。匹配原则主要包括最大匹配、最小匹配、逐词匹配和最佳匹配。基于词典的分词方法的优点是易于实现[45,46]。其缺点是:其一,匹配速度慢,受到词典规模的制约;其二,存在交集型和组合型歧义切分问题。
对于基于词典的分词方法,影响分词精度的因素包括[47]:其一,机器词典中词目的选择和词条的数量;其二,机器可读词典与待切分文本中词汇的匹配关系;其三,切分歧义;其四,未登录词。随着科学技术的迅猛发展,专业领域术语呈现不断增长趋势,专业领域术语未登录词识别是影响分词精度的重要因素。
基于统计的分词方法所应用的主要统计量或统计模型包括:互信息、ngram模型、神经网络模型、隐马尔可夫模型、最大熵模型以及条件随机场等。这些统计模型主要是利用词语与词语的联合出现概率作为分词的依据。基于统计的分词方法的基本思想是,利用概率统计特征或概率统计模型进行词语切分。基于统计的分词方法的优点是:其一,不受待处理文本的领域限制,不受领域词典的限制;其二,不需要一个机器可读词典。缺点是:其一,需要大量的训练文本,用以建立模型的参数;其二,计算量大,训练耗时;其三,分词精度与训练文本的选择和标注精度有关。
近年来,深度神经网络也应用于分词。例如,任智慧等[48]设计了基于长短期记忆网络的分词方法,使用了预训练的字嵌入向量。又如,张忠林[49]设计注意力卷积神经网络条件随机场模型进行中文分词。涂文博[50]设计一种基于卷积神经网络的分词方法,引入字向量和上下文字向量。
基于神经网络方法的优点是:第一,人工神经网络采用数据驱动的学习策略,可实现高度非线性的端到端分词,具备知识表达简洁、学习功能强、开放性好、知识库易于维护和更新的优势;第二,在分词模型得到充分训练后,分词速度相对较快;第三,分词精确度相对较高。基于神经网络模型的分词方法需要进一步研究的问题包含:第一,需要标注语料,因此需要研究基于无标注语料的无监督或自学习的分词方法;第二,数据驱动的方式难以融合专家知识或领域知识,因此如何构建知识嵌入的分词模型是需要进一步研究的问题。