基于自然语言处理的研究

一、基于自然语言处理的研究

(一)语言数据

关于数据的重要性问题,可从两个层面来认识:第一个层面,数据正在推进科学技术的发展;第二个层面,数据正在推进经济社会的发展。现在,世界上很多国家、地区和国际组织都在积极采取与数据相关的战略布局,具体如表10-1所示。

表10-1 世界部分国家、地区和国际组织的数据战略规划

续 表

从表10-1中的内容可以看出,世界上许多国家、地区和国际组织正在改进科技政策,加大科技投入,积极采取“数据行动”,特别是加强有关经济发展与社会经济分配的政策调整。但就当前实际来看,上述策略尚停留在数据重要性认识的第一层面,虽然也开始触及推进经济社会发展的第二层面,但尚未明确数据的生产要素本质(李宇明,2020)。从这个意义上来说,我国对数据重要性的认识已走在了世界前列。2019年10月,党的十九届四中全会将数据与劳动、资本、土地、知识、技术、管理并列为七大生产要素。这是极为重要的理论创新,体现了我国对信息化社会的本质认识,也是中国进入“数据时代”的标志(李宇明,2020)。2019年12月,中央经济工作会议把“5G”“人工智能”“工业互联网”“物联网”定位为“新型基础设施建设”(简称“新基建”)。2020年3月,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,在第六款第二十条至第二十二条中,明确提出了“加快培育数据要素市场”的三点具体要求,包括“推进政府数据开放共享”“提升社会数据资源价值,培育数字经济新产业、新业态和新模式”“加强数据资源整合和安全保护,探索建立统一规范的数据管理制度”。2020年10月,党的十九届五中全会更是将“坚定不移建设制造强国、质量强国、网络强国和数字中国”作为推进我国经济社会发展的着力点。从当前实际来看,可供计算机处理的数据中,80%是语言数据,包括:自然语言数据的语言符号系统和语言附载信息;语言延伸的符号与代码(比如“盲文”“手语”“旗语”);生活艺术与科学技术符号(比如“身份证编码”“乐谱”“计算机编程语言”)。语言数据因此同步成了信息时代的重要生产要素(李宇明,2020)。

作为计算机科学技术与人工智能领域语言数据处理的重要方向,“自然语言处理”(natural language processing,简称“NLP”)主要是为了实现人与计算机之间的语言理解与语言生成。实际上,早在20世纪40年代末,英国数学家图灵(A.M.Turing,1912—1954)就预见到了未来计算机与自然语言处理的必然联系。他在1950年的《机器能思维吗?》(Can Machines Think?)一文中指出:最好的出发点是制造出一种智能的、可用钱买到的机器。然后,教会这种机器理解英语并会说英语,这个过程可以效仿小孩子学习说话的方法来进行。至20世纪90年代,自然语言处理凸显了两个明显趋势:一是在系统输入方面,为追求实用价值,不再满足和局限于有限词条和典型句子,而是强调能够处理“大规模的真实文本”;二是在系统输出方面,以抽取有用信息为目标,要求能够对自然语言文本进行索引词及重要信息的自动提取、过滤、检索、摘要等。鉴于上述两个趋势,自然语言的处理开始重视“大规模真实语料库”的研究工作和“大规模、含有丰富信息词典”的编制工作。在前期研究成果的基础上,美国计算机科学家比尔·马纳利斯(Bill Manaris)在1999年的《计算机发展》(Advancesin Computers)第47卷“从人—机交互的角度看自然语言处理”一文中,对“自然语言处理”进行了定义:

NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication,develops models of linguistic competence and performance,employs computational frameworks to implement process incorporating such models,identifies methodologies for iterative refinement of such processes/models,and investigates techniques for evaluating the result systems.

自然语言处理可以定义为,是研究人与人交互、人与计算机交互中的关于语言问题的一门学科。自然语言处理建构表示语言能力和语言应用的模型,并通过建立计算框架来实现这样的模型,提出要不断地完善这样的模型。根据语言模型设计各种实用系统,开发系统评测技术。(冯志伟,2017:2-11)

然而,时至今日,人们显然低估了自然语言与语言数据处理领域的技术复杂性,主要凸显了两个方面的问题:第一,迄今为止,语言形式化尚局限于相对孤立句子的分析,缺乏对语境和语言互动约束及影响的系统性研究,特别是关于分析歧义、词语省略、代词所指、同一句话在不同场合或由不同人说出来的含义不同等问题,尚无明确规律可循;第二,人对某个句子的理解并不单凭语法,而要依托大量的知识储备,包括生活知识和专门知识,但这些因人而异的知识是无法全部贮存在计算机里的,导致某个特定处理系统只能建立在有限词汇、句型和特定的主题范围内。要解决以上两个问题,除了在科技方面需要进一步提高计算机的贮存量和运转速度,及时将语言学研究的最新成果应用于自然语言处理,无疑同样是十分必要的。

(二)何为自然语言处理

自然语言处理具有多学科交叉的特性。冯志伟(2017:1-6)认为,可以将自然语言处理抽象为一个“问题”(problem),再将其分为四个处理过程,本书称为“新四化”:第一,把需要研究的语言问题在语言学上加以“形式化”(formal),使之能够以一定的数学形式严密而规整地表现出来;第二,把这种严密而规整的数学形式“算法化”(algorithm),建立语言的“形式模型”(formal model);第三,根据算法编写计算机程序的“程序化”,建立各种实用的“计算模型”(computational model);第四,对所建立的自然语言系统进行评测,改进其质量和性能,以满足用户需求的“实用化”(practical)。对标以上“四化”,自然语言处理至少应该涉及八个领域的专门知识:一是语言学,提供形式化的语言学知识;二是数学,提供形式化的数学模型和方法;三是计算机科学,提供模型表示、算法设计和计算机实现的技术;四是心理学,提供人类言语行为的心理模型和理论;五是哲学,提供关于人类思维和语言的更深层次理论;六是统计学,提供基于样本数据预测统计事件的技术;七是电子工程,提供信息论理论基础和语言信号处理技术;八是生物学,提供人类大脑中语言行为机制的理论。

具体到语言学研究角度,又可将上述知识从下到上划分为九个层级:一是声学和韵律学知识,描述语言的节奏、语调和声调规律,说明语音是如何形成音位的;二是音位学知识,描述音位的结合规律,说明音位是如何形成语素的;三是形态学知识,描述语素的结合规律,说明语素是如何形成单词的;四是词汇学的知识,描述词汇系统的规律,说明单词本身固有的语义和语法特性;五是句法学的知识,描述单词或词组之间的结构规则,说明单词或词组是如何形成句子的;六是语义学的知识,描述句子中各个成分之间的语义关系,这样的语义关系是与情境无关的,说明如何从构成句子的各个成分中推导得出句子的整合语义;七是话语分析的知识,描述句子与句子之间的结构规律,说明是如何由句子形成话语或对话的;八是语用学的知识,描述与情境有关的情境语义,说明如何推导得出句子具有的与周围话语相关的各种含义;九是外部世界的常识性知识,描述关于语言使用者和语言使用环境的一般性原则,比如语言使用者的信念和目的,说明如何推导得出信念和目的的内在结构。

以上是从“纵”的角度(自然语言处理的过程)对自然语言处理进行的学科定位,以及所需专门知识的梳理。再从“横”的角度(自然语言处理的范围)来看,此类研究涉及“语音自动识别与合成”“机器翻译”“自然语言理解”“人机对话”“信息检索”“文本分类”“自动文摘”等众多领域,可概括为四个主要研究方向:一是语言学方向,把自然语言处理作为语言学的分支来进行研究,主要涉及语法形式化理论和自然语言处理数学理论的结合方法与路径;二是数据处理方向,主要是语言研究相关程序开发与语言数据处理,早期涉及述语数据库和机器可读的电子词典,近年来已转向大规模数据库建设;三是人工智能和认知科学方向,目的是探索自然语言理解的智能机制和认知机制;四是语言工程方向,主要面向实践化、工程化的语言软件开发,此类研究一般称为“人类语言技术”(Human Language Technique,简称“HLT”)或“语言工程”(language engineering)(冯志伟,2017:6-7)。本书的后续研究将以第一类研究为主要方向,即在构式语法理论框架内,从“三个面向”的理据性承继描写探究自然语言处理的方法与路径。在此基础上,探索在某个特定生活领域内、某个特定主题范围内的汉语构式数据库建设。本书希冀通过自然语言处理的具体应用,反过来推动和促进构式语法理论的发展。