流体构式语法的基本理念与应用

二、流体构式语法的基本理念与应用

(一)流体构式语法的理论基础

随着认知语言学量化和社会化转向趋势的日渐深入,将构式语法应用于自然语言处理逐渐成为计算机语言形式化领域的一大热点。匈牙利语言学家斯蒂尔斯(Luc Steels)等在中心语驱动短语结构语法(Pollard& Sag,1994)、论元结构构式语法(Goldberg,1995)、激进构式语法(Croft,2001)和体验构式语法(Bergen&Chang,2003)等的基础上,吸收引进了分子生物学和进化动力学的研究框架与路径,创设了“流体构式语法”(Fluid Construction Grammar,简称“FCG”),目的是建构基于人工神经网络的复杂语言的计算机处理模型。正是出于这样的学术渊源与研究动因,流体构式语法类比认知心理学的“流体智力”(Fluid Intelligence)概念来命名,希冀通过“全开放植入式对话”(open-ended grounded dialogue),在最大程度上实现计算机自主语言习得并形成知识本体。为反映构式语法在自然语言处理领域的应用态势,斯蒂尔斯等自21世纪初以来陆续发表了论文《流体构式语法简介》[“A(Very)Brief Introduction to Fluid Construction Grammar”]、《类比生物系统的流体构式语法》(“Fluid Construction Grammar as a Biological System”)和《语言进化动力学》(“The Evolutionary Dynamics of Language”),就相关理论与实践的研究成果进行了梳理与总结。从以上三篇论文的主要内容来看,流体构式语法的理论框架源于构式语法,其重大创新在于将分子生物学的相关概念与机制“类比映射”(analogy mapping)至语言处理,应用于计算机自组织性语言系统的建构。

流体构式语法继承了构式语法理论的四个主要特点:一是秉持“基于使用”(usage-based)的原则,特别关注语言的创造性本质,强调对语言新现象的观察与提取,包括新概念及其概念化、新词汇、新句法与语义范畴、新构式、新的语言互动类型;二是秉持构式和构件(组构语块)之间部整关系的非分解主义,强调在“句法—语义”接口形式与意义的映射关系,主张句法特征和语义特征具有很强的一对一匹配性;三是秉持以论元结构联系句法范畴和语义范畴的设计思路,以此定位组构语块的线性排序,包括表层形式上的韵律和重音;四是秉持构式的层级性承继特征,强调“句法子类”(syn-subunits)和“语义子类”(sem-subunits)的代码设计,主张每个代码都包含一组结构特征,由此摒弃了传统的嵌套性承继模型。

除此之外,流体构式语法延续了学界早期运用生物学研究方法来进行语言处理的思路。比如,“语言进化论”的奠基人、德国语言学家施莱谢尔(August Schleicher)根据植物分类法开发了语言的谱系分类;法国语言学家特思尼耶尔(Lucicen Tesniere)于20世纪中叶首次把化学“配价”(valence)引入语法研究,创建了“依存语法”(Dependency Grammar);丹麦免疫学家(Niels Jerne)将单克隆抗体应用于生成语法研究。于是,通过类比生物体的“代谢过程”(metabolic pathway),流体构式语法在以下四个方面创新了语言构式的处理应用。

第一,将生物体代谢过程类比人类语言处理。生物体的每一个代谢反应都涉及作为产出物的“基元”(Substrate)。比如,果蝇的眼色素代谢是由若干个化学反应形成的代谢链。“色氨酸”(Tryptophane)作为基元,经过代谢反应产出“N-甲酰犬尿氨酸”(N-formlkynurenine),N-甲酰犬尿氨酸又作为基元进入了下一个反应(如图10-1所示)。这些基元就像话语输出过程中承载某个节点信息的“临时结构”(transient structure)。一方面,类比色氨酸最终转化为“眼色素”(Ommochrome Pigment),言者通过对初始化意义的限制,连续添加结构信息,语言的临时结构最终会呈现为声音信号;另一方面,类比从眼色素产出的代谢过程,听者通过截获声音信号,分解临时结构的字串、组合顺序、语调模式等结构特征,诠释基于使用语境的话语意义。从这个意义上来说,人类话语的组织与输出、分解与诠释过程中的基元就是各种各样的语言临时结构。

图10-1 果蝇的眼色素代谢路径(Steels&Szathmáry,2016:112)

第二,将触发生物体代谢反应的“酶”(Enzyme)类比语言临时结构的“构式框架”(construction schema)。在生物体的代谢过程中,类似蔗糖水解为葡萄糖和果糖这样的“自发反应”(spontaneous reactions)比较少见,且速度很慢,绝大多数的代谢反应需要酶的催化。如图10-1所示,在催化和加快“色氨酸→N-甲酰犬尿氨酸转化→犬尿氨酸→3-羟基丙酸→苯恶嗪酮”的代谢过程中,色氨酸吡咯等各种酶在各自对应的转换过程中起到了重要作用。以此关照构式框架,虽然人类的语言处理也有可能是基于语义或语用推理的自发反应,但更具概括性的构式框架有助于形成从抽象到具体的连续统,供给更为开放的语义槽,从而避免“组合爆炸”(combinatorially explosive)。比较“airplane computer control system interface device”(飞机计算机控制系统接口设备)与“a device for interfacing with the computer-based control system of an airplane”(为飞机控制系统提供接口的设备),前句通过词与词组合的语义关系推导得出“设备”种类,虽然这种自发反应对于语言的早期学习者来说必不可少,但这样的处理往往需要更为庞大的知识库,且不具有稳定性。从这个意义上来说,后句通过语法限制的做法可有效减少歧义风险和语言使用者的认知努力。当然,构式框架所包含的内容相当丰富,除了语音、词法、句法和语法特征外,还有语义、语用和功能等信息。

第三,将酶的催化机制类比构式框架的“锁定”(lock)与“解锁”(key)机制。在生物代谢过程中,一种酶一次至少锁定两个基元,并触发它们合成新物质。酶的催化机制可分为三个阶段,包括基元锁定、基元合成与基元产出。这种现象在生物学中被称为“诱导契合”(induced fit)。酶触发的基元产出反过来也会刺激酶的活性。以此类推构式框架的“锁定”和“解锁”机制,流体构式语法假设每个构式都存在表征结构系列特征的“锁码”,用以对临时结构发挥类似于酶的合成催化作用。构式框架(类比酶)通过匹配锁定语言的临时结构(类比基元),经过合成处理,解锁产出新的临时结构(扩展结构)。构式框架则可重复用于锁定和解锁。

第四,将“基因组”(Genome)类比“构式清单”(Constructme)。分子生物学中,一个基因代表了一种酶的“模板”(Template),基因组因此代表了生物体所有遗传物质的总和,比如人类遗传所必需的23对染色体(基因载体)。构式清单囊括了特定语言使用者承载构式框架信息的所有构式,可视为特定语言使用者的构式清单。由于不同学习者在学习经历和创造力方面存在差异,因此即便是在同一个语言社群中,也没有一个构式清单是完全相同的。这就意味着只有当言者和听者的构式组具有重叠性时,二者的互动交际才有可能成功。

总的来说,通过类比生物代谢从大单位(基因组)到小单位(基元)的层级映射,流体构式语法逐渐明晰了构式变异与新构式产出的承继性研究思路,并认为这样的变异和产出是可以被限制和引导的,且能够寻得双向线性的序列规律(如图10-2所示)。

图10-2 基于构式清单重叠互动的构式双向线性变异(Steels&Szathmáry,2016:114)

如图10-2所示,上面一行代表了交际一方i的构式清单Ci,下面一行代表了交际另一方j的构式清单Cj,“Ci,t!”与“Ci,t+1!”显示在不同时间节点t上的构式组的线性变异(类比生物体遗传变化)。而导致这种变异的,恰恰是交际双方语言互动中(用上下箭头连线标示)构式组的相互限制与引导。比如,“My friend Whats Apped me this morning.”其中的“Whats App”就像社交媒体应用程序“微信”,原本是一个名词,在句中却用作动词,相当于“我朋友微信了我”。这是典型的因语言经济性原则而引发的错误表达规约化。具体来说,言者调取了其构式清单中的动词过去式和及物句构式,在“NP+VPed”框架中匹配“Whats App”的词汇特征,整合后输出扩展结构。听者在截获“Whats App”做动词的临时结构后,在其构式组中分解调取相应构式模板,通过诠释和扩展“Whats App”的词汇特征,将其添加至“NP+VPed”的构式清单。一旦交际有效,此类表达会在语言社群中快速传播。

(二)流体构式语法的语言处理应用

流体构式语法坚持动力进化的计算机自然语言处理方法,主要涉及计算机对语言构式的复制、变异、选用等的习得与建模。为此,该流派设立了计算机的“多智能体仿真系统”(multi-agent simulations):一是设置“感知装置”(sensory-motor apparatus),使得计算机能够捕获客观世界的具体事物或事件,从而达到“有话可说”;二是设置“联合注意力框架”(a joint attentional frame),模拟言者和听者的语言与行为互动,从而达到“交际而习”;三是沿袭“过程语义学”(procedural semantics)在“句法—语义”接口的处理方法,将话语视作计算机的程序单元,将概念化和意义诠释视作计算机的准备和执行任务,通过附加限制与约束的“渐进式语言增量”(incremental recruitment language,简称“IRL”),引导智能系统不断扩充自己的知识本体,具体从以下四个方面予以说明。

第一,构式模板的“双向性”(bi-directional)。为更好地检验类比生物进化的理论创新,流体构式语法流派开发了两个智能系统(索尼AIBOs机器狗)之间的情境化语言游戏。在一个包含定位与轨迹的“模拟世界”(analog world)中,两个机器狗被随机区分为言者与听者,通过涉及情境感知、关注和反馈等的语言与行为互动,完成在场景中寻找球和箱子的任务,从而实现计算机的“体验式”(embodiment)话语植入。实验过程中,言者构式清单中的若干个构式框架被预编程,言者利用现有词汇知识库组织临时结构,将其投射至元规则层面,继而形成多次扩展与同步输出,以检测可能存在的理解错位。听者在接收到临时结构后,即会对其进行分解与释义,并在场景中以动态行为进行实时反馈;若实际行为出现偏差,听者就会对其库存知识进行修复,包括扩展本体、引入新概念、储存新词项、拓展新构式等。一旦某个临时结构能够致使成功交际,言者与听者就会同步增加与之相应构式的分值。

为构式设置分值的目的在于决定哪些构式框架可优先获得计算资源。需要指出的是,分值是建立在计算机“横向抑制”(lateral inhibition)学习基础上的自动生成值。也就是说,若一个构式的处理是成功的,那么其分值就会增加,反之就会减少;与之竞争的构式虽然在同等情况也有可能被触发,但因为它们在后期进入了“死胡同”或是造成了理解错位,因此分值就会减少,直至低于某个阈值而被舍弃。

第二,构式数量的调控性。生物体的细胞代谢是平行发生的,并以此形成高度复杂的代谢网络。为避免资源的过度消耗,或激活潜在的有害物质,整个代谢过程会存在“微调”(fine-tune)。类比这个特点,流体构式语法主张在计算机语言处理的“盲搜索”(blind search)阶段引入动态调控。否则,形义匹配的复杂性迟早会压垮计算机的空间和时间资源。除上面已提及的基于构式模板分值的横向抑制策略,其他限制性操作还包括为临时结构设置“足迹”(footprints),为构式设置自然类集合的“初始网络”(priming networks)。

构式通过配对的形义特征代码来约束临时性结构的扩展,这些特征因此被视作语言处理的“足迹”,它可以避免同一代码因再次触发而导致处理流程的无限循环。比如,在计算机识别一个短语时,一旦捕获到“the”,限定词短语的构式框架即被激活。与此同时,由于预先设置了限定词短语构式、名词短语构式与形容词短语构式等互为关联的初始模板链接,计算机会同时激活名词短语和形容词短语构式框架作为“备式”,继而根据实际运算结果,决定初始构式的不同分值,形成优选序列。流体构式语法支持构式的自然集合,比如词汇构式、形态构式、短语构式、信息结构构式。这样做的目的,是根据构式框架转换前的预编程集合顺序,节省计算资源。比如,先是词汇,再是形态,之后是短语。举例说明,作为语言的无标记形式,英语动词表达式的时体聚合关系可能存在一个缺省格,它不能通过句法或词法来标记,但其中的信息却必须被添加至临时结构。对此的解决思路是,在全部有标记形式都无用的情况下,专门增加缺省格的构式集合。

生物进化需要遗传性繁殖,适应性最强的物种,其繁殖频率也是最高的。同理,流体构式语法设置上述策略的目的,就是促使言者和听者交会重叠在一个适应性最强的构式清单上,从而抑制构式及其变式的盲目增量,强制计算机形成系统性的独立内存记忆。

第三,构式变异的承继性。在上面所提及的构式模板双向操作中,往往会遇到言者和听者无法对某一个短语进行处理的情况。然而,若是相关构式框架能够适当“延伸”(linguistic extensions),任务即可完成。此类延伸现象主要表现为两种情况:一是“构式赋义”(coercion),构式模板会将某个形义特征强加于临时结构。比如前面所提及的“My friend Whats Apped me this morning.”,就是在及物句构式框架中被强制赋予了“Whats App”的动词用法。二是“构式松绑”(relaxation),构式会对某个临时结构松绑其特征限制。比如“The report found that Erdely's first journalistic mistake was not speaking to her Jackie's three friends”。这句话的画线部分存在两个所有格(“her”与“Jackie's”),却因为指向同一人(Jackie),因此是不合语法的。但在上下文语境的支撑下,名词性短语的所有格标记限制被松绑,从而使得听者能够理解其义。计算机每内存一个延伸结果,就需要在现有构式模板形义特征承继的基础上,通过添加或删减部分代码来设立一个新的构式框架。由于构式原型及其变体之间也是具有竞争性的,计算机储存的必须是它们的显示实体。

第四,构式选用的标准性。从具体实验的结果来看,低分值构式的低竞争力主要表现在三个方面:一是其临时结构的表达力不够充分,言者可用但未用;二是其临时结构虽被使用,但必须根据反馈不断修正,导致听者所付出的认知努力较高;三是其临时结构虽被使用,但造成了听者的理解错位。根据以上三种表象,可以概括得出驱动构式扩展的三项标准:一是其临时结构具有横向较为充分的表达力;二是其临时结构能够降低听者的认知努力;三是其临时结构能够致使言者与听者交际成功。

(三)流体构式语法的学术价值与发展空间

流体构式语法在认知语言学的构式语法、计算机语言学和语言学理论的基础上建立了一个有关分析和产出的构式语法形式化模型(牛保义,2011:189),其主要学术价值体现为对语言构式承继观、动态观和互动观的发展与应用,其关于语言动力进化的理念可概括为基于广义互动的动态承继。其中,流体构式语法的承继观主要体现在三个方面:一是与其他主流构式语法持有共同的基础假设,包括构式是形式与功能的匹配体;语义直接关联表层形式;构式网络的各节点通过承继性理据相关联;语言变异可以通过一般认知域中的构式功能来解释;构式语法是基于使用的语法模型。二是构式语法理论框架内的方法承继,强调词法与句法没有严格的界限;强调词汇构式的具体性,包括词干的形式、意义、形态、语义和配价等;强调语法构式的框架性,包括约束配价、限制语义和句法结构等。三是以“J—对称算子扩张理论”为基础的计算机应用承继。要求构式框架完整复制构式信息,避免在匹配与合成阶段临时结构的未显特征破坏构式框架的限制性;避免相关变量成为构式局部变量而可能导致计算机的递归运行。流体构式语法的动态观主要体现在将语言规则视作无限量集合中具有被选择性的小集合,直指话语与意义的特定对应。其中包含五个要点:第一,语言规则不具有恒久性。随着时间的推移,语言规则必然会发生相应改变,比如语音的变化、新词的出现、语言标记的消失或重现等。第二,语言规则不具有普遍性。大到人类世界中的各种语言和它们的方言,小到不同语境中的同一句话,它们的组构各有不同。第三,语言规则不具有规划性。人类语言的产生不是由谁设计的,而是由谁使用的,语言的社会规约不存在“中央处理器”(central processing unit,简称“CPU”)。第四,语言规则的集合不具有边界性。就现状而言,全世界的语言共有大约50万个词汇和语法构式(Steels&Szathmáry,E.,2018),这个集合时刻面临着被不断扩展或收缩的情况。第五,语言规则是具有推导性的。这就意味着为保证“语能达意”,言者和听者必须同时具备相当数量的语言知识和社会知识。流体构式语法的互动观实现了从基于本体论互动向基于观念、方法互动的突破。具体来说,涵盖了分子生物学与人类语言处理的类比映射,言者产出与听者诠释的双重筛查,初始化网络及构式模板的分值竞争,构式框架与临时结构的催化与激活,“句法—语义”接口的对称算法。

需要指出的是,虽然流体构式语法的创设在本体论承诺和方法论实践相统一的问题上做出了有益探索,但从构式(本体论问题)和构式分析(方法论问题)依然还处于两个层面的角度出发,本体论承诺和方法论实践之间并不存在必然的平行或对应性关系(施春宏,2016)。具体来说,如果认同构式是由组构成分组成的,构式清单是由不同类型的构式组成的层级体系,那么不同的构式或构式清单的规则也应遵循某种程度上的基于还原论的组合性规则。虽然在方法论上现有知识结构并不强调都可还原,但毋庸置疑,一定程度的还原可以减少语言习得的认知努力。以此类推,虽然习得低层级构式、习得高层级构式的组构规则不能完全认识构式的所有特征,但预编程某个特定领域的构式清单(比如人类遗传的23对染色体)无疑可在更大程度上节省计算资源。事实上,流体构式语法流派也关注到了这一态势。斯蒂尔斯等(2016)指出,大量心理学和神经学的研究成果已表明,在特定生活领域中,人类听者对于言者的话语输出存在“预期”(predicting),言者对于自身的话语输出存在“自我调控”(self-monitoring)。换言之,若是脱离了特定生活领域的情境还原,自然语言的构式处理恐又会陷入另一种形态的组合爆炸。

作为构式语法的全新流派,流体构式语法在自然语言处理的计算机应用中产生,也必然在其应用中发展,关键就在于解决新发展带来的新问题。目前,计算机的自然语言处理可形象地比喻为“两条腿走路”:其一是语言形式化领域的模型迭代;其二是计算机操作系统的能力提升。从摩尔定律的角度出发,深度学习越来越高的算力需求与芯片制造的迟滞换代产生了不可调和的矛盾。流体构式语法因此主张让人工智能系统像人类那样自主形成概念并展开交往,目的是在更大程度上避免日益复杂的工具制造对语言处理的限制,其观点显然与“图灵原理”(Turing Principle)相悖。根据图灵原理,衡量人工智能可否实现的标准在于当人与机器对话时,人能否判定对方是人还是智能装置;流体构式语法流派则认为,机器可以通过所处环境和彼此互动来达成智能进化。这就引发了两个方面的问题,同时也是未来值得密切关注的两大方向。

第一,类比生物进化的新发展空间。虽然生物进化论的一些概念与机制适用于语言发展研究,比如“多层级选择”(multi-level selection),“物种生态位构建”(niche construction),“适应图景”(fitness land-scape),但生物进化中导致新变体产生的突变和重组具有很高的随机性,而基于人类类比推理能力的“触发变异”(facilitated variation)可以对此进行有效抑制。人类的类推能力与语言能力之间存在着较强的逻辑关系,类比推理和语言输出之间存在着可形成结构映射的相互反馈机制。这样的反馈机制依赖于人类大脑复杂而又精细的生理信号系统。由此我们可以提出这样的假设:基于人类“认知神经元”(cognitive neuron)的大脑网络与人工学习网络性能相当,但使用的计算资源却更少。其实,在2021年1月13日结束的全球人工智能领域顶级会议“深度学习表征国际会议”(International Conference on Learning Representations)上,有研究者就展示了通过果蝇神经网络启发自然语言处理普适性算法的成果,发现其性能与常规人工神经网络相当,且非常节约计算能耗(Liang Yucheng,2021)。遗憾的是,相较于拥有1000亿个神经元的人类大脑,果蝇大脑只有10万个神经元。这说明,截至目前,科学家们仍然难以对更复杂的大脑进行表征。为此,流体构式语法流派假定语言的临时结构,可编码为对应生物神经网络点过程中的“尖峰队列”(spike train)的“矢量”(vector)。参照“符号矢量体系”(vector symbolic architectures),构式框架则可被视作由自动关联实现的“模式转换器”(pattern transformers),并可集合构成“前馈神经网络”(feedforward neural networks)。经过对计算机的初始化训练,在语境支撑下,一组突出权重会被传递给前馈网络中若干个通过构式模板相互连接的构式框架,模板会发送横向抑制信号至框架,从而形成“赢者通吃”(winner-take-all)的循环网络,在经历与其他框架的多轮竞争后,输出“赢者”的概念化系统和语音系统。

第二,基于动力进化的新发展理念。流体构式语法创设语言进化动力学的另一动因,是揭示语法结构的起源与历时变化,为此提出了语言进化三过程的交织发展理念(Steels&Szathmáry,2018):一是生物进化过程,揭示人类是如何通过与生物进化同步的认知提升来获得语言的;二是社会进化过程,揭示人类社会是如何通过高水平的信任与合作来发展语言的;三是语言进化过程,揭示大规模词库和可复制语法是如何出现的。从这个意义上来说,一旦某个个体的所处环境发生变化,其构式清单就会随之改变,个体层面的微观变化会在类推机制作用下引发所在社群的系统变化,甚至会出现全新的句法范畴。比如,西日耳曼语(英语等)就存在这样一种趋势,随着句子成分作附加修饰语的用量增多,名词短语变得越来越复杂。这表明,一旦某个临时结构从个体习得向社群传播,构式就会发生复制与变异,语言社群因此成为构式变异的沃土。近年来,随着语料库数据搜集与检索的日渐普及,构式变异与构式化越来越受到学界关注。构式已被证明能够在新的语境中吸收相关句法特征,同时也会失去自身的部分意义。比如,我们可以通过一个构式的整体转喻窥见其成因及言者的动因假设。综上所述,流体构式语法在基于构式的自然语言处理领域已取得了令人瞩目的进步,但越是这样,越是凸显了基于特定生活领域的语料库及知识库建设对于社群公共语言发展研究的必要性和紧迫性。