（1）机器人写作依赖的技术基础

2025年09月26日

版权

（1）机器人写作依赖的技术基础

人工智能写作一般是基于人工输入的庞大数据库和算法编码自动生成文本，依靠自然语言生成技术。“文本生成问题是以文本、图像、数据等作为输入，通过计算机处理输出文本的过程。文本生成技术作为各种生成任务的关键模块被广泛采用，包括机器翻译、摘要总结、图像字幕、风格转换等，文本生成模式根据各自应用场景而不同。”^[19]开发并采取自然语言生成技术的目的在于：第一是利用语言知识来生成文本、分析报告、帮助消息；第二是将其作为鉴定特殊语言的一种手段。通过自然语言生成技术，人工智能得以自动生成、输出人类语言，在提高人工智能功能范围的基础上，帮助、提高人们在语言文本领域的生产。

在这个过程中，研究人工智能的自然语言系统是必不可少的环节。自然语言系统分成三个功能板块：内容规划、句子规划、表层生成。在内容规划的板块中，先初步确定要输出的基本内容，在内容的基础上构建好框架，完成结构规划；句子规划则是细化文本内容，明确规划文本的细节，梳理输出文本的逻辑关系；最后一个板块是表层生成，则是通过输出的文本来展现其结果，在这个过程中，这个功能将句子规划后的文本映射到文字、标点、语序等内容上，形成表层文本，即我们最终看到的文本产出结果。这样的工作模式，表明了内容规划和句子规划决定着文本产出的内容，而表层文字则决定着文本产出的结果。通过自然语言生成技术，人工智能具备了人类独有的语言功能，并且实现了文本生成的高阶发展。在这个技术的支持上，人工智能拥有了语言文字处理、生产功能，以“微软小冰”为例的机器人可以“创作”诗歌，可以与人类进行简单的聊天对话，甚至能够创作一首完整的歌曲。

在弱人工智能时代，文本生成是实现人工智能的重要标志之一。学界也对人工智能提出了新的问题：基于深度强化学习的文本生成，这就要求人工智能自身具备数据获取、整合功能，基于计算机算法和庞大的数据资源进行“学习”。但是由于人类自然语言自身的丰富性和多变性，要求人工智能够做到像人与人之间的对话，在今天依然没有实现。

作为微软（亚洲）互联网工程院组织建立的情感计算框架，“微软小冰”利用算法和大数据，逐渐把EQ引向人工智能领域，是人工智能体系完整化的代表。“微软小冰”的交互系统主要分为文字对话系统、图像识别系统和语音合成系统三大系统。

在文字对话系统中，“微软小冰”通过接受用户发出的自然语言信息，然后将信息进行消化、处理、整合，随后再生成自然语言进行回复、反馈。在这个过程中，整个操作的实现依赖着自然语言处理技术和自然语言生成技术。将语音信息转化为文本，从文件中读取相关的信息，在计算机进行识别书面文字的操作后，“微软小冰”能够针对信息的含义去执行相关行为。虽然依赖自然语言处理技术和自然语言生成技术，人工智能能够识别出人类以不同方式提出的问题，已经实现了与人类进行简单的对话。但是这并不意味着人类的语言能够被其完全理解。这种反馈、回复的功能只是基于它接收到的人类语言信息，并不能够做到自主地回复、创作对话这种反馈机制的深度是有限的，所以我们并不能期望能与它们进行一定深度的对话^[20]。而图像识别技术是人工智能研究中的一项很重要的技术。

从第三代开始，“微软小冰”增加了这项技术的应用。从文字识别到图像处理识别，再到物体识别，图像识别技术经历了漫长的发展过程。在面对大量的图像信息时，人的肉眼往往难以分辨，但图像识别技术可以识别和处理大量的文字信息，能有效地解决人的肉眼识别率低的问题。当人类第一次看见一张图片时，在大脑运转的过程中，会立刻对其特征进行分类，寻找有没有具有相似或相同特征的图像。或许我们并没有察觉，但我们的大脑一直都在做着这些事情。并且人脑在第一次看见一张图片时，会立刻在大脑中搜寻以前有没有看见过该图片或类似的图片，所以人脑对图像的识别和处理具有相似性。计算机也是如此，在识别和处理图像信息时，它通过对图像的关键特征进行识别和提取，从而达到图像识别和处理的目的。所以若图像的特征比较明显，计算机的识别效率就高，反之，若图像的特征不明显，那计算机的识别效率也就会降低^[21]。

而语音合成系统就是将文本转化为语音的形式输出，从而使人工智能像人一样可以正常交流。它包括了多个学科技术，像声学、语言学、数字信号处理、计算机科学等，在我国的信息处理领域是十分先进的。为了更好地合成高质量的语音，合成的过程中不仅要遵守多个规则像语义学的规则、词汇的规则、语音学的规则等，还要较好地理解文本的内容。然后还要针对文本进行一系列的处理。首先，要进行语言处理。语言处理主要被用于模拟、还原人类在语言运用时对自然语言的处理与理解过程，它包含文本的规整、词汇的切分、语法的分析和语义分析四部分内容。经过这一处理过程，计算机可以完全理解给定的文本。其次，要进行韵律处理。韵律处理的目的是规划音段特点和保障语句的自然度。最后，要进行声音处理，根据前面的处理结果进行语音合成，输出最终语音结果^[22]。

正是由于文字对话系统、图像识别系统和语音合成系统三大系统的相互合作、相互联结，“微软小冰”才具备了今天这样的能力。在自然语言生成技术和交互系统及其技术原理的支持下，在海量数据的收集和处理下，以“微软小冰”为例的人工智能拥有了与人类进行简单对话的能力。但是本章着重讨论的是，面对以“微软小冰”为例的人工智能创作诗集的现象，文学界该如何应对科学技术对文化带来的冲击。在“微软小冰”出版诗集的背后，究竟是算法创作还是数据整合，究竟是信息堆砌还是深度学习的收获，技术支持下的文字重组，真的能够被称作是文学创作吗？如果“微软小冰”出版的诗集被民众承认、认可她的文学性，那么文学的原创性又如何谈得上珍贵？这样冰冷的数据重组，人们真的能感受到其“抒发”的所谓情感吗？时至今日，成为一名诗人的门槛已经如此之低，低到诗人甚至可以不是“人”。随着科学技术的全方面发展，人工智能不断入侵文化的边界、文学的边界。在这样的时代潮流下，我们不可逆时代而行，但是该如何对待人工智能“妄想”入侵人类最后的精神领地——文学和诗歌这样的现象，应该是我们都要认真思虑的问题。人工智能到底能不能成为诗人，人工智能“创作”的句子排列到底能不能称为诗歌，我们在本章的后面部分会详细阐述。