(3)已“入职”动画业的AI

(3)已“入职”动画业的AI

动画制作需要充分彰显画面中图形、色彩等视觉信息的情感传达效应能力,适当安排打破常规的冲击性画面设计。想要创作出一部优秀的动画,就要克服传统动画制作过程中出现的难题。此时,人工智能的优势得到了发挥。

①AI上色——Style2paints

“Sketch+style=paints”[13]。“放手”自己的线稿,尽情地交给AI去上色!“不像从前那些端到端、图到图翻译算法,这是第一个按照真实生活中人类的工作流程来着色的方法”[14],GitHub项目如是介绍这款自主完成上色的AI——Style2paints(以下简称S2P)。

2018年12月7日S2PV1(初版S2P)面世。S2P度过了三个更新迭代期:S2PV2、S2PV3/Paints Transfer-Euclid、S2P V4/Paints Transfer,第四代S2PV4.5于2019年12月15日开始内测,12月18日开放下载。

S2P的升级更新根据用户给予的颜色提示和左侧工具栏选定的风格完成对图片的上色。llyasviel表示,结合残差U-net,利用辅助分类器生成对抗网络(AC-GAN)将该风格应用于灰度草图。整个过程是自动和快速的,结果是可信的艺术风格的质量以及彩色化[15]。颜色选择器和常规图片处理软件中的“钢笔”工具的功能的合二为一,具有极高准确率的色彩提示笔[又称“神经提示笔”(neural hint pen)]。S2P的色彩提示笔能够在1024×2048分辨率的图画上使用3×3的提示笔控制13×13区域的颜色,其上色准确度超越了它的同行(指其他动漫上色工具),如Paintschainer Tanpopo、Satsuki、Deepcolor等[16]

若要依托S2P对一张已绘有线条的画布进行颜色填充,用户需要依序完成如下四个步骤便可得到一张色彩饱满的图片:

第一步,导入。将线稿图导入软件。对图片进行合理裁剪,尽量减少画面中的空白区域。第二步,上色。上色前可以预先尝试多种配色方案再放置“颜色提示点”进行上色。第三步,调整。根据个人喜好调整画面颜色。用户可以在需要修改的区域内添加“颜色提示点”,将该区域原有的颜色擦除并重新上色。第四步,导出。把完成上色的图片导出软件。

需要我们留意区分的是,S2P和Mangacraft的处理原理全然不同:SP2是对线稿的纯上色,用户多面向于画师;Mangacraft是对黑白漫画按部就班的上色,更面向于普通大众。

2022年,llyasviel更新了GitHub网站的个人账号News,他在《2022年春季style2绘画预告》中提到,原计划在2022年之前发布的项目——SEPA(Style2PaintsV5)的发布日期将推迟到2022年夏天;团队在“注意力机制和基于变形的着色方法上取得了一些突破”的同时也在讨论软件功能是否简化或丰富[17]。S2P图片处理性能取得再次突破的消息让人们更加期待SEPA的发布。

除了上文介绍的S2P,Paints Transfer-Euclid、Paintschainer、喵图这三款AI上色软件的着色功能与S2P有着异曲同工之妙,以各自的独特优势致力让动画产业获益于数字算法。目前,喵图AI上色系统的开发公司喵图科技和好奇里奥已把央视IP《蓝猫淘气三千问》进行旧作翻新,画质从360p升级至1080p,提高了旧作的画面质量和流畅度。此外,在上色和线稿提取方面,该公司也在进行相应的模型训练[18]

AI上色工具的介入节约了画面上色环节的时间,创作者可以把更多的精力放在内容编排上,协调了故事策划和画面质量的天平,让创作者拥有更多的时间用于内容情感的表达。使用AI上色需要关注的是,因事物无法穷尽完善,目前智能辅助上色的适用对象停留在简单的画面构成,且算法得出的画面色彩颇为僵硬。当面对画面背景无线条形成闭合图形时,智能系统只会机械地把该部分进行单一的色彩填充,无法自动生成多色彩图块。绘画基础工作的缺失也让动画行业初学者失去了积累经验、探寻自己独特的绘画风格的过程。

②Disney——AI通过音频生成动画

基于VOCALOID[19]、MMD[20]等数字媒体技术与动漫IP、次元CG文化的融合,以虚拟偶像为突出代表的交互技术,成为今天人类社会接触虚拟互联网的方式之一。

人机交互方式着重语音的交互加之动态捕捉技术的辅助。语音交互需要作为交互对象的计算机识别人类的发音,判断每个音节代表的符号,形成反馈。拿语音翻译作为一个基础范例:计算机根据语音识别发音者的语言符号,在数据库中查找与之相对应的另一种语言的文字符号,最终形成发音者所想要的国家的语言的表述。而“点与点”对应式的语音翻译只是对输入的语言符号进行多种语言符号的外表重现,表达方式尚且单一。

不过,迪士尼和卡内基梅隆大学(CMU)合作建立的实验室引入了一项可以执行多样化表达的方案可以规避类似缺陷——通过AI将音频生成表情动画。具体来说,该系统以动画的方式呈现人类发音时的嘴型和面部表情,且发音效果自然、机械感较低。这样人们只需将角色形象模型的数据输入计算机中,该程序就可以把角色人物面部神态的编辑与后期配音合并为一个工作流程,大幅度地提高工作的效率。

情感是美术的一个基本品质,运用美术形式传递情感和思想是整个人类历史中的一种重要的文化行为。面部表情这种非语言的表达方式也是沟通的重要途径,而情绪信息主要通过非语言途径,特别是面部表情来传递。心理学家伯特·梅拉宾甚至认为:交流一项信息的情绪效果=词语7%+声音38%+面部表情55%,可见面部表情对于表达和理解情绪的重要[21]。日常交流和观看影视作品时,我们观察交互对象的面部表情是理解对方情感的主要方式。而迪士尼与卡内基梅隆大学开发的程序将人们的发音与发音时的面部肌肉活动弧度通过算法以CG形象呈现,人性化的处理加工可以让3D角色在动画中更加生动,使观众与动画人物产生情感的共鸣。

③动作捕捉(Motion Capture)

动作捕捉,又称为“运动捕捉”,基于其强大的适用性,现在已经被广泛应用于各个领域:从影视娱乐、电子游戏到体育医疗行业,甚至扩展到军事领域。在动画的制作中,动作捕捉技术主要是人物表情的捕捉和身体运动的捕捉。利用对身体的位置变化、空间变化、角度变化、速率变化和面部表情变化等进行捕捉,可以细致观察人物的情感变化和动作变化,并在计算机设备和系统平台上进行三维立体动感展示,把实际表演人员的表情动作更加形象化,增加动画表演的真实性和连贯性[22]。将动作捕捉技术最早用于动画制作当中的案例是迪士尼公司在20世纪70年代尝试借助动作捕捉技术改进动画效果。之后在计算机技术不断成熟和相关研究的推动下,动作捕捉技术得以真正进入人们的视野中。

动捕技术在二维、三维动画制作中的使用在“很多传统动画的从业人员眼中无疑只能算是一种‘技术性作弊’的行为”[23],它只是对三元世界的二元投射,抓住了三元空间的实质动态变化,“抛弃了二元空间天马行空的无限夸张”。

总之,动捕技术的投入对角色动态感塑造的能力不容忽视。它克服了人工手稿绘图中人物形体动作难把握、易错位的问题,同时具备高度的流畅性和现实感,让动画人物的举止动作与实际生活更加贴近,减少了观众与画面人物的空间差距感。实时动捕技术还为实现人与虚拟环境的交互提供前瞻性研究方向,也为动画场景现实虚拟化的实现给予可能性,未来播放动画时观众与动画人物自由互动或许能被实现。

④舞蹈动画合成系统——ChoreoMaster

舞蹈作为一种表演艺术在影视行业中已经普遍化,其动画化形式也屡见不鲜。目前行业内制作舞蹈动画采用的技术大多是手K[24]和动作捕捉。虽然内容质量有所提高,但技术的使用仍需耗费大量的时间和精力。如何快捷地自主生成具有艺术观赏价值的舞蹈动画是影视行业亟待解决的问题。之前在舞蹈动画领域“独霸一方”的制作软件——MMD,承担了许多动漫歌曲MV或二次元角色宣传视频的制作工作。MMD软件性能主要面向三维式舞蹈编排,即人们将3D模型导入,便可以进行动画制作。MMD在整个过程中只负责提供平台与技术参与层面数据的输入与输出,角色如何表演还需要人为的前期策划,“全智能化”未能在MMD上得到实现。

2021年网易互娱AILab在SIGGRAPH 2021年会官方精选预告片上展示了首个符合实际生产环境应用要求的舞蹈动画合成系统ChoreoMaster——提供一段音乐,该系统可以依据音乐的风格自动生成街舞、宅舞、民族舞等不同类型的舞蹈。ChoreoMaster与MMD的使用目的基本相同,而前者的特点在于它能够根据算法快速稳定地输出一段符合编舞美学、连贯自然的舞蹈动画,并且可以有指定地添加、替换、删除舞蹈片段。在不脱离艺术表达的前提下,接近自动化的合成模式能自然规避舞蹈内容的错误,减少因知识盲区带来的负面影响是其对MMD和其他同类技术的超越。

⑤AI根据文字自动生成动画——CRAFT

CRAFT(Composition Retrieval and Fusion Network),即一种人工智能动画制作模型。通过检测模型中存储的带有描述性文字的影视片段,将输入的文字中与其相符的画面筛选匹配,进行角色、场景、音乐的重组、拼接,形成新的动画。在许多领域中,语言文本自动生成动画也可投入使用,如影视剧本的编写、Slogan视频拍摄等一些需要通过文字更快地展示主题概念、内容大纲的工作环节。

CRAFT的出现,省去了耗时复杂的画稿绘制流程,缓解了苦于人员有限、精力不够、内容庞杂的企业的燃眉之急,同时也加快了动画向民众靠近的步伐。然因系统性能不够完善,开发者输入系统的动作和对象列表不够详细,容易出现自行拼接的随机性、文字描述与音画错位、无法分析复杂的文字描述导致图像崩坏,有时无法把动作(如抬头)变成类似动作(抬头看)等现象。所以,此模型只停留在时长短、文意简单的内容的动画生成中,若要创作以小时为单位、内容多元的动画电影,则有待软件的进一步更新。

⑥Midas Creature——2D动画自动生成

一个能自动完成2D动画创作的软件——Midas Creature——由动画技术初创公司Midas Touch Interactive于2017年推出。根据使用者输入的指令,Midas Creature可以将动画角色进行位置的移动,自动完成2D复杂动画的制作。这一技术基于物理学的程序动画系统,使用深度学习和人工智能技术创建自动行走循环的运动过程。可以让“动画师能够专注于角色的表现和行为,以提高角色本身整体方面的关键帧质量。允许动画师指导二次运动的自动生成,从而将运动捕捉的数据从3D转换为2D。”Midas Creature自动生成2D动画的技术超越了传统动画的关键帧和Flash技术下二维动画的制作。人工智能技术在提高效率的同时,实现了传统技术无法把数据转换为2D的限制。此外,经验丰富的动画师可以用此技术对动画制作繁琐的部分进行内容补足,即使是不具备动画制作专业知识的人也可以有所尝试。

Midas Creature与上述软件一样,都在不同层面上进行革新,但其“降低专业入门门槛”的特征颇受人们瞩目,互联网新媒体普适性与泛众化的特点或许会在未来“复制粘贴”并“创新”于动画产业。

不具有专业技术本领的人们也能做动画是一个令人兴奋的图景,他们释放的创造活力将会成为支撑动画发展的一根强大支柱。但仍需要强调的是,即便人人都是动画创作者的时代真正到来了,我们也不能触碰道德与法律的底线,相关的制度会随着实际情况不断建立与完善。

⑦AI自动描画——CACAni

在一部影音作品正式投入制作前,制作方不可避免地需要对整个作品的成本进行预估,以便考量该部作品是否具有执行的可行性。一档综艺节目、一部电视剧或电影、一场话剧等都可以从演员、服装道具、场景布置或其他方面削减费用支出,但降低动画制作的成本却很难。

一部动画的水平与画师水平密不可分。若想推出一部高水平的动画,需要在本团队中挑选经验丰富、画作产出质量稳定的画师,当人手不足时,还会邀请外部团队或自由画师的加入,随着原画的细节增多、特效的复杂程度上升等,支付给画师的薪酬也会不断增多。所以,“经费燃烧”[25]四字总是伴随着特效“爆炸”的画面出现也不无道理。

减少成本的同时保持画面的流畅与水准的展望,在近年人工智能研发的环境中“孕育”出可喜的雏形——CACAni。CACAni是一款来自新加坡的动画软件,目前被用于二维动画制作。它的独特优势在于“自动生成矢量化的中间帧”,即任意给出两个或两个以上的关键帧,就能自动生成中间帧,且没有数量和精度的限制,也不会额外增加成本[26]

无须庞大的团队,CACAni就可致力于帮助制作者实现从平滑模式到曲线绘制,再到独立于画布分辨率的最高质量的2D动画制作。制作者也可以使用CACAni辅助绘画系统节省时间。绘制一帧,并使用软件记录的所绘制的颜色信息来完成剩余的或特定帧的动画序列的绘制工作。

此外,研发团队在更新的CACAni 2.0版本中新增了许多功能,如Re-match Stroke Order(重新匹配笔画顺序)、Editing across Multiple Cels and Frames(跨多个单元格和框架编辑)、New Frame Types and Frame Type Conversions(新的帧类型和帧类型转换)、Export to After Effects(导出到After Effects)等。传统动画制作中,手工完成中间帧和上色的冗杂工作由CACAni接替,短时间内便可快速完成。由此,在一定作画成本的范围内完成较高质量的动画并非遥不可及。

⑧AniCast Maker——VR制作动画

利用VR绘画技术解决动画制作成本高的问题也同样引人关注。此技术可以利用VR将实拍视频实时转换成动画画面,减去了描画和CG操作的技术程序。当今,在“制作过程中不需要CG和描画技术参与”的为人熟知的案例为VTuber[27]

与VTuber制作不同,AniCast Maker主要应用于动画制作方面。AniCast Maker是一种简单易行的方法,使用它任何人都可以在虚拟现实中制作自己的视频。你可以做演员,做摄影师,放置道具和背景,无论你的梦想是什么,你都可以创造。该工具提供了大量的背景、道具和角色动作让你可以直接进入并制作成各种动画。你甚至可以将视频上传到社交媒体上,以获得观众的即时反应。

在AniCast Maker技术上,我们可以看到上述提到的问题有了解决的对策,而当个人使用此技术时,制作时长和人物数量限制性的不足仍需进一步改善。值得我们关注的是,在个人使用该技术的前提下,使用者处于虚拟空间当中,这意味着人们可以“零”距离地创造动画人物和场景。

⑨AI补帧、加帧

无论是影视作品还是动画,在后期影片合成时人们会发现因画面不够流畅导致感观效果不佳的问题,此时智能技术的补帧、加帧可以避免再次返工制作的流程。

目前市场上已面世的补帧算法有英伟达公司公布的Super SloMo算法、上海交通大学研发的DAIN插帧算法等,在24帧能让人们产生视觉画面运动效果的基础上,48帧、60帧甚至120帧的补足可以为观众提供高水平的画面和特效显示。此外,Super SloMo作为与补帧殊途同归的加帧技术[28]则是在相邻两帧之间补充额外的画面帧,把视频转化为高帧率慢动作视频。尽管二维动画每一帧画面都是完全静止的,画师还是会在相近帧中手动画出动态模糊的效果。智能补帧完成的是动画中画师手工无法完善的运动轨迹作画,拿一个人物的转身动作来说,笔者粗略用11帧画面表达了这一动作的完成,其中对人物的服饰和外貌进行11次不同角度的重复线条描绘,耗费大约48小时。绘制的过程中,笔者发现画面不流畅的部分大都是人工难以绘制的细节之处,后用DAIN插帧算法进行补帧,短时间内得到的结果是整个动作的流畅度有了明显的提高,去除了不协调的画面感。不过,画面的帧与帧之间的动态模糊会在AI补帧后变得明显,这是需要关注的一个方面。