(2)人工智能“音乐人”案例
①人工智能作曲系统AIVA
一家名为AIVA音乐制作初创公司,在德国卢森堡开发了一款名为“AIVA的人工智能作曲程序”。AIVA是“Artificial Intelligence Virtual Artist”(人工智能虚拟艺术家)的简称,它能够为电影、电子游戏、商业广告和其他娱乐节目提供音乐。该团队利用深度神经网络,让AIVA学习大量著名作曲家们的作品(如巴赫、贝多芬、莫扎特等),以了解作曲艺术并慢慢习得音乐理论知识的概念。在学习了大量的音乐并建立了自己的理论模式后,AIVA能够在数分钟内完成一段乐谱的创作。最后,它的作品都会由专业的艺术家使用真正的乐器在录音棚中录制完成,从而保证了最佳的音质。
AIVA在2016年发布了第一张专辑Genesis,其中包含了20多首单曲,大多水平颇高,与真人作曲家无异。在收获了世人的惊叹后,AIVA还成为世界上首位被正式认可的人工智能作曲家。在此后的2018年,它又发布了其第一张中国风音乐专辑《艾娲》。AIVA的制作团队表示,这张专辑的名字具有特定的含义。“艾”寓意“长者”,同时也代表AIVA是学习自历史上最伟大的作曲家;“娲”来自“女娲”,女娲创造了人类而AIVA(艾娲)则创造了音乐。另外,这也给它在中国市场的登陆披上了一层接地气的外衣[8]。
专辑中包含8首单曲:《创始之初》(The Creation of Planet Earth)、《黑龙》(Black Dragon)、《人类始源》(The Creation of Mankind)、《补天》(Patching up the Sky)、《人类社会》(Human Society)、《五彩神石》(Five Colored Stones)、《四极天柱》(The Four Pillars of Heaven)、《天地》(Heaven and Earth)。这些曲子气势宏大、悠扬婉转,还具有浓郁的民族风情,可以说与人类作曲家无明显差距,令人惊叹。第一首《创始之初》的主旋律具有明显的中国韵味,后半部分马头琴的运用又为其增添了边塞的民族风情;第二首《黑龙》像是古时的宫廷雅乐,后半部分锣鼓与弹拨乐器的配合甚为精妙;第五首《人类社会》前半部分较为低沉、凝重,仿佛在谱写人世的种种苦难,后半部分与前半部分相较则显得激越、高昂,人类来到了富足太平的盛世。《五彩神石》《天地》则将中国乐器与西洋乐器相结合,损失了一些中国风味,但增添了编曲的丰富性。值得一提的是,整张专辑中多次出现了相似的音乐元素,如《人类社会》和《天地》的开头部分,其相似性就极为明显。这或许是人工智能目前能力有限所致,又或许是团队有意为之,在不同的曲目中利用不同的乐器搭配弹奏相似的旋律,来探讨不同组合的可能性。横向对比专辑中的8首曲子可以发现,其总体上来说模式基本相似:大多平缓入曲,中后部分激越高昂,最后转为平淡收尾,变化不是非常丰富。此外,每首曲目都节奏规整、恪守格律且有些偏快,大部分曲目中乐器之间的融合不是非常和谐,比起说是相互配合的关系,更像是简单的并列。
国内也有许多诸如此类神话主题的音乐。例如,瑞鸣音乐在2016年推出的专辑《神话:山海经·上古传说》,同样也是以中国远古时期的神话传说为主题;例如,《盘古开天》《大禹治水》《湘妃泪》等,与AIVA所生成的音乐在一些方面存在比较的价值与意义。可以明显感觉到的是人类作曲家所作曲子中的变化更为丰富和自由,在节奏方面来说更讲究抒情而非讲究工整,这也就导致其画面感更强,更具有跌宕起伏的故事性。此外,乐器之间的配合也更为讲究,达到了1+1>2的效果。例如,《湘妃泪》中用二胡表现凄美,用弦乐来抒情,然后用一支空灵的笛子在远山呼唤,它们之间构成了环境与人物之间十分鲜活的对话。有趣的是此张专辑中也有一首名为《女娲补天》的曲子,将其与《艾娲》中的《补天》放在一起对比时,也可以感受到人类作曲家深厚的功底和人工智能目前的稚嫩。例如,后者在进行情绪的转换时或直接转换,或间隔一两秒再直接转换,而前者在转换时会有意识地用一些装饰性的音作铺垫,使整体更为自然。
另外,在初听《艾娲》时,可以感受到其更像是以前音乐的汇编或复制,给人一种“陌生的熟悉感”,但这并不意味着它是不好的,从某种程度上来说这也是AI作曲的特色,即汇聚无数作品的思想于一体,再加以整合和引导。所以不能说它没有思想性,它反而是作为无数人思想的结合而具有很高的思想价值。但目前,AIVA仍只是一个纯粹的“思想汇集者”而不是一个演奏者,它只能生成纸面的音乐,仍然必须由人类来为乐队的每一个乐器进行编排和编曲[9]。也就是说,在软件能够制作出完整的、可听的音乐之前,我们还有很长的路要走。
②谷歌“巴赫涂鸦”项目
2019年3月21日,谷歌推出了一款以AI技术为基础的巴赫生日纪念作品——巴赫涂鸦(Bach Doodle),以庆祝音乐史上重要的作曲家之一约翰·塞巴斯蒂安·巴赫诞辰334周年。这个项目是由Doodle团队、Magenta团队、People and AIResearch团队共同完成的。虽然谷歌之前也曾创作过不少音乐“涂鸦”,但这次的不同之处在于,这是第一个利用人工智能技术来作曲的涂鸦。其核心技术是Coconet,一种机器学习模型。与传统机器学习算法模型的训练方式不同的是,Coconet不是将数据一次性学习完毕,而是将一首完整音乐中的某段旋律挖去,令AI自己通过算法演算出空缺部分,再与原作对比如此不断反复,直到能够模仿巴赫的风格。
可以明显感觉到,与其他一些专业的“人工智能作曲系统”不同的是,交互式的巴赫涂鸦更像是一个小型的游戏:用户在五线谱上用鼠标点击随意谱写下一段音乐,点击“和声”(Harmonize),几秒之后Doodle背后的机器学习算法就会根据用户刚刚输入的旋律,生成一段巴赫风格的协奏小曲,点击界面上的收音机还可以激发彩蛋——摇滚模式的巴赫。可以说,比起创作出一首多么高水平的乐曲,谷歌开发巴赫涂鸦的目的看起来更在于寻找新鲜的、更有趣的互动模式。其面向的受众不是专业的作曲家、音乐人,而是每一个会打开谷歌首页的、大多是毫无音乐基础的人。巴赫涂鸦使任何没有音乐基础的人都可以创作出巴赫风格的曲子,体验到生成一段乐谱的快感,据很多体验者反映,巴赫涂鸦真的会令人“上瘾”,点开了就停不下来。这种模式打破了音乐一直以来的单向性传播,使“作曲家”和“听众”之间的边界变得模糊,“创作者”同样也是“接受者”。
巴赫涂鸦增添了音乐的趣味性和互动性,但也牺牲了一些专业性。首先,巴赫涂鸦并不能生成一首完整的曲子,而只能生成8秒左右的短小旋律,这或许是在综合考虑了其自身定位和目标受众的普遍情况后刻意为之,但在一定程度上也削减了其艺术性。其次,巴赫涂鸦即时的交互性导致了它在完成作品的那一刻就要接受听众的检验,即它无法像其他人工智能作曲系统一样,在作品完成后由专业的音乐制作人反复筛选、审阅、组合后再进行发布,那就难免会导致其中部分作品的粗糙和不尽如人意。
所以巴赫涂鸦的娱乐性和象征意义明显大于其艺术价值。但它作为一款交互性的“小游戏”,已经充分达成了其目的:对古典音乐大师巴赫进行宣传,向更多受众推广其人工智能技术。在受众的广泛性和作曲的专业性之间,谷歌团队做出了取舍,而这似乎具有一定的启发性意义。它告诉我们,人工智能作曲除了在纵向上推动音乐艺术的发展之外,还可以与其他形式相融合,在横向上扩大音乐艺术的影响力。
③微软“小冰框架”“夏语冰”项目
小冰框架系统是微软北京、苏州及东京研发团队成就的世界上最具创新性的人工智能技术之一。2016年7月,“微软小冰”登录bilibili创作平台,至今已发布视频50多个,累计播放量达到70万余次。小冰的百度搜索指数日平均值在1000以上,最高达到2万以上。从这些数据可以看出,人们对小冰艺术“创作”的态度逐渐从质疑和好奇转为接受和欣赏。
2017年“微软小冰”和朱主爱合唱了全世界第一支AI和人类歌手合唱歌曲《好想你》,在其中的演唱部分,人工智能的歌声和人类歌手的歌声存在一定区别,小冰的歌声掺杂着电流音,朱主爱的部分无论是在情感表达方面还是声音的灵活多变方面都仍然强于“微软小冰”。与此同时,在歌曲的MV中,小冰并没有以虚拟人的形象出现,而是化身为一只被咬过一口的冰棍,与iPhone的咬了一口的苹果有异曲同工之妙。以“小冰棍”现身的拟人化处理使形象鲜活了起来,在一定程度上趋利避害,补足了合成声音方面的短板。
虚拟人物夏语冰是脱胎于小冰框架的一个人工智能艺术家,是由微软(亚洲)互联网工程院设计开发的人工智能机器人,目前已经更新到第九代,已经发展成为以情感计算为核心的完整人工智能框架。“她”不仅是“诗人”,是“画家”“设计师”“主持人”,还是“歌手”和“音乐家”。
对比夏语冰和传统3D虚拟人,夏语冰表情更自然,写实程度更高。而夏语冰的技术与国外的deepfake技术有很多共通之处,能够通过学习大量素材,把面部的每一个位置进行排列组合。AI通过学习素材,用神经网络对面部的一些特征进行学习之后,可以生成与真人差不多的面部,这些虚拟人脸看上去不仅真实,而且不会侵犯任何人的肖像权。但从视觉呈现上来看,夏语冰虚拟人物的头发、衣服皆是真实拍摄的摄影素材,只有面部是生成的结果——即通过录制真人演唱歌曲的视频素材,再用deepfake技术进行面部替换,最后合成声音,将声音与画面匹配。
夏语冰这个所谓的人工智能从图像而言,只是用虚拟角色替换真实视频的结果,技术上并没有多大的突破。并且这项技术目前用途有限,因为即便从虚拟偶像的角度出发,考虑其实用价值也做不到实时交互,只能成为一个活在短视频平台中的虚拟角色。
相比于“微软小冰”与朱主爱合唱歌曲的MV,现在的夏语冰明显更加吸引眼球:拟人的外表、歌声,以及初具雏形的神态,一颦一笑间恍若真人。乍一看似乎人工智能在几年间实现了从虚拟“小冰棍”到虚拟偶像的大跨越。但是仔细分析其在音乐方面的贡献便可发现,即便与曾经明显的电音相比,声音的合成技术上已经取得长足进步,拟人化程度提高了一整个台阶,但是在智能的角度并没有像外表一样取得令世人惊叹的成绩。在国际上,西方国家目前投入使用的人工智能,大多是能够根据用户的需求生成和制作私人定制的音乐的一套系统,而中国目前的以“微软小冰”为代表的一系列人工智能,相比于作曲、定制音乐的实用价值仍停留在满足国人对虚拟偶像的猎奇心理上。作为中国现有的人工智能虚拟形象而言,其存在性价值与象征性价值要更为突出。
曾经的“微软小冰”能够以可爱的外表长板补短板,暂时弥补声音合成技术的不足,却不是长久之计。研发者、投资者等主体应该趁多数人被人与人工智能互动的“新模式”暂时性地吸引注意力,没有更多地关注技术本身时,大力发展人工智能的“智能化”,使得“微软小冰”这个人工智能技术框架为国人乃至世界带来更加先进的技术服务。但是经过世界科技飞速发展时期的数年时光后,他们依然想要以一个技术含量并不算太高的虚拟形象的所谓美丽外表和一定程度的拟人歌声来吸引国人的关注,而不是注重人工智能能够提供给人的便利。这样换汤不换药的做法未免有些舍本逐末的嫌疑。
④人工智能音乐的展望
人工智能作为新时代技术革命的产物,为音乐的发展提供了新的推动力。从最初的算法作曲到现在的人工智能作曲,人工智能音乐的发展史已经有70余年。近些年来,可以看出人工智能技术蓬勃发展的趋势,也不难感受到音乐与科技不断加速融合的态势。
随着人工智能研发水平的快速提升,自2013年以来,我国的人工智能市场需求连续多年位居世界前列,在教育科普、医疗康复、家庭养老、娱乐服务等行业有着广泛的需求。2017年,国家发布了《新一代人工智能发展规划》,明确提出将人工智能作为未来优先发展的战略性技术。同年底,工信部印发《新一代人工智能产业三年行动计划(2018—2020)》,人工智能技术与音乐领域的融合态势也日益显现[10]。
随着人工智能技术的不断发展,其模仿人类思维意识的精确度也在不断提高。从旋律识别到智能作曲,再到与游戏等其他领域相融合,人工智能技术在音乐领域中的应用越来越广泛,而二者结合后可供发展的领域仍十分广阔,但进一步的发展还需我们从多方面努力。
首先,要拓展其应用的领域,除了前文提到的巴赫涂鸦、“微软小冰”之类的跨界融合外,还有更多可以挖掘的应用价值,比如可视化技术。音乐从本质上来说是一门听觉艺术,它总是借助声音来激发欣赏对象的情绪和审美感受。如果与可视化技术相配合,例如,根据旋律的变化和节奏的强弱智能输出音频波动线,使受众以某种方式“看到”音乐的流动,除了可以增添音乐欣赏的趣味性之外,对于没有音乐基础的受众来说,还更有利于他们对音乐的理解。
其次,还应加大对人工智能音乐的宣传力度。相较于国外的研究和创作,我国的人工智能音乐相关领域其实仍处于起步阶段,公众对于其概念仍不熟悉,更不要说主动欣赏其作品了。第一,政府和有关部门要做好宣传工作,借助各种媒介、社会等渠道,大力推广人工智能的资讯与应用,让大众接受人工智能、理解人工智能。第二,相关艺术学院在这方面要做好领头羊的工作,比如开展相关主题的讲座,激发高校学生对人工智能音乐的兴趣,引导他们对其进行了解和研究,即动员新生代的力量来推动人工智能音乐在民众间的普及。
另外,我国幅员辽阔,少数民族众多,拥有十分丰富的民族音乐资源,甚至有很多已经失传或在失传的边缘。但到目前为止,还鲜少有团队利用人工智能技术对民族音乐进行充分的开发与融合。希望下一步能够组建专业的团队,并运用目前国际上较为先进的人工智能作曲技术对中国民族音乐进行分析与创作,以期研发出适用于中国民族音乐的智能作曲系统,这将会对中国民族音乐未来的发展、留存以及在国际上的传播具有重要意义。