歌声合成隐秘“进化史”,比AI孙燕姿还早70年

2023-09-05 星期二

题图:AI歌手Noonoouri工作照

本文为 澎湃号·湃客科技 × 至顶头条 联合出品

作者 | 于佳卉

编辑 | 王恒婷

当地时间9月1日,虚拟AI歌手Noonoouri与华纳音乐中欧分公司签约,并发行了首支单曲《多米诺骨牌》(Dominoes),Noonoouri成为首个签订重大唱片合约的AI歌手。正如观察音乐产业数十载的资深分析师Mark Mulligan在博客中所言:“音乐产业来到了一个临界点,AI将会改变音乐的未来,如今瓶中的精灵已经飞向了广阔的天空。”

时间指针拨回到19世纪以前,当人们聚集在一起时,总是会用即时的、最原始的歌声和乐器,讲述生活的故事,传递情感和思想。那时的音乐,是流动的,也是瞬间的。

1857年之后,录音的出现,让人们拥有了随时随地欣赏优秀音乐作品的条件。在这种形式下,音乐开始变成设定好的故事,听众成了被动的接受者。

斗转星移。时间来到2023,人工智能正在改变音乐的形态——通过便捷的操作,普通大众也可以轻松生产出音乐作品。从“play guitar”到“play AI”,音乐创作正变得触手可及。

合成的“歌唱历史” 

作为歌迷的你可能不会想到,今年最火的音乐中,有一首竟然是孙燕姿演唱的《发如雪》。或者准确地说,是“AI孙燕姿”。

突然走红的另类《发如雪》,掀起了一阵网络创作热潮,带动AI歌手概念出圈,也让更多人感受到人工智能在音乐领域的巨大潜力。

不过,说到AI歌手,很多人第一反应应该是当红虚拟歌姬——初音未来和洛天依。在歌迷感慨于这些无论是声音和容貌都接近完美的AI歌手时,绝大多数人可能并不知道,单纯用计算机合成音乐这件事,早在上世纪五十年代就已经出现了。根据不完全统计,歌声合成的历史沿革已经跨越了70年。 

在歌声合成漫长而隐秘的“进化”中,AI歌手的出现可谓划时代的产品,而要透析这段成长历史,有两个关键的信息点是必须了解的:

第一,AI歌手涉及的技术主要有两大类:歌声合成(Singing Voice Synthesis,SVS)和歌声转换(Singing Voice Conversion,SVC),而主要的发展是在歌声合成即SVS上。第二,总的来说,歌声合成可以分为拼接合成和AI合成两大方向,从发展过程看,是由前者逐渐向后者演进。

被公众熟知的明星虚拟歌姬——初音未来和洛天依,在技术上使用的正是拼接合成的方式,并在最初采用的是VOCALOID引擎(软件)。这类拼接合成引擎依靠手动调校,可调节的参数和调节的精准度,会直接影响创作效果——完全手动调校对于新手来说入门难,制作需要花费更多精力。

UP主 @你ADC我辅助 表示,由于拼接合成是通过对不同发音的录入、编排和拼接来合成歌声,具备音域宽、编辑自由度高的优点,但连贯度会有所欠缺,“毕竟本质上就是一段段的音频素材”。

从拼接合成到AI合成的转变过程,可以说是一种技术的革新。与传统的拼接合成不同,AI合成是使用人工智能技术深度学习人声样本的唱法、发音、声线、风格等,推测出本人怎么唱进而模仿。

2009年,名古屋工业大学开发的Sinsy就使用了隐马尔科夫模型,而后CeVIO在Sinsy基础上开发出输入音符、文字就能唱歌说话的功能——这是最早使用非拼接方式的歌声合成引擎。到了SynthesizerV发布时,技术上已经开始介入人工神经网络(模仿人类大脑活动的机器深度学习模式),也就是说其在拼接合成的基础上结合了人工智能技术,融合了两者的优势。

微软小冰X studio也是早期AI引擎之一,免费使用但目前落后于其他引擎。相比之下,ACE作为完全的后起之秀,性能效果与Synthesizer V同属第一梯队,去年5月,洛天依也宣布与ACE合作推出了ACE引擎声库,早期ACE还提供了音乐创作社区。

AI合成引擎通过人工智能计算自动合成的声音,往往不需要大改就能使用(也可以直接在计算结果的基础上修改参数)——这一方面降低了制作成本;另一方面生成的声音非常自然、流畅、拟真,操作门槛低。

不过UP主 @HarryKamski 介绍说,AI合成的缺点是音域会受限,而且因为合成方式非显性,会有“自己的想法”,很多时候不能完全遵照调校师的想法。

“AI孙燕姿”背后的歌声转换

就在SVS歌声合成在商业领域大行其道的同时,各种音乐社区内,隐匿生长的开源幼苗也在茁壮成长。几个月前突然在网络爆火的“AI孙燕姿”,将SVC(歌声转换)猛地推向了主流的道路。

“AI孙燕姿”与商用广泛的SVS技术路线不同,采用的是歌声转换即SVC技术。两者的技术原理和用户生态都是不同的,谈及两者的区别时,UP主 @电浆果茶 画了一张图。

UP主@电浆果茶 解释说,不管用SVS AI还是SVC生成音频,首先都需要采集声音做一个AI模型,采集的声音质量越高,模型输出的音质也就越高。有了模型之后,SVS只需要输入文本和音符就能生成一个新的音频,没有其他干扰的话,这个音频的音质是不会变的。SVC模型生成内容则需要先输入一个既有音频,如果你往一个很好的模型输入一个糟糕的音频,那么输出来的音频也是糟糕的。

也就是说,“AI孙燕姿”这类AI歌手,本质可以理解为AI加持的歌声变声器,它是将源音频的音色、声线替换为目标歌手的,保留原来的歌词、唱法、音调等,因此最后的呈现效果,很大程度上取决于源音频的演唱水平。

相较SVS技术,SVC出现的时间并不久。早期日本发布过一款语音合成软件Voiceroid,可以将输入的文本转换成语音朗读,当时主要应用于一些游戏解说、美食教程、伴读等。但对于实时需求来说,输入文字并不方便,于是后来就出现了AI变声器,比如,“塞壬VOICE”——这些当时本质上还是商业的闭源软件。可以说,直到以VITS(语音合成模型)为基础的这类开源、免费软件出现,SVC才真正在社区中兴起。

至于大火的“AI孙燕姿”诞生经历,这里要提到一个人,国内歌声合成爱好者Rcell,他基于VITS、SoftVC等项目开发了AI语音转换软件so-vits-svc,“AI孙燕姿”等AI歌手正是基于此制作的。由于so-vits-svc开源免费,可以在本地训练,也因此被大家广泛的使用——so-vits-svc之外,SVC软件还有RVC、DiffSVC等。

除了“AI孙燕姿”的《发如雪》,SVC技术的兴起也给个人的音乐兴趣带来了更多的可能性。

今年3月,UP主 @你ADC我辅助 在B站上传了一首已故歌手本兮“演唱”的《反方向的钟》,勾起无数90后的回忆杀,网友们纷纷在视频下感慨追忆,留言7000多条。

他表示,“现在很多网友用SVC来训练各种人物的声库,比如动漫角色、主播、明星,甚至身边的亲朋好友,只要你想,任何人的声音都可以被训练,并不限于明星。由于SVC声库训练起来不算复杂,在二创中非常受欢迎。”

也正是如此,“AI孙燕姿”爆火后,“AI王菲”“AI周杰伦”“AI陈奕迅”纷纷上线,有人追求歌曲的适配,有人纪念去世歌手,也有人剑走偏锋,让郭德纲唱起了热血日漫OP。

每一次有新的人工智能技术出来,都会引起一番AI取代人的问题的讨论。有人认为,AI歌手的本质其实更像钢琴吉他一样,是一种乐器,无论是将其打造成虚拟偶像,还是生产力工具,它都不能脱离于人而存在。当然那些演唱能力很差的歌手,或许该有一些危机感。

AI歌手的商业版图

不管AI歌手的本质是什么,任何一种新产品能否生存的核心都不仅是技术,更在于能否建立完善的商业模式。

商业模式上,SVS打造的歌手主要是和IP产业、偶像产业结合,比如广告代言、卖周边、直播、开演唱会、发行歌曲等。但虚拟偶像产业主要靠粉丝经济,圈子小众,想吃肉的多,可想而知这门生意并不好做。

最火的初音未来和洛天依都属于最早吃到螃蟹的,一个是第一个在世界范围爆火;另一个则是第一个打开中国市场的,因此吸引了大量粉丝。不过,与表面的火爆背后,AI歌手的成功其实凤毛麟角,即使在二次元文化最盛行的日本,真正大获成功的大概也只有以初音未来为代表的那几个。

除了偶像化的商业模式,另一个营收方向是声库销售。UP主 @你ADC我辅助 表示,官方发布的SVS声库绝大多数都是经过配音员本人授权的,像SV AI、CeVIO AI等软件的AI声库,多采用买断制,以一个价格购买后就能终身使用其AI合成服务。

此外,@电浆果茶表示,现在相关公司也在尝试拓宽市场边界,比如跟生产力工具结合。上个月,日本AI社宣布将与Unity合作推出A.I.VOICE语音合成声库,和基于A.I.VOICE技术的Unity扩展编辑器,让用户可以在Unity上直接合成语音内容,无需在多个软件切换。

相比之下,SVC的商业路径更窄,虽然也有商业化软件,但在已经有很多开源免费SVC的情况下,如何突出商业SVC的优势,是一个主要问题。同时由于制作门槛低,SVC频道更加混乱,充斥大量低质量作品,也引起了一些圈内用户的不满。另一方面由于音频的采集未经过版权方同意,SVC的AI歌手对原歌手以及词曲者都可能构成侵权。

“灰色地带”的阴影

版权争议是“AI歌手”面临的一个主要现实问题。

对于歌手本人和唱片公司来说,面对不间断输出的海量自制歌曲,进行授权或起诉索赔并不可行,最优的解决方案或许是将重点放在输入侧——让AI工具从预先授权的数据集中学习。这样唱片公司和出版商也有机会从中拓展营收,音乐版权也可能迎来一个新的商业模式。

这样的新商业模式并非空中楼阁。

根据近期报道,谷歌和环球音乐正在就授权AI使用艺人的声音和音乐来创作歌曲进行谈判。知情人士称,双方的讨论是围绕AI技术在音乐版权方面达成合作伙伴关系,希望开发一种工具,让广大粉丝可以合法地创作AI歌曲,向版权方付费,歌手们可以自由选择是否加入。目前磋商还处于早期阶段,暂时不会推出产品。此外据透露,华纳音乐也在与谷歌谈判中。

版权之外,声音合成还存在其他法律隐患。

声音具有强烈的人身属性,更是歌手赖以生存的根本。“声音保护”也被写入《民法典》,根据《民法典》第1023条相关规定:“对姓名等的许可使用,参照适用肖像许可使用的有关规定。对自然人声音的保护,参照适用肖像权保护的有关规定。”那么未经本人允许,通过SVC技术伪造声音,无疑是对其人身权益的损害。

UP主 @痕继痕迹 表示,“技术也可能会被用于不好的用途,比如某流量演员自身台词功底很弱,通过换声把配音转变成自己的,或者以后某歌手的歌都不是自己唱的,而是别人唱完变声成自己的。”此外还可能伪造虚假的录音、言论,进行诈骗或者造谣诽谤他人——今年已有多起使用AI合成语音电诈的案例曝光。

法律和商业模式都是AI歌手发展过程中要过的关,但这并不影响其成为人工智能技术的一次重大应用。AI歌手正在不断拓展音乐创作的边界,为音乐文化注入无限的可能性。

相关资料:

咨询公司MIDiA今年5月发布了报告《AI and the future of music | The future is already here》,在这里提取几点关键信息,供大家参考。

• 音乐创作者中有一半人认为AI可以成为制作音乐的有用工具,四分之一的人对此持中立态度。

• AI将使音乐制作工具更普及,推动音乐产出实现量子飞跃。

• 随着AI加速音乐市场的过度饱和和高度碎片化,创作者和消费者之间界限的模糊,培养粉丝将成为最终的差异化因素。

• AI无需生成出色的音乐就能侵蚀主要唱片公司的市场份额,它只需要生成足够多的歌曲,每首歌曲都有一次播放。

• 随着创作者更多的使用AI工具,唱片公司将需要围绕艺人发展和吸引粉丝重新定位。

• 如果拥抱AI,录制音乐可能会出现一套全新的授权模式,从授权专有数据集到消费者创作工具。

原文地址:点击