歌声合成隐秘“进化史”，比AI孙燕姿还早70年

题图：AI歌手Noonoouri工作照

本文为澎湃号·湃客科技 × 至顶头条联合出品

作者 | 于佳卉

编辑 | 王恒婷

当地时间9月1日，虚拟AI歌手Noonoouri与华纳音乐中欧分公司签约，并发行了首支单曲《多米诺骨牌》（Dominoes），Noonoouri成为首个签订重大唱片合约的AI歌手。正如观察音乐产业数十载的资深分析师Mark Mulligan在博客中所言：“音乐产业来到了一个临界点，AI将会改变音乐的未来，如今瓶中的精灵已经飞向了广阔的天空。”

时间指针拨回到19世纪以前，当人们聚集在一起时，总是会用即时的、最原始的歌声和乐器，讲述生活的故事，传递情感和思想。那时的音乐，是流动的，也是瞬间的。

1857年之后，录音的出现，让人们拥有了随时随地欣赏优秀音乐作品的条件。在这种形式下，音乐开始变成设定好的故事，听众成了被动的接受者。

斗转星移。时间来到2023，人工智能正在改变音乐的形态——通过便捷的操作，普通大众也可以轻松生产出音乐作品。从“play guitar”到“play AI”，音乐创作正变得触手可及。

合成的“歌唱历史”

作为歌迷的你可能不会想到，今年最火的音乐中，有一首竟然是孙燕姿演唱的《发如雪》。或者准确地说，是“AI孙燕姿”。

突然走红的另类《发如雪》，掀起了一阵网络创作热潮，带动AI歌手概念出圈，也让更多人感受到人工智能在音乐领域的巨大潜力。

不过，说到AI歌手，很多人第一反应应该是当红虚拟歌姬——初音未来和洛天依。在歌迷感慨于这些无论是声音和容貌都接近完美的AI歌手时，绝大多数人可能并不知道，单纯用计算机合成音乐这件事，早在上世纪五十年代就已经出现了。根据不完全统计，歌声合成的历史沿革已经跨越了70年。

在歌声合成漫长而隐秘的“进化”中，AI歌手的出现可谓划时代的产品，而要透析这段成长历史，有两个关键的信息点是必须了解的：

第一，AI歌手涉及的技术主要有两大类：歌声合成（Singing Voice Synthesis，SVS）和歌声转换（Singing Voice Conversion，SVC），而主要的发展是在歌声合成即SVS上。第二，总的来说，歌声合成可以分为拼接合成和AI合成两大方向，从发展过程看，是由前者逐渐向后者演进。

被公众熟知的明星虚拟歌姬——初音未来和洛天依，在技术上使用的正是拼接合成的方式，并在最初采用的是VOCALOID引擎（软件）。这类拼接合成引擎依靠手动调校，可调节的参数和调节的精准度，会直接影响创作效果——完全手动调校对于新手来说入门难，制作需要花费更多精力。

UP主 @你ADC我辅助表示，由于拼接合成是通过对不同发音的录入、编排和拼接来合成歌声，具备音域宽、编辑自由度高的优点，但连贯度会有所欠缺，“毕竟本质上就是一段段的音频素材”。

从拼接合成到AI合成的转变过程，可以说是一种技术的革新。与传统的拼接合成不同，AI合成是使用人工智能技术深度学习人声样本的唱法、发音、声线、风格等，推测出本人怎么唱进而模仿。

2009年，名古屋工业大学开发的Sinsy就使用了隐马尔科夫模型，而后CeVIO在Sinsy基础上开发出输入音符、文字就能唱歌说话的功能——这是最早使用非拼接方式的歌声合成引擎。到了SynthesizerV发布时，技术上已经开始介入人工神经网络（模仿人类大脑活动的机器深度学习模式），也就是说其在拼接合成的基础上结合了人工智能技术，融合了两者的优势。

微软小冰X studio也是早期AI引擎之一，免费使用但目前落后于其他引擎。相比之下，ACE作为完全的后起之秀，性能效果与Synthesizer V同属第一梯队，去年5月，洛天依也宣布与ACE合作推出了ACE引擎声库，早期ACE还提供了音乐创作社区。

AI合成引擎通过人工智能计算自动合成的声音，往往不需要大改就能使用（也可以直接在计算结果的基础上修改参数）——这一方面降低了制作成本；另一方面生成的声音非常自然、流畅、拟真，操作门槛低。

不过UP主 @HarryKamski 介绍说，AI合成的缺点是音域会受限，而且因为合成方式非显性，会有“自己的想法”，很多时候不能完全遵照调校师的想法。

“AI孙燕姿”背后的歌声转换

就在SVS歌声合成在商业领域大行其道的同时，各种音乐社区内，隐匿生长的开源幼苗也在茁壮成长。几个月前突然在网络爆火的“AI孙燕姿”，将SVC（歌声转换）猛地推向了主流的道路。

“AI孙燕姿”与商用广泛的SVS技术路线不同，采用的是歌声转换即SVC技术。两者的技术原理和用户生态都是不同的，谈及两者的区别时，UP主 @电浆果茶画了一张图。

UP主@电浆果茶解释说，不管用SVS AI还是SVC生成音频，首先都需要采集声音做一个AI模型，采集的声音质量越高，模型输出的音质也就越高。有了模型之后，SVS只需要输入文本和音符就能生成一个新的音频，没有其他干扰的话，这个音频的音质是不会变的。SVC模型生成内容则需要先输入一个既有音频，如果你往一个很好的模型输入一个糟糕的音频，那么输出来的音频也是糟糕的。

也就是说，“AI孙燕姿”这类AI歌手，本质可以理解为AI加持的歌声变声器，它是将源音频的音色、声线替换为目标歌手的，保留原来的歌词、唱法、音调等，因此最后的呈现效果，很大程度上取决于源音频的演唱水平。

相较SVS技术，SVC出现的时间并不久。早期日本发布过一款语音合成软件Voiceroid，可以将输入的文本转换成语音朗读，当时主要应用于一些游戏解说、美食教程、伴读等。但对于实时需求来说，输入文字并不方便，于是后来就出现了AI变声器，比如，“塞壬VOICE”——这些当时本质上还是商业的闭源软件。可以说，直到以VITS（语音合成模型）为基础的这类开源、免费软件出现，SVC才真正在社区中兴起。

至于大火的“AI孙燕姿”诞生经历，这里要提到一个人，国内歌声合成爱好者Rcell，他基于VITS、SoftVC等项目开发了AI语音转换软件so-vits-svc，“AI孙燕姿”等AI歌手正是基于此制作的。由于so-vits-svc开源免费，可以在本地训练，也因此被大家广泛的使用——so-vits-svc之外，SVC软件还有RVC、DiffSVC等。

除了“AI孙燕姿”的《发如雪》，SVC技术的兴起也给个人的音乐兴趣带来了更多的可能性。

今年3月，UP主 @你ADC我辅助在B站上传了一首已故歌手本兮“演唱”的《反方向的钟》，勾起无数90后的回忆杀，网友们纷纷在视频下感慨追忆，留言7000多条。

他表示，“现在很多网友用SVC来训练各种人物的声库，比如动漫角色、主播、明星，甚至身边的亲朋好友，只要你想，任何人的声音都可以被训练，并不限于明星。由于SVC声库训练起来不算复杂，在二创中非常受欢迎。”

也正是如此，“AI孙燕姿”爆火后，“AI王菲”“AI周杰伦”“AI陈奕迅”纷纷上线，有人追求歌曲的适配，有人纪念去世歌手，也有人剑走偏锋，让郭德纲唱起了热血日漫OP。

每一次有新的人工智能技术出来，都会引起一番AI取代人的问题的讨论。有人认为，AI歌手的本质其实更像钢琴吉他一样，是一种乐器，无论是将其打造成虚拟偶像，还是生产力工具，它都不能脱离于人而存在。当然那些演唱能力很差的歌手，或许该有一些危机感。

AI歌手的商业版图

不管AI歌手的本质是什么，任何一种新产品能否生存的核心都不仅是技术，更在于能否建立完善的商业模式。

商业模式上，SVS打造的歌手主要是和IP产业、偶像产业结合，比如广告代言、卖周边、直播、开演唱会、发行歌曲等。但虚拟偶像产业主要靠粉丝经济，圈子小众，想吃肉的多，可想而知这门生意并不好做。

最火的初音未来和洛天依都属于最早吃到螃蟹的，一个是第一个在世界范围爆火；另一个则是第一个打开中国市场的，因此吸引了大量粉丝。不过，与表面的火爆背后，AI歌手的成功其实凤毛麟角，即使在二次元文化最盛行的日本，真正大获成功的大概也只有以初音未来为代表的那几个。

除了偶像化的商业模式，另一个营收方向是声库销售。UP主 @你ADC我辅助表示，官方发布的SVS声库绝大多数都是经过配音员本人授权的，像SV AI、CeVIO AI等软件的AI声库，多采用买断制，以一个价格购买后就能终身使用其AI合成服务。

此外，@电浆果茶表示，现在相关公司也在尝试拓宽市场边界，比如跟生产力工具结合。上个月，日本AI社宣布将与Unity合作推出A.I.VOICE语音合成声库，和基于A.I.VOICE技术的Unity扩展编辑器，让用户可以在Unity上直接合成语音内容，无需在多个软件切换。

相比之下，SVC的商业路径更窄，虽然也有商业化软件，但在已经有很多开源免费SVC的情况下，如何突出商业SVC的优势，是一个主要问题。同时由于制作门槛低，SVC频道更加混乱，充斥大量低质量作品，也引起了一些圈内用户的不满。另一方面由于音频的采集未经过版权方同意，SVC的AI歌手对原歌手以及词曲者都可能构成侵权。

“灰色地带”的阴影

版权争议是“AI歌手”面临的一个主要现实问题。

对于歌手本人和唱片公司来说，面对不间断输出的海量自制歌曲，进行授权或起诉索赔并不可行，最优的解决方案或许是将重点放在输入侧——让AI工具从预先授权的数据集中学习。这样唱片公司和出版商也有机会从中拓展营收，音乐版权也可能迎来一个新的商业模式。

这样的新商业模式并非空中楼阁。

根据近期报道，谷歌和环球音乐正在就授权AI使用艺人的声音和音乐来创作歌曲进行谈判。知情人士称，双方的讨论是围绕AI技术在音乐版权方面达成合作伙伴关系，希望开发一种工具，让广大粉丝可以合法地创作AI歌曲，向版权方付费，歌手们可以自由选择是否加入。目前磋商还处于早期阶段，暂时不会推出产品。此外据透露，华纳音乐也在与谷歌谈判中。

版权之外，声音合成还存在其他法律隐患。

声音具有强烈的人身属性，更是歌手赖以生存的根本。“声音保护”也被写入《民法典》，根据《民法典》第1023条相关规定：“对姓名等的许可使用，参照适用肖像许可使用的有关规定。对自然人声音的保护，参照适用肖像权保护的有关规定。”那么未经本人允许，通过SVC技术伪造声音，无疑是对其人身权益的损害。

UP主 @痕继痕迹表示，“技术也可能会被用于不好的用途，比如某流量演员自身台词功底很弱，通过换声把配音转变成自己的，或者以后某歌手的歌都不是自己唱的，而是别人唱完变声成自己的。”此外还可能伪造虚假的录音、言论，进行诈骗或者造谣诽谤他人——今年已有多起使用AI合成语音电诈的案例曝光。

法律和商业模式都是AI歌手发展过程中要过的关，但这并不影响其成为人工智能技术的一次重大应用。AI歌手正在不断拓展音乐创作的边界，为音乐文化注入无限的可能性。

相关资料：

咨询公司MIDiA今年5月发布了报告《AI and the future of music | The future is already here》，在这里提取几点关键信息，供大家参考。

• 音乐创作者中有一半人认为AI可以成为制作音乐的有用工具，四分之一的人对此持中立态度。

• AI将使音乐制作工具更普及，推动音乐产出实现量子飞跃。

• 随着AI加速音乐市场的过度饱和和高度碎片化，创作者和消费者之间界限的模糊，培养粉丝将成为最终的差异化因素。

• AI无需生成出色的音乐就能侵蚀主要唱片公司的市场份额，它只需要生成足够多的歌曲，每首歌曲都有一次播放。

• 随着创作者更多的使用AI工具，唱片公司将需要围绕艺人发展和吸引粉丝重新定位。

• 如果拥抱AI，录制音乐可能会出现一套全新的授权模式，从授权专有数据集到消费者创作工具。

原文地址：点击

(xxx)评论