三秒钟！百度可以完美复制你的声音。

其他教程
22年12月19日
编辑

剪映教学站

百度研究院昨天宣布，他们的智能系统——Deep Voice已经学会了通过3秒钟的录音样本数据可以完美模仿人声。

简而言之，Deep Voice是由百度AI研究院深度神经网络构建的高质量语音旋转( TTS )系统。该系统不仅是提高仿真的时间，百度还优化了其错误概率。即使是单个GPU服务器，估计规模也从提高每天达到1000万次以上。 Deep Voice注意力序列模型的详细体系结构如上图所示。

值得一提的是，Deep Voice在2023年初发布了第一版。初版系统可以模拟初短语句。另外，说话几乎分辨不出和人类的区别。听起来像牛x，但不幸的是，该系统一次只能模拟一个人的声音，需要学习录音素材的数据好几个小时。

去年5月发布的DeepVoice第2版将这个学习过程缩短到了90分钟。在去年10月发布的第三版中，这个时间缩短到了30分钟，没想到昨天更新的版本把这个时间压缩到了3秒。

很多人都很好奇像DeepVoic这样的技术会给我们的生活带来什么样的变化。在医疗方面，这种语音克隆技术可以帮助语言障碍的患者通过一些学习失声。

在游戏中，可以将该技术应用到游戏角色中，让主人公拥有与自己相同的声音，获得更加沉浸的用户体验。

当然，也用于苹果的Siri、谷歌助手、亚马逊的Alexa等个性化“数字助手”:百度之华语数字助手平台DuerOS (目前

DeepVoic也可以成为娱乐业和社交媒体中有趣的“玩具”，用户可以用他们不喜欢或喜欢的大嗓门制作恶搞配音短片。

当然，百度并不是唯一用AI克隆人声的公司。谷歌的DeepMind部门也有一个名为WaveNet的类似项目。 WaveNet的最新版本也能产生人类特有的“唇音”，该系统目前正在谷歌助手的英语版和日语版中使用。此外，Adobe还将推出一款名为Project VoCo的类似软件，该软件可在20分钟内掌握模仿的人声。

目前，克隆人声音的重大突破也引起了网络的热议。大多数人都说这个AI克隆人的声音太真实了，真的很担心。人们担心人工智能可能会降低现实生活中语音身份的安全系数。对于这种DeepVoic之类的声音克隆技术，你有什么看法？

{{userData.name}}已认证

三秒钟！百度可以完美复制你的声音。

哪个3D建模软件好用？

3d虚拟试衣软件的痛点，3d 虚拟试衣时代已经来了你试了吗

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#