情感语音合成技术(语音合成原理分析)

其他教程
22年9月11日
编辑

剪辑吧

如果有一天，机器合成的声音不再沮丧、冰冷，甚至有了语气和情感，你愿意多和它说话吗？在语音交互领域，语音合成是重要的一环，其技术也在不断发展。近年来，人们对情感合成和个性化合成的兴趣和需求越来越高。今天我们就来说说不断突破难点的情感语音合成技术，以及未来的愿景。
什么是情感合成？语音识别、语音合成和语音理解是语音交互中必不可少的环节。其中语音合成是把文字变成声音，声音是文字内容的信息载体。语音合成历史悠久，从80年代到90年代到现阶段，技术的迭代更新也越来越快。但一般来说，我们会在合成的数据中考虑对稳定性的追求，所以在情感和表达上不会太丰富。但近年来，人们对情感合成、个性化合成的兴趣和需求越来越高。
想象一下，如果我们能像真人一样和机器交流，它可以用平淡的声音，快乐的声音，悲伤的声音，甚至不同强度的不同情绪。这就是所谓的情感合成想要达到的效果。
情感合成作为一项技术，离不开神经网络的三大要素：算法、计算能力和数据。
但是在语音合成领域，计算能力其实并不是很重要，可以用一些GPU卡来解决计算能力的问题，所以我们需要把重点放在算法和数据上。
情感合成的实现技术：情感标签贴上情感标签(在原有网络的基础上增加一个情感标签)，这些信息通过prenet引入注意力解码器。这样的情感信息自然会通过网络学习，在合成时，如果能赋予适当的情感标签，就能合成出具有一定情感表现力的声音。
扬声器嵌入使用扬声器嵌入到编码器中。也就是说，说话人嵌入是通过编码器从说话人的语音特征中获取，并将其结合到注意力网络中，达到不同说话人语音合成的效果。
风格嵌入通过稍微复杂的子网络实现风格嵌入，其整体核心框架也是Tacotron系列。该方法是在子网络中构建风格分类。嵌入风格分类后，将与前一文本的编码器结果一起添加到网络中。在推理中，通过控制风格来改变整体合成的效果。
声学特征说话人嵌入：除了文本特征，说话人嵌入通过查表完成，韵律嵌入通过频谱片段完成，最后三种嵌入结合起来作为影响整个系统的控制因素。
除了上面提到的情感嵌入、说话人嵌入、风格嵌入，还有一种VAE的方法。它通过一个独特的网络子网传递光谱的特征，在学习了这些特征之后，它将它们与文本特征一起输入到Attention的网络中(这里选择的是Tacotron2的网络)。
综上所述，网络主体基本上就是一个注意力机制的网络(比如Tacotron或者Tacotron2)。在这个主题之上，增加了一些功能，可以是各种标签作为输入。也相当于将风格、情绪等变量单独或组合引入整个系统。
在接下来的部分，我们重点讨论情感合成的数据问题、应用场景和技术前景。
文章部分来源：LiveVideoStack

{{userData.name}}已认证

情感语音合成技术(语音合成原理分析)

如果内部娱乐考古进入MV时期.

aseprite做动画(aseprite怎么做动画)

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#