如果有一天,机器合成的声音不再沮丧、冰冷,甚至有了语气和情感,你愿意多和它说话吗?在语音交互领域,语音合成是重要的一环,其技术也在不断发展。近年来,人们对情感合成和个性化合成的兴趣和需求越来越高。今天我们就来说说不断突破难点的情感语音合成技术,以及未来的愿景。
什么是情感合成?语音识别、语音合成和语音理解是语音交互中必不可少的环节。其中语音合成是把文字变成声音,声音是文字内容的信息载体。语音合成历史悠久,从80年代到90年代到现阶段,技术的迭代更新也越来越快。但一般来说,我们会在合成的数据中考虑对稳定性的追求,所以在情感和表达上不会太丰富。但近年来,人们对情感合成、个性化合成的兴趣和需求越来越高。
想象一下,如果我们能像真人一样和机器交流,它可以用平淡的声音,快乐的声音,悲伤的声音,甚至不同强度的不同情绪。这就是所谓的情感合成想要达到的效果。
情感合成作为一项技术,离不开神经网络的三大要素:算法、计算能力和数据。
但是在语音合成领域,计算能力其实并不是很重要,可以用一些GPU卡来解决计算能力的问题,所以我们需要把重点放在算法和数据上。
情感合成的实现技术:情感标签贴上情感标签(在原有网络的基础上增加一个情感标签),这些信息通过prenet引入注意力解码器。这样的情感信息自然会通过网络学习,在合成时,如果能赋予适当的情感标签,就能合成出具有一定情感表现力的声音。
扬声器嵌入使用扬声器嵌入到编码器中。也就是说,说话人嵌入是通过编码器从说话人的语音特征中获取,并将其结合到注意力网络中,达到不同说话人语音合成的效果。
风格嵌入通过稍微复杂的子网络实现风格嵌入,其整体核心框架也是Tacotron系列。该方法是在子网络中构建风格分类。嵌入风格分类后,将与前一文本的编码器结果一起添加到网络中。在推理中,通过控制风格来改变整体合成的效果。
声学特征说话人嵌入:除了文本特征,说话人嵌入通过查表完成,韵律嵌入通过频谱片段完成,最后三种嵌入结合起来作为影响整个系统的控制因素。
除了上面提到的情感嵌入、说话人嵌入、风格嵌入,还有一种VAE的方法。它通过一个独特的网络子网传递光谱的特征,在学习了这些特征之后,它将它们与文本特征一起输入到Attention的网络中(这里选择的是Tacotron2的网络)。
综上所述,网络主体基本上就是一个注意力机制的网络(比如Tacotron或者Tacotron2)。在这个主题之上,增加了一些功能,可以是各种标签作为输入。也相当于将风格、情绪等变量单独或组合引入整个系统。
在接下来的部分,我们重点讨论情感合成的数据问题、应用场景和技术前景。
文章部分来源:LiveVideoStack
暂无讨论,说说你的看法吧