《AI100 Q (77)》如何从声音判断人的情绪？

其他教程
22年8月25日
编辑

剪辑吧

人类的情感是神秘的东西。早在两千年前，亚里士多德就意识到了情感在社会交往中的作用。比如他认为在合适的场合能有点脾气的人是值得尊敬的，没有脾气的人是傻子。换句话说，情感本身就是一种智能。RosaPicard的书《Affective Computing》是情感计算的起点。皮卡尔认为，要想让计算机拥有通用的智能语音，实现与人的自然交互，它必须具备识别、理解、甚至拥有和表达情感的能力。到目前为止，让机器拥有情感仍然很难，但在交互中识别人的情感仍然是可能的。
图1:有幸福感的机器人[1]
目前，情感范畴的定义并不统一。语音家的代表是埃克曼的离散情绪理论，认为人类有六种基本情绪：愤怒、恐惧、厌恶、惊讶、快乐和悲伤。这些基本情绪是与生俱来的，与种族或文化无关。在这些基本情绪的基础上，按照一定的比例混合就可以衍生出其他的情绪[3]。
图2:由2:Ekman [3]定义的六种情绪
语音家有很多表达人的情绪的方式，包括语言、声音、面部表情、肢体动作等。都是表达情绪的渠道。在这些表达渠道中，声音在表达情感方面灵活自然，因此受到广泛关注。那么，如何让机器通过声音识别情感呢？传统的智能语音识别方法是基于特征提取和统计建模的基本框架。首先，从声音中提取与情感相关的特征，如发音能量、基频、共振峰位置、语速和停顿。语音质量的一些变化，如重音、沙哑、喘息、基频抖动等。也是极端情绪的表现。有了这些基本特征，通常需要对这些特征进行统计，以确定这些特征在句子中的分布，包括均值、方差等。有了这些统计数据，就可以建立分类模型来预测情绪。常用的统计模型包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)、神经网络(NN)等[4]。智能深度语音学习兴起后，基于深度神经网络的情感识别方法被广泛应用。图3是基于卷积神经网络(CNN)的情感识别系统。输入是语音信号，经过几次卷积和汇集运算，输出情感类别。实验结果表明，该方法在包含10个说话人的五种情绪的数据库上可以获得40%的正确率。
图3: 5种基于深度卷积网络的情感识别系统[2]
虽然已经取得了一些进展，但情感识别仍然是一项艰巨的任务。一方面，情感本身的定义比较模糊。对一个人来说，愤怒或悲伤的声音对另一个人来说可能没什么感觉；同时，情感数据的获取依然困难，大部分由专业演员模拟，真实性有待提高。现在人们倾向于认为，如果综合利用视频、音频和发音内容信息，有望显著提高情感识别的性能。语音之家帮助人工智能语音开发者社区

{{userData.name}}已认证

《AI100 Q (77)》如何从声音判断人的情绪？

2022年qs排名(2022年QS世界大学排名榜单)

视频配音自己的声音(九锤配音破解版下载)

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#