《AI100 Q (77)》如何从声音判断人的情绪?

人类的情感是神秘的东西。早在两千年前,亚里士多德就意识到了情感在社会交往中的作用。比如他认为在合适的场合能有点脾气的人是值得尊敬的,没有脾气的人是傻子。换句话说,情感本身就是一种智能。RosaPicard的书《Affective Computing》是情感计算的起点。皮卡尔认为,要想让计算机拥有通用的智能语音,实现与人的自然交互,它必须具备识别、理解、甚至拥有和表达情感的能力。到目前为止,让机器拥有情感仍然很难,但在交互中识别人的情感仍然是可能的。
图1:有幸福感的机器人[1]
目前,情感范畴的定义并不统一。语音家的代表是埃克曼的离散情绪理论,认为人类有六种基本情绪:愤怒、恐惧、厌恶、惊讶、快乐和悲伤。这些基本情绪是与生俱来的,与种族或文化无关。在这些基本情绪的基础上,按照一定的比例混合就可以衍生出其他的情绪[3]。
图2:由2:Ekman [3]定义的六种情绪
语音家有很多表达人的情绪的方式,包括语言、声音、面部表情、肢体动作等。都是表达情绪的渠道。在这些表达渠道中,声音在表达情感方面灵活自然,因此受到广泛关注。那么,如何让机器通过声音识别情感呢?传统的智能语音识别方法是基于特征提取和统计建模的基本框架。首先,从声音中提取与情感相关的特征,如发音能量、基频、共振峰位置、语速和停顿。语音质量的一些变化,如重音、沙哑、喘息、基频抖动等。也是极端情绪的表现。有了这些基本特征,通常需要对这些特征进行统计,以确定这些特征在句子中的分布,包括均值、方差等。有了这些统计数据,就可以建立分类模型来预测情绪。常用的统计模型包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)、神经网络(NN)等[4]。智能深度语音学习兴起后,基于深度神经网络的情感识别方法被广泛应用。图3是基于卷积神经网络(CNN)的情感识别系统。输入是语音信号,经过几次卷积和汇集运算,输出情感类别。实验结果表明,该方法在包含10个说话人的五种情绪的数据库上可以获得40%的正确率。
图3: 5种基于深度卷积网络的情感识别系统[2]
虽然已经取得了一些进展,但情感识别仍然是一项艰巨的任务。一方面,情感本身的定义比较模糊。对一个人来说,愤怒或悲伤的声音对另一个人来说可能没什么感觉;同时,情感数据的获取依然困难,大部分由专业演员模拟,真实性有待提高。现在人们倾向于认为,如果综合利用视频、音频和发音内容信息,有望显著提高情感识别的性能。语音之家帮助人工智能语音开发者社区

其他教程

2022年qs排名(2022年QS世界大学排名榜单)

2022-8-25 13:55:49

其他教程

视频配音自己的声音(九锤配音破解版下载)

2022-8-25 13:57:51

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索