谷歌发布的一款人工智能可以使用不同的音乐生成不同的3D舞蹈视频。舞蹈是一种几乎可以在所有文化中找到的通用语言,也是当今许多人在当代媒体平台上表达自己的一种方式。通过结合与音乐节奏相一致的运动模式来提高跳舞的能力是人类行为的一个基本方面。然而,舞蹈是一种需要练习的艺术形式。事实上,通常需要专业的训练来为舞者配备丰富的舞蹈动作,以创造富有表现力的编舞。虽然这个过程对人来说很难,但对机器学习(ML)模型来说更具挑战性,因为这个任务需要能够产生具有高运动学复杂度的连续运动,并捕捉运动与运动之间的非线性关系。
在ICCV 2021年发表的《AI编舞:用AIST进行音乐调节的3D舞蹈生成》中,谷歌提出了一种全注意力跨模态转换器(FACT)模型,可以模仿和理解舞蹈动作,甚至增强一个人的编舞能力。与该模型一起,谷歌发布了大规模多模态3D舞蹈动作数据集AIST,其中包含1408个序列中5.2小时的3D舞蹈动作,涵盖10种舞蹈类型,每种类型都包括已知相机姿势的多视角视频。通过对AIST的广泛用户研究,谷歌发现事实模型在定性和定量方面都优于最新最先进的方法。
谷歌提出了一种新颖的全注意力跨模态转换器(FACT)网络,它可以根据音乐和新的3D舞蹈数据集AIST(左)生成逼真的3D舞蹈动作(右)。谷歌从现有的AIST舞蹈视频数据库生成建议的3D运动数据集——,该数据库是一组带有音乐伴奏的舞蹈视频,但是没有任何3D信息。AIST包含10种舞蹈流派:老派(霹雳舞、流行乐、洛克舞和回力舞)和新派(中嘻哈、洛杉矶风格嘻哈、豪斯、Krump、街头爵士和芭蕾爵士)。虽然它包含了舞者的多视角视频,但这些摄像机并没有经过校准。
根据Google广泛使用的SMPL三维模型中的参数,恢复摄像机标定参数和三维人体运动。生成的数据库AIST是一个大规模的3D人体舞蹈动作数据集,包含各种与音乐相匹配的3D动作。每一帧包含大量的评论:9个内部和外部摄像头视图;7 COCO格式的2D和3D人体关节位;24 SMPL姿态参数和全局缩放和平移。动作均匀分布在所有10个舞种中,涵盖了每分钟节拍数(BPM)的各种音乐节奏。每个舞种包含85%的基本动作和15%的高级动作(较长的编舞由舞者自由设计)。AIST数据集还包含多视点同步图像数据,可用于其他研究方向,如2D/3D姿态估计。据谷歌所知,AIST是最大的3D人类舞蹈数据集,包含1408个序列,30个主题和10个舞蹈流派,拥有基础和高级编舞。
AIST数据集中3D舞蹈序列的例子。左:来自AIST舞蹈视频数据库的舞蹈视频三视图。右图:在3D网格(顶部)和骨架(底部)中可视化的重建3D运动。因为AIST是一个教学数据库,里面记录了很多舞者根据同一个编舞,对不同的音乐有不同的BPM,这是舞蹈中常见的做法。因为模型需要学习音频和运动之间的一对多映射,所以它在跨模态序列到序列生成方面提出了独特的挑战。在谷歌AIST上精心构建了非重叠的训练和测试子集,以确保子集之间不共享舞蹈和音乐。
全注意力跨模态转换器(fact)模型使用这些数据,谷歌训练FACT模型从音乐中生成3D舞蹈。首先,该模型使用单独的运动和音频转换器来编码种子运动和音频输入。然后,嵌入内容被连接并发送到跨模式转换器,该转换器学习两种模式之间的对应关系并生成N个未来运动序列。然后使用这些序列以自我监控的方式训练模型。这三个变形金刚是端对端一起学的。在测试过程中,谷歌将这一模型应用于自回归框架,其中预测的运动被用作下一步的输入。因此,事实模型可以逐帧生成长距离舞蹈动作。
事实网络接收音乐作品(Y)和2秒种子运动序列(X),然后生成与输入音乐相关的长期未来运动。FACT涉及三个关键的设计选择,它们对于从音乐中产生逼真的3D舞蹈动作至关重要。所有转换器都使用完全注意屏蔽,这比典型的因果模型更具表现力,因为内部令牌可以访问所有输入。训练谷歌模型预测当前输入之外的N个未来,而不仅仅是下一个动作。这鼓励网络更多地关注时间上下文,并且有助于防止模型在几个生成步骤之后冻结或发散。早期,Google合并了两个嵌入(运动和音频),采用了深度12层跨模态转换器模块,这对于训练一个真正关注输入音乐的模型是必不可少的。
谷歌根据三个指标评估表演运动质量:谷歌计算AIST测试集中真实舞蹈运动序列与40个模型生成的运动序列之间的弗雷歇起始距离(FID),每个模型有1200帧(20秒)。Google将基于几何特征和动态特征的FID分别表示为FID g和FID k。生成多样性:与之前的工作类似,为了评估模型生成潜水员舞蹈动作的能力,Google在AIST测试集上计算了40个生成动作的特征空间中的平均欧氏距离,并再次将几何特征空间(Dist g)与动态特征空间(Dist k)进行比较。
四个不同的编舞(右)使用不同的音乐生成,但相同的两秒种子运动(左)。音乐的流派有:霹雳舞、芭蕾爵士乐、Krump和中古嘻哈。种子运动来源于街舞。运动-音乐相关性:由于没有一个设计良好的指标来衡量输入音乐(音乐节拍)和生成的3D运动(运动节拍)之间的相关性,Google提出了一个新的指标,称为BeatAlign。
生成的舞蹈动作的移动速度(蓝色曲线)、移动节拍(绿色虚线)和音乐节拍(橙色虚线)。通过从运动速度曲线中找到局部最小值来提取运动节奏。
定量评估Google将FACT在每个指标上的表现与其他最先进的方法进行了比较。
与最近最先进的三种方法(李等,Dancenet和Dance Revolution)相比,FACT模型生成的动作更真实,与输入音乐的相关性更好,在不同音乐条件下更加多样化。*请注意,李等生成的运动是不连续的,这使得平均运动特征距离异常高。谷歌还通过用户研究从感知的角度评估了运动和音乐之间的相关性,其中要求每个参与者观看10个视频,展示一个谷歌结果和一个随机对应的结果,然后选择一个与音乐更同步的舞者。这项研究由30名参与者组成,范围从专业舞者到很少跳舞的人。与各基线相比,81%的人更喜欢FACT模型的输出而不是李等人的输出,71%的人更喜欢FACT而不是Dancenet,77%的人更喜欢Dance Revolution。有趣的是,75%的参与者更喜欢不成对的AIST舞蹈动作,而不是事实生成的动作,这并不奇怪,因为原始的舞蹈捕捉具有很强的表现力。
定性结果与以前的方法如DanceNet(左)和李进行了比较。艾尔。(中),FACT model(右)生成的3D舞蹈更真实,与输入音乐的相关性更好。
使用事实模型生成更多的3D舞蹈。
Google提出了一个模型,不仅可以学习音频-动作对应,还可以基于音乐生成高质量的3D动作序列。由于从音乐生成3D运动是一个新的研究领域,谷歌希望谷歌的工作将为未来的多模态音频到3D运动生成铺平道路。谷歌还发布了迄今为止最大的3D人类舞蹈数据集AIST。所提出的多视角、多流派、跨模态的三维运动数据集不仅可以帮助条件三维运动生成的研究,还可以帮助人类理解该研究。Google会在GitHub repository中发布代码,在这里发布训练好的模型。
虽然谷歌的结果为这个以音乐为条件的3D运动生成问题展示了一个有希望的方向,但仍有更多需要探索。首先,谷歌的方法是基于运动学的。谷歌没有考虑舞者和地板之间的身体互动。所以全局平移会导致伪影,比如脚滑,飘。其次,目前谷歌的模式是确定性的。探索如何为每首音乐生成多种逼真的舞蹈是一个令人兴奋的方向。
暂无讨论,说说你的看法吧