萧源自凹非庙量子位|微信官方账号QbitAI
手动渲染一个3D动画小人做一套丝滑的动作需要多长时间?
现在给AI,打几个字就能搞定(
不同的颜色
颜色
代表不同的动作)
:
看向地面抓起高尔夫球杆,挥杆,小跑一会,蹲下。
之前AI控制的3D人体模型只能“一次做一个动作”或者“一次完成一个指令”,很难连续完成指令。
现在不用剪辑也不用剪辑,只要按顺序输入几个命令,3D人物就能自动完成每一组动作,整个过程丝滑无bug。
这个新人工智能的名字是TEACH,它来自马克斯普朗克研究所和古斯塔夫埃菲尔大学。
网友脑洞大开:
以后拍这样的3D动画电影,可以只用剧本吗?
显然游戏和模拟行业可以考虑一下。
那么,这样一个3D人物动作神器是怎么产生的呢?
使用编码器“记住”之前动作示教的架构,基于团队不久前提出的另一个3D人体运动生成框架TEMOS。
TEMOS基于Transformer架构设计,使用真实的人体运动数据进行训练。
它将在训练中使用两个
编码器分别是运动编码器。
和文本编码器。
同时,通过运动解码器。
输出。
但在使用时,会将原来的运动编码器“扔掉”,只保留文本编码器,这样模型直接输入文本后就可以输出相应的运动。
与其他输入单个文本并输出确定性动作的人工智能不同,TEMOS可以通过单个文本生成各种不同的人体运动。
例如,诸如“人圈”和“站起来走几步停下来”的单一指令可以产生几种不同的运动方式:
转身的方式和走路的步幅不一样。
TEACH的架构基于TEMOS设计,运动编码器直接从TEMOS搬过来。
但是,TEACH重新设计了文本编码器,包括一个名为Past Encoder的编码器,它会在每个动作生成时提供前一个动作的上下文,以增加动作之间的连贯性。
如果是一系列指令中的第一个动作,禁用Past Encoder。毕竟没有之前的动作可以学。
在巴别塔数据集上教火车,这是一个43小时的动态捕捉数据集,包括过渡动作,整体抽象动作,每一帧的具体动作。
训练时,巴别塔的这一系列动态捕捉数据会被切割成许多子集,每个子集都包含一些过渡动作,以便TEACH学习过渡并输出。
至于为什么不用另一个数据集套件进行训练,作者也给出了自己的看法。
比如在动词类型上,巴别塔比基特更具体。相比之下,KIT更喜欢用“模糊”的词do/perform。
研究人员比较了TEACH和TEMOS对连续动作生成的影响。
比TEMOS好。让我们来看看TEACH生成一系列动作的效果,这些动作不是连续重复的:
随后,研究人员比较了TEMOS和TEACH。
他们使用两种方法来训练TEMOS模型,并分别将其称为独立和联合。区别在于用于训练的数据。
其中,独立是由单个动作直接训练,前后动作通过对齐、球面线性插值等方式融合在一起。Joint直接把动作对和分离的语言标签作为输入。
Slerp是一种线性插值运算,主要用于表示旋转的两个四元数之间的平滑。
插入文字
,这样转换过程看起来更流畅。
以生成两个连续动作“挥右手,举左手”为例。
独立的表现最差,人物当场就坐;关节效果更好,但是角色不举左手;效果最好的是教,挥完右手,举起左手,最后放下。
在BABEL数据集上的测试表明,TEACH的生成误差最低,只是独立和联合的性能不是很好。
研究人员还测量了使用前一个动作的最佳帧数,并发现当使用前一个动作的5帧时
时,生成的过渡动作具有最佳效果。
本文介绍了马克斯普朗克的研究生尼科斯阿萨纳西乌。他的研究方向是多模态AI,喜欢探索人类动作和语言之间的关系。
马特罗维奇,在古斯塔夫埃菲尔大学。
博士,也在马克斯普朗克研究所工作,研究方向是基于标签或文字描述产生真实的、多样化的人体运动。
马克斯普朗克智能系统研究所所长迈克尔布莱克(Michael Black)在谷歌上引用了6.2万篇学术论文。
古尔瓦罗尔是古斯塔夫埃菲尔大学的助理教授。研究方向为计算机视觉、视频特征学习、人体运动分析等。
目前TEACH已经开源,感兴趣的朋友可以戳下面的地址体验一下~
GitHub地址:
https://github.com/athn-nik/teach
论文地址:
https://arxiv.org/abs/2209.04066
—结束—
量子qbitai头条号签约
关注我们,先时间了解前沿科技动态。