AI终于能生成流畅3D动作片了,不同动作衔接无bug,准确识别指令

萧源自凹非庙量子位|微信官方账号QbitAI

手动渲染一个3D动画小人做一套丝滑的动作需要多长时间?

现在给AI,打几个字就能搞定(

不同的颜色

颜色

代表不同的动作)

看向地面抓起高尔夫球杆,挥杆,小跑一会,蹲下。

之前AI控制的3D人体模型只能“一次做一个动作”或者“一次完成一个指令”,很难连续完成指令。

现在不用剪辑也不用剪辑,只要按顺序输入几个命令,3D人物就能自动完成每一组动作,整个过程丝滑无bug。

这个新人工智能的名字是TEACH,它来自马克斯普朗克研究所和古斯塔夫埃菲尔大学。

网友脑洞大开:

以后拍这样的3D动画电影,可以只用剧本吗?

显然游戏和模拟行业可以考虑一下。

那么,这样一个3D人物动作神器是怎么产生的呢?

使用编码器“记住”之前动作示教的架构,基于团队不久前提出的另一个3D人体运动生成框架TEMOS。

TEMOS基于Transformer架构设计,使用真实的人体运动数据进行训练。

它将在训练中使用两个

编码器分别是运动编码器。

和文本编码器。

同时,通过运动解码器。

输出。

但在使用时,会将原来的运动编码器“扔掉”,只保留文本编码器,这样模型直接输入文本后就可以输出相应的运动。

与其他输入单个文本并输出确定性动作的人工智能不同,TEMOS可以通过单个文本生成各种不同的人体运动。

例如,诸如“人圈”和“站起来走几步停下来”的单一指令可以产生几种不同的运动方式:

转身的方式和走路的步幅不一样。

TEACH的架构基于TEMOS设计,运动编码器直接从TEMOS搬过来。

但是,TEACH重新设计了文本编码器,包括一个名为Past Encoder的编码器,它会在每个动作生成时提供前一个动作的上下文,以增加动作之间的连贯性。

如果是一系列指令中的第一个动作,禁用Past Encoder。毕竟没有之前的动作可以学。

在巴别塔数据集上教火车,这是一个43小时的动态捕捉数据集,包括过渡动作,整体抽象动作,每一帧的具体动作。

训练时,巴别塔的这一系列动态捕捉数据会被切割成许多子集,每个子集都包含一些过渡动作,以便TEACH学习过渡并输出。

至于为什么不用另一个数据集套件进行训练,作者也给出了自己的看法。

比如在动词类型上,巴别塔比基特更具体。相比之下,KIT更喜欢用“模糊”的词do/perform。

研究人员比较了TEACH和TEMOS对连续动作生成的影响。

比TEMOS好。让我们来看看TEACH生成一系列动作的效果,这些动作不是连续重复的:

随后,研究人员比较了TEMOS和TEACH。

他们使用两种方法来训练TEMOS模型,并分别将其称为独立和联合。区别在于用于训练的数据。

其中,独立是由单个动作直接训练,前后动作通过对齐、球面线性插值等方式融合在一起。Joint直接把动作对和分离的语言标签作为输入。

Slerp是一种线性插值运算,主要用于表示旋转的两个四元数之间的平滑。

插入文字

,这样转换过程看起来更流畅。

以生成两个连续动作“挥右手,举左手”为例。

独立的表现最差,人物当场就坐;关节效果更好,但是角色不举左手;效果最好的是教,挥完右手,举起左手,最后放下。

在BABEL数据集上的测试表明,TEACH的生成误差最低,只是独立和联合的性能不是很好。

研究人员还测量了使用前一个动作的最佳帧数,并发现当使用前一个动作的5帧时

时,生成的过渡动作具有最佳效果。

本文介绍了马克斯普朗克的研究生尼科斯阿萨纳西乌。他的研究方向是多模态AI,喜欢探索人类动作和语言之间的关系。

马特罗维奇,在古斯塔夫埃菲尔大学。

博士,也在马克斯普朗克研究所工作,研究方向是基于标签或文字描述产生真实的、多样化的人体运动。

马克斯普朗克智能系统研究所所长迈克尔布莱克(Michael Black)在谷歌上引用了6.2万篇学术论文。

古尔瓦罗尔是古斯塔夫埃菲尔大学的助理教授。研究方向为计算机视觉、视频特征学习、人体运动分析等。

目前TEACH已经开源,感兴趣的朋友可以戳下面的地址体验一下~

GitHub地址:

https://github.com/athn-nik/teach

论文地址:

https://arxiv.org/abs/2209.04066

—结束—

量子qbitai头条号签约

关注我们,先时间了解前沿科技动态。

其他教程

ps印刷色值咋调整(ps图案填充可以更改颜色码)

2023-1-10 1:32:10

其他教程

2021年显示器选购指南:这几个参数你看懂了吗?

2023-1-10 1:34:14

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索