岳槐源于凹非寺
量子出品|公众号QbitAI
《摩登原始人》你看过吗?
这是暴露年龄的问题。
安妮,《摩登原始人》是1960年第一部播放的喜剧动画。 第一季通过豆瓣为2.2万名用户给出了8.7分的评价。
现在,这部想象力爆发的动画被用来训练想象力的AI。 有多厉害? 看过的人都是鹅妹妹漱口~
只要给出脚本,或者文本的说明,AI就可以脑补生成动画的小片。 小心! 这些动画小片是你从未见过的新版本。
生成方法是AI根据描述从原始动画中找到对应的元素,并提取出来。 之后,调整大小、比例、位置、角度、工具、前景、背景等,重新连接~
来吧,直接看展示。
坦白说,Fred、Wilma等是这部动画的主人公的名字。
脚本:
弗雷德戴着红帽子,走在客厅里。
这是AI生成的视频:
脚本:
Betty和Wilma在客厅聊天。 她俩坐在沙发上,一句话也不说两句话。
视频:
脚本:
弗雷德在开车的路上,一边思考着一边自言自语。
视频:
脚本:
贝蒂在厨房打电话。
视频:
怎么样? 很厉害吗?
下一个视频将有更多的集中展示。
数据集和模型AI是怎么做的呢? 简单来说,首先必须构建《摩登原始人》的数据集。 此数据集包含25000个动画的简短部分( 75帧,约3秒)。
所有的短部分都被标记为密集。
标记信息包括场景、主要角色的名称: Fred、Wilma等。 不常出现的配角有时会人工添加简单的注释,例如警察、穿着红色衣服的老人等。
然后,用SLIC算法( simplelineariterativeclustering )、GrabCut自动图像分割算法、PatchMatch算法等分割重构画面。
经过这一系列的处理,构成了AI可以使用的原始素材。
当然重要的是AI模型的构建。
这个模型被称为概念和功能网络( craft )。 从结构上看,该模型的长度如下:
主要包括Layout Composer、Entity Retriever和Background Retriever三个部分。
“脑补”动画小片时,Craft从空白视频开始,根据脚本的记述,依次添加场景中的实体。 实体和背景搜索器从数据集中搜索适当的素材,然后布局配置文件调整位置和比例。
最终它们融合在一起,生成全新的小片。
上图是布局规划器的工作原理。
当然其中也包括很多数学公式和实验等。 如果你对这些细节感兴趣,可以直接去论文看看。
地址: https://arxiv.org/abs/1804.03608
该研究出自AI2、UIUC等机构的若干学者之手。
当然还不完美,但在现阶段,这项研究并不完美。
例如,画面重建还很粗糙,瓷砖的痕迹清晰可见。
另外,AI可能会在脚本的理解和视频的重构上出现问题。
例如,姿势错误(站着-坐下)、打电话时听筒的位置不同、背景和人物的动作不同步等。 也有以下情况。
剧本: Wilma在和Fred说话,他正坐在食堂的餐桌前看书。 弗雷德专心读书,没听Wilma在说什么。
仔细一看,就知道两个人的人物关系相反。
还有更糟的事。
在包含三个以上罕见物体的极端复杂的场景中,Craft补充大脑的动画诈骗被称为“灾难”。
是这样的。
但该研究的意义在于AI对文本的理解,以及在此基础上的视频生成。 一切都有进步的余地。
再远一点,在未来的动画工作室里,可能会有能够快速生成动画的AI,而不是有很多天才的动画师。
结束了
认真招募
量子在招聘编辑/记者,工作地点在北京中关村。 期待有才气和热情的同学参加! 详情请在量子位公众号( QbitAI )的对话界面回复“招聘”两个字。
量子比特QbitAI 头条号合同作者
跟踪’ ‘ AI技术和产品新动态