编辑: LRS
【新智元导读】一个深度相机就可以生成动态的3D模型。
运动中人的新视图合成是一个非常困难的计算机视觉问题。
从传统的2D图像转换到3 d模型是静态的,但是输入了人类运动的视频时
我该如何生成自由视角的视频?
解决了这个问题,通过ar/VR APP应用中的自动化就可以对虚拟化身进行建模。
目前的一些研究工作往往需要多种输入视频、三维监控、预训练模型等复杂的任务设置,这些苛刻的要求限制了模型的通用性,不能很好地推广到新用户的输入中。
为了解决这些限制,元提出了一种新的视图合成框架HVS-Net
从任何人那里
无法看到的视图
,来定义您自己的自订外观。 捕获视图只需要具有稀疏RGB-D的单个视图
传感器类似于低成本的深度照相机。
论文链接: https://www.phongnhhn.info/HVS _ net/img/HVS net.pdf
论文提出了基于球体( sphere-based )的学习框架
使用的神经渲染得到的新视图的稠密特征,使用全局上下文绘制模型绘制完整的渲染图。
它还包括一个名为“增强网络”的扩展网络
使用整体保真度,即使在原始视图的遮挡区域中
以生成具有精细细节的清晰渲染。
实验结果表明,该方法输入到单个稀疏的RGB-D
的情况下,也可以生成高质量的合成和真正的人的新视图
然后,可以泛化为从未见过的新人物
新的姿势
忠实地重建表情。
该方法不仅优于传统的人视图合成方法,而且对不同稀疏度的输入具有鲁棒性。
一键生成虚拟头像刚体( rigid objects )和动态场景的新视图合成是最近非常活跃的研究课题,在各种任务中得到了很大的性能提高。
然而,要合成运动中人的新视图,必须处理具有各种变形的动态场景
方法,特别是在脸部和衣服等具有细小细节的领域。
此外,典型的动态合成模型通常依赖于多视图输入,需要使用多个摄像机进行拍摄
更多相机参数
推理时间
最长(每帧可能需要几分钟
请参阅。
Meta提出的人类新视图合成网络HVS-Net
一个消费者级别的RGB-D传感器就可以制造出高保真度的服装人
中选择所需的族。
网络有以下五个设计目标
:
1、测试时对新人
进行泛化
不需要再训练;
2、能够处理训练集中不包含的新姿态
;
3、既被物体屏蔽,也被人物自身屏蔽
、模型均可处理;
4、能捕捉表情
;
5、给出单个流、稀疏的RGB-D输入
可以实时生成高保真度的图像。
HVS-Net输入人上半身的单稀疏RGB-D图像和目标摄像机姿态,从目标视角生成高分辨率的渲染。
与以前的方法相比,第一个重要的区别是HVS-Net利用深度作为附加输入
流动。
虽然输入深度稀疏且有噪波,但模型可以利用输入视图中的信息,从而简化新视图的合并。
为了说明输入的稀疏性,研究者选择了基于球体的神经渲染器。 与简单地从一个视图向另一个视图进行几何扭曲相比,渲染器使用可学习半径创建更密集的扭曲图像。
当从一个视点观看两个相邻像素时,即使在原始传感器中正确观察的像素也是稀疏的,它们之间差异如何,只能获得各自深度的信号。
即,从侧面观察时
中选择所需的族。 两个像素的深度差异更大,但这些“间距”不是无限大的,因此基于球形的渲染器可以解决此问题。
考虑到原始视点的每像素深度和相机参数,这些点自然会投影到新视图上。 因此,使用基于深度的扭曲或微分点或球体的渲染器是开发视图合成的第一步。 投影的过程可以自动纠正错误
(传感器的噪声除外)且不受训练误差的影响。
视图合成模型生成目标视图的密集特征,并使用全局上下文绘制网络从目标摄影机视图渲染结果RGB图像。
通过结合编码器-解码器体系结构进行端到端训练,该方法可以合成从未见过的个人的新视图,并在主输入视图中绘制不可见的区域。
此方法在最小遮挡下效果良好,但如果存在严重遮挡,无论人手在身体前面移动还是拿着某个物体,都很难进行高质量的渲染。
因此,建议用户追加输入无遮挡的图像
,通过在两个输入之间建立精确稠密的对应关系,将其扭曲为目标的新视图。
训练紧凑的增强器网络以完成最初估计的新视图,并预测新视图与无遮挡图像之间的对应关系
使用新的HD-IUV模块细化渲染图
可以得出更清晰的结果。
然后,利用生成的图像和ground-truth数据对之间的光度( photometric )损失,对整个pipeline进行端到端训练
此外,模型还使用立体渲染来鼓励近距离视点之间的视图一致性结果。
为了更好地训练HVS-Net,必须依赖高质量合成的人类扫描结果
,从不同的角度捕捉动画和渲染。
这项工作的重要贡献之一是能够将模型很好地推广到3DMD扫描系统拍摄的实际数据中,脸部和衣服细节的复原水平比以往任何时候都要高。
在实验部分,研究者只使用了合成数据集RenderPeople
训练该方法后发现,数据集内的人物穿着各种各样的服装,有时还拿着杯子、袋子、手机等物体,涵盖了各种外观与物体的交互,但由于这些数据都是静态的,姿态空间覆盖率不够高
研究人员通过引入额外的姿态变化
扩展数据集。 这意味着对所有网格执行非刚性配准,然后使用一组预定义的动作进行动画设置。
最后使用Blender每帧25个视图
将高质量的标准RGB-D渲染图与对应的IUV图结合。
除了合成测试集外,研究人员还收集了现实世界的测试数据集
其中包括运动中人物的3dMD 4D扫描图像。 3dMD 4D扫描仪是全身扫描仪,可以捕捉在60Hz频率下未对准的体积的点云。
实际数据集仅用作测试,了解如何处理合成数据和实际数据之间的区域间隙的能力。
3dMD的数据不包括物体的相互作用,但一般情况下噪声多,表情复杂。
实验结果证实了球体半径预测器在HVS-Net中的有效性,使得模型在输入点云密度方面更加稳健。
相比之下,尽管使用密集的深度图作为LookingGood的输入,但如果目标姿态和输入视点有很大偏差,用这种方法很难得到真正的结果,SynSin不仅在遮挡区域,在人的脖子周围也产生了假象
相比之下,HVS-Net方法不仅可以提供可靠、真实的新视图,还可以创建忠实于输入视图的视图。 重要的是,HVS-Net在输入信息少的情况下
对两个主体的头发进行相当准确的预测。
参考资料: https://www.Reddit.com/r/machine learning/comments/xmpv 89/r _ meta _ researchers _ generate _ realistic _ re