数字黑科技一应俱全,视频几分钟就能重现。由中科大等机构制作。

《机器之心》专栏作者:高
你准备好迎接与数字人共存的赛博朋克世界了吗?
作为未来虚拟世界诸多应用的中坚力量,如何创造逼真的虚拟数字人一直是计算机视觉、计算机图形学、多媒体等人工智能相关学科密切关注的重要研究课题。近日,由中国科学技术大学、浙江大学、清华大学联合研发的AD-NeRF技术引起了学术界和业界的关注。中国科学技术大学张居勇课题组等研究人员。提出了一种基于最近火灾的神经辐射场从语音信号直接生成说话人视频的算法。只需要目标人物几分钟的语音视频,这种方法可以实现人物的超逼真图像再现和语音驱动。地址:https://arxiv.org/pdf/2103.11078.pdf项目地址:https://yudongguo.github.io/ADNeRF/“让虚拟人构建触手可及”随着人工智能技术的稳步发展,改造和探索新技术在社会中的实际应用已经成为学术界和工业界的普遍共识。在这个过程中,“数字虚拟人”无疑是主流视野中一个非常“抢眼”的概念。根据目标人物的最终呈现,数字虚拟人可以分为2D和3D类型,或者动漫、拟人和真人。2021年春晚,洛天依这个虚拟偶像首次出现在全国家庭团聚的电视晚会舞台上。三月、三月,央视打造的数字虚拟记者“小C”承担了与NPC代表实时连线的任务,用生动的人物形象播报政策新闻。
从上到下,他们是三星虚拟数字人霓虹,虚拟偶像洛天依和电影人物阿丽塔。据爱奇艺早前发布的《2019 虚拟偶像观察报告》显示,如今中国至少有3.9亿人在关注虚拟偶像。至少有上万名数字虚拟人主播活跃在Tik Tok、Aauto Quicker、b站等短视频平台上,不仅在泛娱乐领域,数字虚拟人还为其他一系列社交应用提供了广阔的想象空间:虚拟医生、虚拟老师、虚拟客服、虚拟导购等等。作为人机交互的重要媒介,如何高效地构建逼真的虚拟人外貌图像、自然的举止和动作一直是该领域的研究热点。其中,基于传统的计算机图形学和动画技术,构造生动逼真的虚拟人行为(如与语音内容相匹配的口型和表情等。)需要专业且复杂的人工工作,极大地限制了虚拟数字人的广泛应用。近年来,基于深度学习方法的虚拟人构建技术取得了很好的突破。然而,在现有的基于学习的方法中,无论是基于图像的GAN方法还是基于三维人脸重建模型的人脸编辑-渲染方法,都存在依赖大量训练数据、生成结果质量差等问题。以2017年Suwajanakorn等人提出的SynthesizingObama作品为例,为了实现对奥巴马单个角色的语音驱动,该方法使用了奥巴马本人长达14小时的视频训练数据,以保证最终良好的图像和视频效果。但是很多基于GAN的人脸语音驱动受到GAN模型本身训练复杂度的限制,通常只能输出分辨率为256×256的视频结果。
基于GAN的方法生成的图像分辨率较低,而基于神经辐射场绘制的AD-NeRF支持任意分辨率的绘制。在AD-NeRF方法中,只需要目标角色三到五分钟的语音视频,就可以实现任何声音驱动角色的效果。不仅如此,生成的结果具有高清的图像质量和自然的面部表情,远远优于以往的方法。这种“价廉物美”的方法只需要少量的训练数据就能生成高质量的最终结果,这无疑为创建虚拟人图像提供了一个强大而便捷的工具。变脸魔术是怎么做到的?下图显示了AD-NeRF的算法流程框架:
(1)从语音到动态神经辐射场的跨模态映射:为了刻画说话人面部、躯干和背景的高质量细节和动态,作者将DeepSpeech的语音特征与最新的神经辐射场方法(NeRF)相结合,即建模一个隐函数F,其输入包括假设的摄像机位置、视线方向和相应的语音特征,输出沿每条射线的连续点的颜色和密度值。通过沿射线积分,确定射线。(2)完整稳定的头躯干合成:针对人类说话过程中面部和躯干运动不完全统一的现象,作者将原有的神经辐射场模型拆分为两个各有分工的隐式模型。首先,他们对训练数据中的每幅图像进行语义分割,其中人脸部分使用多帧连续光流估计三维运动参数,直接转换为假设的摄像机外部参数,用于训练人头部的神经辐射场。身体模块基于头部模型,使用头部运动参数作为附加条件信息来控制身体部位的建模。这种设计的明显好处是解决了头身姿势不一致造成的抖动效应:
(3)支持背景和视角的编辑:由于神经辐射场所描绘的隐含三维信息,作者进一步探索了任意替换背景和改变观察角度的后续应用。为了实现这些应用,我们只需要输入测试音频,并改变假设的相机参数和背景图片。这些应用的例子可以在下图中找到:
AD-NeRF带来了哪些可能性?曾几何时,数字人是科幻电影钟爱的赛博朋克题材;如今,随着数字虚拟人创作技术的迭代更新,这种未来主义的概念正以前所未有的速度进入寻常百姓家。那么,AD-NeRF会给哪些实际的虚拟人应用带来技术上的可能性呢?首先,在视频会议领域,如前文所示,AD-NeRF可以轻松支持任何人物形象的语音驱动。对于具有大带宽需求的视频会议应用,可能不再需要实时传输视频编解码器信号,而只需要音频信号来驱动说话者本人的虚拟图像。AD-NeRF支持的背景替换和姿态编辑,配合AR头盔等设备,可以让你身临其境,在一个可以随意营造的三维场景中与对方对话。其次,因为AD-NeRF只需要几分钟的视频就可以训练出特定角色的动态辐射场。如果你想留下一张至亲好友的数码影像,并且可以随时和他面对面交流,那么AD-NeRF的算法设计会大大简化这张数码影像的制作难度。3354永远生活在网络空间可能不再是梦想。最后,AD-NeRF无疑具有极大的潜力来改善当前的商业数字虚拟人构建过程。无论是打造一个逼真的虚拟主播,一个善良的虚拟导购,还是一个认真的虚拟老师等等。AD-NeRF可以“得心应手”。只需要一个有表现力的演员录制一段语音视频,剩下的就可以交给自动化的语音驱动技术,在商业创新中有非常广阔的应用前景。在强大的技术赋能下,另一方面,较低的门槛和数据需求也使得数字虚拟人的创建面临诸多风险和争议。比如利用虚假数字图像窃取他人财物或者伪造视频传播虚假消息,甚至故意贬损他人,侮辱人格。去年,DeepFake、Zao等一系列AI变脸应用引发了全社会基于道德和隐私的广泛讨论。相应的,学术界也诞生了一系列以DeepForensics为主题的变脸检测研究。现在从应用层面来说,AD-NeRF采用了更先进的底层算法,即通过神经辐射场隐式建模三维运动细节,渲染出完整逼真的画面帧,这也对真假人脸视频的判别和检测提出了更有价值的挑战。“魔高一尺,道高一丈”。出于安全和隐私保护的需要,更强大的防伪和检测算法势必会成为未来与虚拟人技术共同竞争和发展的双星。从公平正义的角度来看,虚拟人这种数字化时代的产物,也需要受到法律法规和行业规范的约束。相信在未来,虚拟数字人将成为智能、便捷、可靠的代名词,为改善这个世界的信息交流和人际互动提供更大的帮助。

其他教程

直击俄乌冲突前线城市哈尔科夫:爆炸持续了9个小时,街上弥漫着烟味。

2022-9-2 7:30:18

其他教程

配乐诗朗诵当我们老了(配乐诗)

2022-9-2 7:32:28

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索