虚拟人与我(虚拟人算法)

编辑导语:近年来,CG技术和人工智能技术的不断发展,催生了虚拟人的概念。虚拟人到底是什么?作者从身体、灵魂、世界和人体设计等方面对虚拟人进行了分析。让我们看一看。
关于虚拟人赛道产品的信息,请参考我的前两篇文章《虚拟人漫谈开拓:产品篇(上)格局与环境》和《虚拟人漫谈开拓:产品篇(下)产品与商业》。
01虚拟人,新技术下的创世神话想象你是一个创世神,负责创世的KPI。你想干嘛?
我觉得你大概应该先构思主角,再给主角扔个世界。
首先,主角是一个有大脑、躯干、四肢、眼睛、鼻子、嘴巴的生物。姑且称这种生物为“人”。
但这还不够。每个人都要加一点灵魂,有的更幽默,有的更稳重优雅,各有不同,会让他们多姿多彩。
最后,给他们一个世界,天空和大地,植被和海洋,还有一些可爱的小动物.这个创作任务的MVP快完成了。
在人类的童年时代,创世神话相对独立地出现在所有文明流域。在中国古代,盘古开天辟地,女娲从土中造人。《圣经》年,上帝用七天创造了世界,并在第六天创造了亚当和夏娃的故事.一直以来,人类都对自己的起源充满了好奇和想象。创世神话是人类浪漫探索自身起源的开始。
这种对自我的探索和向往,已经固化在我们的集体潜意识里。在科技发展的今天,我们逐渐尝试用科技来拟合一个“人”的诞生过程,这就是“虚拟人”的概念。
“虚拟人”不是常规意义上的有血有肉的人,而是生活在数字世界中,融合各种技术而形成的“人”。虚拟人概念的诞生是由于近年来CG技术和人工智能技术的不断发展。虚拟人是技术的综合体,是人类用技术来契合自己的浪漫探索和想象。
什么是虚拟人?什么是虚拟人?人们在理解一件事情的时候,往往喜欢先去探究它的概念。对于虚拟人的概念,许多组织试图给出它的定义或分类。比如有的认为可以分为虚拟人、数字人、数字虚拟人,有的认为可以分为meta hunman、AI being,等等。
我没那么权威,但我也想给虚拟人一个定义。这个定义是什么?那就是:当我提到“虚拟人”这个概念的时候,你想到了什么?答对了,就是那个虚拟人!
实际上,虚拟人本质上是对人类的模拟。解构“人”的概念有助于我们更好地认识虚拟人。如何赋予虚拟人更有价值的人生,或许可以从对“人”的探索开始。接下来,我们从一个“人”开始,看看一个人是由哪些关键部位构成的。想通了这一点,对于每一部分,我们再来说说虚拟人是如何通过各种技术贴合人类的。
03什么是“身体、灵魂”和“世界设计”?要解决这个问题,我先抛出一个我认知中的公式:
人=“肉体与灵魂”和“世界上的人”
还有身体和灵魂,精神和肉体,这是生命仅有的两部分。我想这个结论应该是大多数人都认可的。我这里说的身体可以翻译为body,主要是指我们自身“有形”的部分,包括我们的躯干、四肢、手脚,以及看得见的表情和动作。相比之下,soul可以翻译为soul,主要是指我们身上那些“看不见”的部分,比如我们的感知、意识、知识、感情等。
有了肉体和灵魂,我们可以说得到了一个“人”,但仅此还不够。马克思说,“人是一切社会关系的总和”。一个人的社交属性很重要,虚拟人也很重要。
至于虚拟人的社交属性,我也简单概括为两个方面:世界和人。代表世界的外部环境,虚拟人也需要生存空间和舞台,这是外界给TA的;人们应该代表内部环境。虚拟人也需要有社交属性,需要合适的外貌、技能、性格.这是TA对外界的回馈。
那么,以上四个要素是如何工作的,从技术角度又是如何实现的呢?请详细听我说。
1.从唯物主义的观点来看,身体是人类必不可少的一部分。在这里,我进一步把身体这个元素分为两个元素:静态和动态。
1)静态
指人的外貌。对于现实中的人来说,外貌与高、矮、胖、肤色、男女等等都是不同的。对于虚拟人,还增加了“画风”这个维度。虚拟人的外形可以包括二次元、3D、超现实甚至赛博朋克。目前,虚拟人的出现主要由美术设计师和3D建模师来实现。
2)动态
指人的行动。一般来说,人的动态分为三个主要部分:
这个对于真人和虚拟人来说都差不多(虚拟人暂时不涉及动耳动头皮这种高级艺术)。虚拟人的动态主要靠驾驶技术。目前主要有两种驾驶技术:实景驾驶和AI驾驶。
2.灵魂就像电影《心灵奇旅》一样,灵魂也是一个人的重要组成部分。对于虚拟人来说,灵魂主要是通过AI技术来创造的。在这里,我还把灵魂分成了几个要素:
1)感知
感知是人类最生物化的层面,主要和我们的五官有关。具体是指看、听、说三个部分,分别由眼、耳、口负责。结合AI能力,就是CV,ASR,TTS。
2)认知
认知是在感知的基础上进一步形成的思维能力。在这里,我进一步把认知能力分为两个方面,即理性认知能力和感性认知能力。其中,理性认知可进一步分为知识储备、理解和决策能力三个层次,对应AI中的KG、NLP和ML;感性认知主要指AI构建的情感识别功能。
3)创作
就像我们小学的时候,会学汉字,造句,然后写作文。创造是更高层次的智力活动。只有经过大量的学习,我们才能有效地创造。人是这样,虚拟人也是这样。虚拟人的创造主要依靠生成类的AI算法进行输出。
3.世界对于一个人来说,我们要给他一个世界,一个舞台,让这个人有一个全面展示自己的空间,虚拟人也是如此。这个世界是虚拟人生活的空间。关于世界,这里我也(强行)分成两个元素:
1)渲染
渲染就是让这个虚拟的“人”出现在我们面前。渲染技术分为离线渲染和实时渲染等。渲染技术的选择将直接影响虚拟人的渲染效果。你看的是4k还是1080p直接相关。渲染技术很大程度上决定了虚拟人表演的舞台效果。
2)终端
虚拟人没有物质实体。目前要用终端才能看到。现在,可以承载虚拟人终端的设备越来越多,移动终端、IoT、VRAR等都有很大的空间。未来,虚拟人技术也有可能真正与实体机器人结合,变成近乎“以假乱真”的智能体。
4.人设。我们总说明星是被陷害的,其实每个人都是被陷害的。在生活中,谁能一直保持自己是一个诚实坦率的真正的男孩/女孩?当我们面对家人朋友同事的时候,甚至会变成不同的人。对于虚拟人来说,也是如此,而且由于虚拟人还很“笨”,无法像真实精灵一样在多个设定间无缝切换。所以,对于每一个虚拟人来说,打造专属场景的专属设定是非常重要的。
个性就是品牌,IP等。在特定的场景中展现给社会和大众。良好的人格不仅需要恰当的外表风格和肢体动作,还需要恰当的知识储备、谈吐风格乃至创作风格。人设计不是一个技术概念,它更倾向于产品和运营。
运营一个好的IP虚拟人和经纪公司运营一个明星是一样甚至更难的,而IP运营感好的企业在虚拟人赛道甚至元宇宙时代脱颖而出的概率也很大。
以上,我已经解释了我自己对虚拟人定义的逻辑框架:
人=“肉体与灵魂”和“世界上的人”
它的逻辑脑图如下图所示。
接下来,按照这个逻辑,我简单展开,陈述一下相关的技术内容。
04身体“身体”被我进一步分为两个要素:静态和动态。静态是我们的外壳,包括头部、躯干、四肢等。动态是身体的动作,说话时的面部表情、口型等。
对于一个真实的人来说,这一切都是自然而美妙的。我们的身体是由母亲孕育的。人体内有无数的神经细胞控制着每一块肌肉的运动。身体和灵魂是一个有机的整体。但对于虚拟人来说,这一切并不那么自然,这一切都取决于人类的设计。其中,静态造型的诞生主要依靠各种造型手法;动态生成依赖于各种驱动技术。
对于虚拟人来说,要链接静态和动态,它们之间必要的桥梁是绑定。通过绑定身体的各个骨骼点,可以达到控制身体各个部位运动的目的,如下图所示:
1.静态形状的诞生主要依赖于各种建模技术,目前的建模方法主要有以下几种:
建模方法1: 3D软件建模
它是指用3D建模软件手工创建一个3D模型,手工制作耗时较长,但效果可控,是目前应用最广泛的建模方法。
常用的三维建模软件有很多,主要有以下几类:
传统3D建模:3Dmax、Maya、blender等雕刻软件;zbrush,blender和其他编程建模:胡迪尼和其他。其中传统3D软件主要负责制作低模型,雕刻软件可以辅助制作高模型。由于篇幅限制,我们在这里不展开太多。总之,低配模型的特点是人脸少,视觉效果一般,但占用计算资源少,运行速度快;高模式正好相反,人脸多,视觉效果好,但是占用资源多,容易卡顿。
下面这块砖很好的解释了高模和低模的区别(雕刻软件中的“雕”字,就是精细的雕刻出坑洞的细节,使其看起来更真实)。
在现代建模过程中,一般采用“烘焙”的方法。简单来说,底部结构是低模型,但是高模型粘贴在低模型的表面,类似于“披着羊皮的狼”,达到了很好的视觉效果和很快的运行速度。
手工建模的工作流程有很多,主要可以分为传统模型和下一代模型:
传统模式:一般的流程是先做一个低矮的模型,然后直接用手工画出纹理。结构材料和其他信息都是手工绘制的。这种方法只能做一个动漫模型,做不出特别精致的效果。次世代模式:一般的流程是先做一个低模型,然后用zbrush等软件雕刻成高模型,再把各个面的贴图分割开烤回去。因此,模型结构是低模型,上面的地图是在逼真的高模型中渲染的,因此它看起来既真实又无内存。次世代模式可以做出非常精致的模型。三维建模技术涉及计算机图形学、三维艺术等技术。由于篇幅和水平的限制,这里的描述比较简单。如果以后有更多的研究,我会做更详细的补充。休息一下:很多朋友应该听说过艺术生经常素描人体,会产生一些害羞的联想。但其实作为一个业余美术爱好者,我知道画人体真的很难。有三个主要困难:
人体真的很不规则。可以想象,你能看到的大部分物体都是比较有规律的。想想你周围的床、橱柜、桌子、椅子和长凳.为了工业设计和制造的方便,我们使用的大部分物体都是由立方体、圆柱体及其组合等基本图形演化而来的。然而人体是一个复杂的骨架,包裹着复杂的肌肉,既不方也不圆。即使是简单的手臂也包含着微弱的高度。人的动态是非常丰富的,一个人的身体活动是非常多变的,多变的身体活动带来肌肉的拉伸、挤压和复杂的透视。因此,要做出一个非常自然的虚拟人姿态是非常困难的,需要对每块肌肉及其联动的数据权重进行大量的微调,需要丰富的建模和绑定经验。对人的敏感度很高,就像画一棵树。我只要画一堆树叶,你完全可以管树叶和窗外的树是不是一模一样,只要你能看出来是树就行。人不是这样的。世界上有那么多人,却很难找到两个长得一模一样的人。人对人脸非常敏感,长得不像也能看清楚。所以一些高保真明星偶像的造型也需要很强的美术功底。建模方法2:仪器采集建模
与手工建模相比,仪器采集建模采用仪器扫描的方式进行建模。这种方法价格昂贵,目前一般用于影视特效制作等领域。仪器采集建模技术分为静态扫描建模和动态光场重建;
静态扫描模型技术是目前的主流,可以细分为结构光扫描重建和摄像机阵列扫描重建。动态光场重建技术是目前的重点发展方向。它不仅可以重建人的几何模型,还可以一次性获取人的模型的动态数据,高质量地再现人体在不同视角下的光影效果,视觉逼真度高。很多关于虚拟人的研究报告对以上两种技术都有详细的介绍,比如国海证券的《数字虚拟人——科技人文的交点,赋能产业的起点》中“图表:主要建模技术概述”就是很好的总结,有兴趣的读者可以去找找。
建模方法3:自动建模
自动化建模主要包括以下几种方式:
图像采集和建模:通过采集照片恢复人脸的三维结构。AI建模:通过AI算法直接生成人脸和人体的建模方法。目前自动建模技术还不是特别成熟,建模成果要想直接商业化还有很长的路要走。但这种技术会大大降低建模的人力成本和时间成本。目前有一些支持虚拟人创作的工具平台,比如英伟达的Omniverse Avatar,Epic Unreal的超能力创造者等。尤其是2022年6月,虚幻的超人类创造者最近发布了,效果惊人。
虽然这些平台的建模精度还不足以构建超高质量的模型,但可以大大降低虚拟人建模的成本,让普通人也能快速拥有自己的虚拟影像。随着技术的发展,自动建模的效果会越来越好。未来这种方法可能直接实现虚拟生命生产过程的自动化,与元宇宙入口、虚拟分身、千人千面等概念联系在一起,想象空间极大。
2.绑定技术是连接动态和静态链接的桥梁。简单来说,就是把完成的虚拟反派人物的关键位置标记出来,方便通过驱动关键点来驱动反派人物做出各种表情和姿势。关键点位于全身,如躯干、肘、腕、膝、踝等关节都是关键点;眼睑、嘴角、眉毛等脸部关键位置也要标注重点,让虚拟小人“很开心”。
我已经学会了简单的玛雅骨绑定自己。简而言之,身体部位的绑定过程如下:
创建骨骼(即制作简笔画)IK等方式将骨骼的联动(例如脚踝抬起时膝盖会自然弯曲)添加到蒙皮骨骼上(即虚拟人的“血肉”和“骨骼”的关键点会一一对应)并调整权重(这样虚拟人的肌肉在移动时会更自然地变形)。脸部的绑定过程和身体整体的绑定过程差不多,只是脸部需要人做出很多表情,比如眼皮,口型,口型。
随着技术的发展和工业流程的演进,装订技术也在朝着更便捷、更高效、更智能、边际成本更低的方向发展。请参见国海证券《数字虚拟人——科技人文的交点,赋能产业的起点》的“图表:装订环节的技术创新”。
3.动态完成以上两步后,我们就可以通过驾驶让虚拟人移动了。总体来说,虚拟人可以分为交互型和非交互型。
非互动型主要是通过设定预制动作让角色移动,类似于动画片的原理,无法实现实时互动。
交互式虚拟人是我们关注的焦点。交互式虚拟人需要依靠驱动技术来驱动动作、表情和口型,使虚拟人达到根据外界刺激进行反馈的效果。交互式数字人的驱动可分为传统驱动方式和智能驱动方式。
1)传统驾驶方法
可分为光学运动捕捉、惯性运动捕捉、轨道设备IK算法的运动捕捉等。目前光学运动捕捉和惯性运动捕捉占主导地位。传统的驾驶方式一般需要“真人抓捕设备”来驾驶,这种背景真人也被称为“中间的人”。
2)智能驾驶方法
智能驾驶是指通过人工智能技术驾驶虚拟人,如CV、ASR、TTS等。这种方式成本低,可以无限扩展,未来想象空间大。但是,现阶段AI技术有限。一般需要结合合适的场景,在更垂直的领域进行训练,才能达到商业可用的效果。
对于这一部分,我还参考了国海证券《数字虚拟人——科技人文的交点,赋能产业的起点》中的“图表:主要捕获技术特征对比”和“图表:主要驱动技术概述”。我觉得这份材料很多总结都很简洁到位,是非常好的参考资料。
05灵魂其实“灵魂”这个词只是用来表达“肉体和灵魂”这个概念的方便性。其实我想表达的是“心与意识”这样一个抽象的概念,对应的是身体的“物质性”。属于人类的“非物质”部分。我暂且称之为“灵魂”。我想分三个层次来介绍“灵魂”,即感知、认知和创造。虚拟人的“灵魂”主要依靠各种AI技术进行赋能。
1.感知感知是人类最具生物性的层面,主要与我们的五官有关,具体来说,三个部分:看、听、说;目前直接感知和嗅觉的技术还不成熟,也许未来的脑机接口、体感设备等技术会在这些方面有所突破。
虚拟人感知技术主要依靠人工智能。在感知层面,人工智能技术目前整体上已经成熟,短时间内很难在不成熟的部分取得重大突破。所以一般需要结合具体的场景,通过合理的产品设计和精细化的运营来达到可用性。
看:计算机视觉简历
计算机技术可以帮助虚拟人“看到”物体,并进行一些简单的分析。计算机技术在深度学习上主要依赖CNN网络,一般的技术应用都是CNN的变种。CV技术主要有以下应用。
1)分类
给定一幅输入图像,图像分类的任务旨在判断图像的类别,例如,检测照片中的主角是猫还是狗等。常用的分类网络有AlexNet、VGG-16/VGG-19、ResNet等。
2)检测
在图像分类的基础上,给出了图像中物体的包围盒。常见的对象检测算法包括:
基于候选区域的目标检测算法,如R-CNN、快速R-CNN、更快R-CNN等基于直接回归的目标检测算法:如YOLO、SSD等。3)细分
还可以进一步分为语义切分和实例切分,都可以理解为更精细的检测任务。常用的算法有Mask R-CNN等。
下图生动地展示了CV的几个关键任务,即:
CV技术有着广泛的应用,如人脸识别、姿态识别、障碍物识别等。这些具体的应用技术可以进一步与虚拟人赛道结合,满足虚拟人不同的应用场景。
听力:语音识别ASR
把听到的声音转换成语言的技术主要分为两部分:声音接收和声音识别。声音接收部分主要看硬件、环境、声源。一般来说,先进的收声设备,低噪音的环境,发音标准,音量适中的声源,会提高收声质量。
语音识别主要依靠机器学习、深度学习等AI技术,分为传统方法和端到端方法:
传统方法:首先,我们需要提取声音信息的特征,如MFCC、LPCC等。主要涉及信号处理的知识;提取特征后,利用HMM和语言模型得到识别结果。端到端模式:主要依靠深度学习技术。由于语音本身是序列式的(倒置的语音很难理解),语音识别主要依靠基于RNN的序列式深度学习模型,如由其衍生出的LSTM和GRU,来完成语音到文本的转换。跟大家讲:语音合成TTS
把文字转换成语音的技术就是TTS技术,TTS技术的目标是形成自然流畅优美的声音。
从技术角度来看,TTS系统主要分为前端系统和后端系统:前端系统负责对字符进行分析,形成“发音指南”,包括发音音素、连读、重音、停顿、复音发音等。每个单词。这个“发音指南”就像一个发音“指令”,会传递到后端。
后端系统负责根据前端生成的“发音指令”合成声音。目前后端合成技术主要有两类,即“拼接法”和“参数法”。
拼接方法:首先由真人录制声音,然后根据“说明书”拼接出需要的声音片段。这种方法的优点是声音本身自然优美,缺点是人工成本高,流畅度容易出问题。参数法:用声音信号的参数,如基频、频谱等来表示声音,在《声音手册》中找出每个音素的“参数”,合成相应的声音;参数法的优点是成本低,缺点是机械感明显,不自然。但是随着技术的发展,这种方法的效果会越来越好,应用范围也会越来越广。目前主流的参数化方法一般采用端到端的方法,如Tacotron2、WaveNet等。
2.认知认知是在感知的基础上进一步形成的思维能力。在这里,我进一步把认知能力分为两个方面,即理性认知能力和感性情感识别能力。
理性认知能力
1)知识:知识图谱KG
知识主要依靠知识地图技术。知识地图是知识形成的三位一体。
实体-关系-实体
核心逻辑图,如以中国城市为主题的逻辑图,有以下几种形式:
其中中国,北京,辽宁,沈阳等等都是实体,作为直辖市,一个省,一个省会等等都是有关系的。
知识图谱可以用在任何知识领域,比如金融行业有银行理财知识图谱、保险知识图谱等等;农业领域包括动植物知识图谱、作物知识图谱等。好的知识图谱是逻辑清晰的知识宝库。
知识图谱可以以图形数据库、三元数据库等形式存储。如果把知识图谱“喂”给一个虚拟人,虚拟人就会有丰富的这方面的知识。例如,由银行引导的虚拟人
知识图谱可以快速赋予虚拟人一定的专业知识,堪比《西游记》中的孙悟空吃了一本书就能立刻掌握其中的内容。知识图谱的完善对虚拟人的应用意义重大,而知识图谱本身的技术难度并不大。其完善的主要门槛在于对垂直子行业的深刻理解。
2)理解:自然语言处理
通过感知,虚拟人可以从外界获得信息。CV“看到”和ASR“听到”的信息都可以转化为语言的形式。然而,仅有感知是不够的。虚拟人不仅要能获取信息,还要能理解这些信息所代表的真实意图和感知到的信息的含义,从而做出下一步的动作。
NLP技术的全称是自然语言处理技术,侧重于理解语义信息,包括词法分析、句法分析、语义分析、情感分析等。使用NLP技术,可以完成以下工作:
分一个句子(主要针对汉语和其他语言,不针对英语)分析每个词的词性,确定是名词还是动词,是形容词还是副词,从而分出句子的语法结构。比如主谓宾通过语气词“喜欢”、“讨厌”等划分出各部分的施事-受事关系,如“我打你”,“我”是施事,“你”是受事。
3)决策:数据智能ML
决策能力是人类的重要素质。对于虚拟人来说,决策能力也可以通过AI来提高,而这种能力的提高主要依赖于各种数据智能模型。
简单来说,数据智能就是收集一个问题的大量历史数据,然后通过机器学习的一种算法来拟合问题的函数模型,根据函数模型对未来做出预测和决策。比如你可以通过一个产品的历史销量来分析其未来的销售趋势;你可以根据球队的历史胜负来预测未来一场比赛的胜负,就像那个夏天的章鱼保罗。
有很多常用的机器学习算法可以用于决策建模,分为有监督、无监督和有标签或无标签的半监督。任务类型可以分为分类、回归、聚类、时间序列预测等。有很多经典的机器学习算法,如决策树、支持向量机、XGBoost等。由于篇幅的原因就不赘述了。有兴趣的读者可以看看周志华的西瓜书。
对于数据智能的任务,模型其实并不难。现阶段真正难的是有没有足够多的有价值的数据。互联网、金融等企业的有效数据采集意识相对较强,但很多传统企业的数据采集意识仍然较弱,目前正在进行数字化转型。随着数字化转型的进程,虚拟人会有越来越多的应用。
情绪识别能力
人不仅需要理性,更需要感性。亲情、友情、爱情、人际交往,往往是感性多于理性。对于虚拟人来说,除了理性的认识、理解、决策等能力,对情感的掌握也是一种应该具备的素质。能够识别情感并反馈情感的虚拟人,在目前蓝海的陪伴虚拟人赛道中,具有极大的用户价值和商业价值。
情绪识别是一种综合能力。比如通过CV技术,虚拟人可以分辨出一个人的表情是开心还是难过。通过ASR技术,虚拟人可以通过声纹分析说话人的语调是高兴还是沮丧,甚至是愤怒;通过NLP技术,虚拟人可以分析说话人的说话内容是否包含表达态度的强语气词,如“喜欢/不喜欢”、“垃圾”、“牛逼”……
心理学家罗伯特普拉切克(Robert placzek)提出了包含八种基本情绪的情绪轮(emotion wheel),可以作为情绪识别标签设计的基础。
目前,情感识别能力已经应用于舆论控制、课堂教学等领域。但总的来说,现阶段还不够成熟,还有巨大的探索空间。
3.创作就像小学学汉字、造句、作文。创造是更高层次的智力活动。只有经过大量的学习,我们才能有效地创造。人是这样,虚拟人也是这样。
目前“创作”主要用于虚拟人创作领域,如AI绘画、诗歌写作、新闻稿写作、开放聊天等。它主要依赖于基于GAN的生成模型。
整体来看,目前创意技术成熟度不高。只是在一些规范领域有一些成功的案例,比如新闻发布,更多的应用还集中在概念展示阶段,离真正的大规模商用还有一段距离。距离产生美,也为虚拟人的未来潜力提供了巨大的想象空间。
世界和人类之所以分为“肉体与灵魂”和“世界人类”,是因为前两者代表个体,后两者代表外部世界。在后两个要素中,“世界”是由外而内,由内而外赋予我们的,人是由我们而外,由内而外赋予我们的。是不是很奇妙?太棒了。
1.世界世界是虚拟生活的周边环境。有了虚拟人之后,我们还需要给它一个载体,一个舞台,让虚拟人来到舞台上发挥它的价值。关于构建虚拟人世界的技术,我想说两点,渲染和终端。
1)渲染
渲染是将完成的模型呈现在屏幕上的过程,或者说是通过数学计算将完成的模型转换成计算机屏幕上像素的RGB值来实际显示的过程。渲染涉及的主要技术是计算机图形学,需要进行大量关于顶点位置、颜色、光照等的计算。而且还消耗了大量的计算资源。
渲染可以分为离线渲染和实时渲染。其中离线渲染主要用在电影、广告等不需要交互就可以提前做好的场景,允许需要很长时间,所以效果很好,但是成本也很高。实时渲染主要用于需要实时交互的场景,比如游戏、直播等。对时间比较敏感,所以效果略弱于离线渲染。
Unity和Unreal曾经是制作游戏的游戏引擎,都是实时渲染的利器。虽然比不上离线渲染的效果,但两者的制作水平都在不断升级。目前新发布的Unreal5可以达到非常好的渲染效果,实时渲染效果正在一步步接近离线渲染。
(注:此图来自国海证券《数字虚拟人——科技人文的交点,赋能产业的起点》)
此外,近年来发展起来的PBR技术对虚拟人的发展也非常重要。PBR是基于真实物理世界成像规律模拟的渲染技术集合,使渲染效果突破了塑料感。这项技术让虚拟数字人的皮肤纹理变得真实,进而帮助突破恐怖谷效果。一些常见的3D引擎,如UE4和Unity 3D 5,都有自己的PBR实现。
实时渲染技术的发展可以使虚拟人在交互环境中提升用户体验,对VR、AR等赛道的普及和发展有很大的帮助。
2)终端
目前虚拟人没有实体,需要显示在屏幕上,所以虚拟人需要生活在终端里。如果虚拟人有实体,就不叫虚拟人,叫机器人。事实上,材料和其他领域的科学家现在正在研究与人类表皮组织非常相似的材料,以期制造出几乎以假乱真的“人形机器人”。最近这项技术也取得了一些突破。2022年6月,日本东京大学宣布,在世界上首次成功研制出人工培育“活体”皮肤的手指形机器人。但这种技术距离真正成熟还有很长的路要走,在社会伦理等方面也面临着巨大的挑战。
总的来说,近段时间,虚拟人还是要严重依赖电子终端。随着科技的发展,虚拟人可以活动的终端类型越来越丰富。我简单总结了一些我能想到的终端类型。分类并不严谨,只是一个大概的列表:
常规终端:手机、PC、电视大屏IoT:智能家居、智能驾驶舱等终端工业终端:银行导购、导购等新型终端:VR、AR、裸眼3D全息等。
2.人设最后,我们来说说人设。
相对于以上内容,人性化设计是一个非技术概念,不应该放在“技术篇”里。但这很重要。我们每个人都有一个真实的“我”和一个社会的“我”。面对不同的人我们会戴不同的面具,虚拟人也是一样。在整体技术水平基本无法拉开差距的情况下,对于一款虚拟人产品来说,是否有好的人性化设计更为重要。
不同场景、不同设定的虚拟人,设定完全不同,给产品、运营、技术都带来了极大的挑战。
好的虚拟人一定是好的产品。一个好的产品有三个必备要素:垫脚石、护城河、生命线。敲门决定门槛,护城河决定优势,生命线决定盈利。对于虚拟人来说,这三个概念可以这样理解:
1)敲门
敲门是好人。虚拟人对于人类的创造非常重要。如果是虚拟偶像,需要好的IP,漂亮的外表,活泼的肢体语言,甚至唱歌、跳舞、创作等能力。如果是银行的虚拟员工,TA应该和千千万万的员工一样简单、专业、可靠.简而言之,它是否有与场景相匹配的外观设计,是否有足够合适的角色设计,是否能依托一个IP或品牌,这些对虚拟人的后续运营都至关重要。
2)壕沟
优秀的人员只有结合扎实的产品设计和高质量的技术实现才能做到。产品的细节设计对于不同的人也是不一样的:一个“小姑娘”说话一般都很机智,一个工作人员说话一般都很专业很亲切,这对产品演讲技巧的设计提出了考验。
从物理外观来看,虚拟人可以分为不同的风格,如二次型、人形、超现实、未来科幻等。从人格和灵魂上来说,一个银行引导的虚拟人需要有丰富的金融行业知识,一个虚拟偶像需要有唱歌跳舞,甚至创作歌曲的能力。陪伴老人的虚拟人可能需要丰富的医疗保健知识,以及对情绪的感知和反馈.
虚拟人的创造不仅要满足产品的需求,还要考虑技术的边界.可以说,打造一个成功的虚拟人IP是非常困难的。
3)生命线
对于任何偶像类型的虚拟人来说,其二次创造能力都是非常重要的。二次创作能力可以让用户自发参与其中,形成优质的生态圈,同时也为后续的商业化大有斩获。好的二次创新离不开运营的指导和支持,这对于虚拟人来说也是非常重要的。可以说,二次创新能力是虚拟人产品的生命线,决定了虚拟人产品是沉入海底还是强势涌现,能否可持续发展。
关于人的建立,很多人认为虚拟人的一个好处就是不会翻车。毕竟最近坏艺人太多了,很多公司都受到了坏艺人的影响。虚拟人似乎是个不错的选择,零差评,零丑闻。其实对于虚拟人来说,翻车的例子很多,这对虚拟人的运营者也是一个很大的考验。
07潮流界虚拟人赛道是一个技术的综合体,任何一项技术的不完善和不成熟都制约着虚拟人的“人形”程度。一般来说,虚拟人有三种技术路径:
人工方法成本太高,暂时不支持纯AI的技术。目前基本采用人工AI。但随着科技的进步,AI在这个过程中的比重会越来越大,虚拟人的整体制作过程也会成本更低,时间更短。
对于虚拟人赛道的发展,我们现在要做的是:
明确技术边界,了解不同技术在不同环节的效果、成本和收益。找到合适的场景,通过场景本身的约束和细分领域的打磨来完成应用。积极拥抱技术创新的边界代表现在,趋势代表未来。在这里,我想简单讨论一下主要技术,并对未来做一些分析。
1.边界和目前1)传统的方法仍然有局限性
在建模(maya,3Dmax等。)、驾驶(人体捕捉)、渲染(统一、不真实等。),现有的非AI工具和技术都比较成熟,但还是存在一些问题,比如成本高、制作周期长、实时渲染效果有限、对设备要求高、中间过于依赖人等。
人工智能和智能自动化等其他技术的发展正在改变上述领域的流程。未来,随着智能化、自动化的发展,建模、驱动、渲染等工作将朝着成本更低、时间更短、门槛更低、效果更好的方向发展。探究成本很重要。当成本和门槛达到一定程度,虚拟人的应用场景就会从B过渡到c。
2)AI能力有待提高。
AI可以赋予虚拟人大脑,AI技术的发展直接决定了虚拟人是否“智障”。目前AI能力的成熟度还参差不齐,CV、ASR、TTS等感知技术已经能够达到不错的水平。一些AI公司,比如科大讯飞,也已经提供了相关的能力,成熟度很高;认知能力需要深厚的业务知识加成和大量的训练数据支持;情感能力和创作技巧目前还不成熟,距离大规模商业开发还有很长的路要走。目前需要依靠精细化的产品设计和运营。
3)其他需要注意的事项
我们不仅需要关注AI、CG等高度相关的技术,还需要关注基础设施建设、VRAR技术、芯片和计算能力、边缘计算能力等周边技术的发展。同时,在部分产品和运营维度上,也需要足够重视IP设计、角色设计、二次创作运营等能力。
2.趋势和未来虚拟人相关技术的未来发展将有几个主要趋势:
视觉效果更加美观流畅酷炫,这取决于计算机图形学、硬件计算能力、显示设备、建模渲染工具等的发展。随着AI等智能技术的发展,虚拟人被赋予了越来越智能和人性化的大脑,越来越能够像真人一样与人类交流,进行观察、决策和陪伴。其中AI要重点关注两个方向,一是特定行业的技术诀窍积累,二是情感陪伴能力的提升。工作流程向智能化、自动化方向发展,流程缩短,成本降低。如果可以端到端生成可用的虚拟人,将使虚拟人的低门槛大规模生产成为可能。随着VR、AR、IoT等赛道的发展,虚拟人可以活跃在越来越多的终端上,带来了更多的应用场景和能力挑战。当成本和门槛足够低的时候,人均拥有一个甚至多个虚拟人是可能的。在元宇宙中,虚拟人可以是NPC,也可以是真人的第二个分身。之后,无论是结合千人千面还是NFT或其他概念,都有无限的想象空间。在未来,可能会以人形机器人的形式出现真正的人工智能。到那时,虚拟人不仅能在屏幕上生活,还能拥有真实的身体。但就像克隆技术一样,这样的技术虽然可以代表AI、材料、医疗等诸多学科的技术前沿,但它是否符合伦理道德,能否商业化,都将是一个大大的问号。在.上
目前平面计算时代以面向服务和面向性能的数字人应用为主,下一阶段是更大的时代,暂定义为空间计算时代。在计算时代,计算平台呈现的信息不再是平面的,而是实时的、立体的。届时,核心用户的行为大概会包括社交、获取商品、消费信息、获取服务四大类。因此,能够提供个性化交互、情感价值和内容价值的虚拟二重身是必须的,而能够提供人文和情感关怀并确保效率的服务型数字人是另一种应用形式。未来的空间计算时代,会有比现在的平面计算时代更大的市场。
结论我漫不经心地说了许多废话。其实我之所以要写这个主题,是因为我对虚拟的人类赛道很感兴趣。我之所以对虚拟人赛道感兴趣,主要有以下几个原因:
第一,从专业角度来说,我曾经从事AI赛道的工作。人工智能的本质是对智能体的模拟。虚拟人技术是人工智能技术的综合应用,也是人工智能体的初级阶段,这让我对TA产生了极度的好奇,很想一窥究竟。
第二,出于个人私心,我虽然是理科生,但一直对人文艺术领域很感兴趣;虚拟赛道不同于许多科技赛道。它更像是科技与人文的交汇。随着科技的发展,也充满了关于艺术、文化、伦理的讨论,让我的心向往之。
三是无意义的想象。我从小就是幻想能力很强的孩子,被二次元深深吸引。小时候喜欢看《数码宝贝》之类的动画片,但真的希望有一天能在电视上和这些英雄对话。就目前而言,如果熊二喜羊羊这种熊会说话,还能和孩子们进行互动教学,岂不是很好玩?
基于以上原因,我尽我所能进行了一项关于虚拟人的研究,我想把研究的内容整理一下,希望能给读者带来一点收获。
关于虚拟人类赛道,我自己也是初学者,但目前还不是业内工作者。以上内容和观点主要是基于网络资料通过自学和研究形成的。水平非常非常有限。希望业内人士指出我的错误和不足,我会认真听取。非常感谢大家。
参考材料:
民族证券《数字虚拟人——科技人文的交点,赋能产业的起点》投宝研究所《2022年中国虚拟人产业发展白皮书》 TF证券《虚拟数字人:元宇宙的主角破圈而来》华丽智库《全球时尚虚拟人物研究报告》中银证券《虚拟人行业深度研究》中国传媒大学《中国虚拟数字人 影响力指数报告》艾媒咨询2021年金钱豹研究所《2022年中国虚拟人行业发展研究报告》量子比特:0010如有侵权,可以
本文由@攻击唐猜原创发布。每个人都是产品经理。未经许可,禁止复制。
题目来自Unsplash,基于CC0协议。

其他教程

千图解析下载网站(千图网网站解析下载地址)

2022-9-2 8:10:21

其他教程

拒绝化妆品隐形眼镜眼睛塑料发带?这种烧脑的作品才是奇幻片的正确打开方式。

2022-9-2 8:12:32

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索