《直播分钟》AIGC有什么新亮点？洞察研究

特邀嘉宾：凌云光技术股份有限公司董事/副总经理【杨艺】、凌云光技术股份有限公司BU总经理【熊伟】

概要：

1、AIGC为什么会燃烧

AIGC是从文字、语音、以及图画等二维水平的应用中陆续发展起来的。现在，你对AIGC在三维世界中能做什么感兴趣吗？首先要把技术数字化、自动化，最后要智能化。 AIGC通过虚拟数字人获得了巨大的发展。

2、数字人使用的AIGC技术只有一成

虚拟人的主要制作过程是建模、驱动、渲染。目前，AI占10%的辅助作用。期待AI的参与能力达到90%。这样可以提高提高节目制作效率。要实现从10%到90%的利用率提高，需要几次技术上的质的变化。

3、数字人制作成本快速下降

以前制作15分钟渲染的沉浸式节目，需要700w元的制作成本。现在基本上可以实现每分钟10w元。我们希望将来能实现每分钟1w元，甚至每分钟一千元的价格。

4、产业链的核心部分是什么？

在虚拟内容制作中，巨大的成本是资产制作的一环。例如，制作数字人的三维模型和基础动画是最重要的资产内容。

正文：

见智慧研究：

AIGC为什么现在突然火了，掀起了全民的热潮？

杨艺：

网络上本来有UGC、PGC，现在很期待看到大家把AIGC也放进去。 AIGC首先分为两部分，首先用AI，然后用GC，也就是AI进行生成内容。

现在，虚拟现实和元宇宙等三维世界的创造受到了很多关注，但AIGC在过去从文字、声音、以及绘画、平等的二维世界中相继发展起来。

最近一段时间，二次元世界的AIGC也取得了非常优秀的技术进步，可以达到伪真的程度。

我们现在更加关心在三维世界里，AI会为我们做什么。

现在的AIGC在三维世界中能承担的作用还很少。所有技术都要先数字化、自动化，最后智能化。

目前的AI技术在三维世界中处理点云，并将其转化为自动化内容，但在整个制作过程中我们还没有掌握好的规律，所以AI暂时用处不大，在信息收集和处理中起到的辅助作用很多。

因此，AIGC在当今三维世界中的作用还很有限，但可喜的是出现了虚拟数字人。

就像虚拟数字人可以创建三维图像并将其放置在虚拟世界中一样。语音和文字又作为载体使AIGC在三维空间释放活力。所以，我期待AIGC通过虚拟数字人获得巨大的发展。

见智慧研究：

AIGC目前用于数字人制作的哪些方面？

杨艺：

首先进行建模，建模后驱动，驱动后根据各种环境进行渲染。在使用光场技术获取点云时，经常会发生一些干扰。

在需要维修工作的情况下，AI技术可以很好地加速维修这样的自动化工作。在驱动过程中，从动作采集到自动驱动，再到智能驱动，AI技术都能较好地发挥其作用。

另外，我们知道渲染需要很多适应光的照明条件，目前AI只占建模渲染驱动器10%的辅助作用。

期待参加能力达到90%。这样可以大幅提高节目制作的效率。我们还在继续打磨，为了达到从10%到90%的利用率的提高，需要改变技术质量。

进行渲染的工具很复杂。首先，装备必须稳定可靠，获得的信息必须完整。而且，它必须和软件结合，和软件结合。这是建设工具基础设施的过程。在这十年里，我们有了这些基础，幸运地参与了虚拟数字人的成长阶段。

在世界VR大会上发表了虚拟数字人的定义：

第一个层次是三维建模。首先，获得数字人的形象。基本上用于平面宣传，比较静态

第二个层面，我们和动作联系在一起，所以他需要收集和动作相结合；

第三个级别开始形成出色的实时渲染能力，可以实时发挥性能

第四个层次需要AI的能力。例如，冬奥手语、数字人等直接回答你的问题。

第五个level定义为需要智能，不仅是AI的知识，还可以相互作用。另外，在相互作用的时候你能知道他的表情，他也能理解你的语义带来的这个意思。

目前，虚拟数字人非常昂贵，达到千万级别。我们基本上都在做邓丽君、梅兰芳大师等名人的数码人。制作过程需要非常细致，具有一定的微表情。基本上必须用手逐帧调整，将每个补丁捆扎在一起，所以成本非常高。

当然，追求和费用因level而异。而且，其背后涉及的技术还没有达到全自动。这个效率还决定了费用的(提高 )。

现在我们开发这么多装备、软件和算法，是为了提高工作效率，将来能够以10万级的成本实现现在百万级的数字人机效果。这是今后一到两年的时间我们的主要奋斗目标。

见智慧研究：

将来要实现这种水平的飞跃，可能涉及什么样的硬件和软件升级？

杨艺：

首先在数据收集这一层面，最初使用3D照明，相当于数字人的收集系统。

它使用复杂的散斑照明系统，模拟各种环境光的照明，并增加偏振光，使其能够模拟各种颜色维度的信息，能够很好地适应人脸皮肤发质等各种环境。

今年年底，研究所的last stage产品能够更好地为我们的APP服务，整个后续渲染工作可以从原来的自动化稍微推进到自动化。

此外，还希望运动捕获系统具有更高的精度，同时在算法软件上，也就是说可以使用一些AI的技术，比较充分地去除从大量收集的数据中得到的噪声和噪声。

由此获得的数据可以较好地推广自动驱动和自动绑定技术，因此算法的工作以及硬件装备的提高，对整个工作的自动化提高产生较大的推动作用。

而且我们很幸运，在渲染引擎上，无论是国内还是国际，特别是国际的UE，从UE 4到现在的UE 5确实在数字人这个层面的后期升级过程中非常友好，非常贵，所以我们把这些话

见智慧研究：

数字人离大型商用还有多远呢？

熊伟：

在虚拟直播、网络展示、电子商务、教育、银行客户服务等方面已经展开。但是，制作成本相对较高。

随着近两年AI制作技术的大幅提高，无论是形象上还是解决问题的能力上，数字人都将满足大规模商业化的需求，这一点可以在未来2~3年内实现。

根据此前湖南博物馆的项目经验，制作一个体验式节目15分钟需要700w元。

现在基本上每分钟可以达到10 w元。但是，我们的目标，希望将来是每分钟一万，甚至每分钟一千元。这样的话，规模比较大的业务就会到来。

见智慧研究：

数字人产业链是如何划分的？

熊伟：

从数字内容的创造，或者从我们的沉浸式观点来看，大致分为4个等级。

其基础水平是通信、运算、GPU运算、CPU运算、云计算、区块链等基础技术。

楼上有XR、3D显示这样的交互体验终端。

然后再上一层是制作内容。包括内容创建工具、内容创建团队和创建IP的团队。

顶层是APP和运用分发平台。

见智慧研究：

这个行业的核心竞争力是什么？

熊伟：

其实，未来数字化人平台的制作，其实是由一个多环节组成的，是我刚才提到的关键技术，也是其中的关键核心。

当然，构建数字IP是另一个中心点，最后我们要做这样普通的真艺人。那么，你的数字人如何让艺人出名，如何有价值，这也是非常重要的。

最后，我们也要让他有真正的商业链接。

当然，前期，我们认为现在数字人和这种虚拟现实产业正在前进的地方还是技术的一环。

多年来，我们一直在制作内容，因为我们制作并使用了那个电影游戏一样的离线内容。但是，到了元宇宙虚拟现实的阶段，我们很多内容都要实时交流，这需要更高效地创造内容，才能大规模商业化我们的产业。

这就像我们刚才说的，还有很多路要走。那可以成为我们今天看到的短视频这样的媒体诞生的未来状况。这是我们要突破的地方。

见智慧研究：

在数字人的创作中，哪个阶段的技术迭代最重要？

熊伟：

我认为有多个技术环节很重要。但是，我认为这就像是渲染这些引擎和游戏的底层。

但是，在自己的数字人资产创建环节中，这是其中最核心的，其实我们整个虚拟内容所产生的大量成本在资产创建环节中，比如我们的数字人三维模型及其基础动画的创建环节，这是其中最重要的

幸运的是，我们现在有了这样的光场重建技术。那就相当于一种可以收集从我们现实世界中所有物体反射的所有光信息的技术。

然后，这样计算出人体和物体所表现出的这个特性的信息后，将其输入到引擎中，渲染引擎就可以完全一对一地复原我们所有的物体。

但是，到目前为止，靠人工一点点理解制作的话，效率很低，真实性也很难保障。

有了这样的光场成像技术，未来就可以大量存在。而且，在目前的光场成像技术之后，还有未来的发展空间。就是在AI中生成光场。原来，我们的光场是用光学技术还原计算出来的，这就要求整个光学系统有很高的精度。

但是，我们积累了大量高精度的光场数据，收集了数据库之后，我们可以在AI上学习，将来可以更加轻量化地生成我们大量的内容，这使得我们的数字生产更加高效，成本更低

杨艺：

光场采集系统对很多听众来说可能是个陌生的词。

可以这样理解。也就是说，我们过去拍了照片，但它总体上是从一个角度拍摄大家。

但事实上，我们真正生活在这个世界上的光，来自各个维度，照亮了我们所有的物体，所有人都是如此。而且光带来的信息不仅是强度和颜色，还有非常多的光谱信息、非正规化信息、以及很多时间序列水平的信息。

其实光本身实际上有很多高维的信息。而且，使用光场收集系统是为了也模拟这些高维的信息。事实上，所以我们在现实生活中，我们眼睛看到的世界其实相当丰富多彩，非常细腻。

但是，我们简单地使用我们的原始照相机图像传感器，实际拍摄的信息不能获得这样的效果。这意味着，用数学和装备也有必要解开人眼可以感知到的高维信息。将来现在学习光学的年轻人可能越来越了解，但计算成像已经不是陌生的词了。我们上大学的时候，这还不是我们学习的知识的内容。光场是将立体的东西数字化后的产物，实际上相当于信息收集的灵魂。

所以，我们这个地方在今天了解了这个词的存在之后，光场技术的进步，以及它的解算能力，是其中一个信息收集的来源，一定可以通过好的信息处理得到好的结果。所以，信息源的丰富是处理清楚的关键。

见智慧研究：

未来，随着数字人渗透率的提高，在哪些领域会看到数字人的应用？

熊伟：

数字人偏向于早期的娱乐，但现在他们发现他们可以从事非体力劳动。也就是说，我们用大脑工作的地方都可以用数字人，它可以代替我们很多人做回答问题的重复性工作。

例如，在电子商务领域的商品介绍、金融推荐产品、医疗领域、交通领域进行简单的问答可以代替人类进行服务。

随着AI的进一步提高，未来可以代替个人进行陪伴、交流，以及更多更有表现力的工作。

见智慧研究：

可以共享数字人的制作示例吗？

熊伟：

手语数字人的创立过程其实很有趣。我们最初考虑的可能只是制作移动的这个视频。很多条件可能是标准的固定词汇。我觉得我们可能还是比一般的AI简单一点。但后来发现它比一般的AI动画数字人难度更大。手：因为语数字的人对准确性的要求非常高。

一般的AI数字人，实际上只需要表现出大致的情态、情绪正确即可。但是，手(语数字的人传递信息的每一个动作、每一个表情都必须非常准确，并且要能连成一个故事，用一个完整的句子，让聋子能听懂。特别是我们将其用于新闻广播时，对准确性的要求更高。

所以，我们做了大量的工作，最终达到了我们真正在电视台上面看到的冬奥手语数字人的自动播出。

这包括我们前期大量录制的手语教师的标准动作，以及为了适应障听患者的这个语序语调而使用AI。

那个句子整体的语法和通常的口头表达还不一样。新闻的时候，手语是用动作而不是语言来表达的，所以语速比我们真人说的话慢很多。要实现同声翻译，只有减少每一个词的信息，提取关键词，才能赶上实时翻译的速度。

这有很多挑战，无论是从我们的动作正确性，还是从我们的AI的智能分解来看，都提出了更高的要求。

通过不断修改，我们最后达到了90%以上的理解度。在安全播出的过程中我们也进行了大量的实践验证，专业的手语教师在这个新闻播出前的审核，确保所有手语动作的准确性。一开始我担心手语教师会被替代，但后来我找到了手。语数字的人其实是缓解手语教师工作量的技术。一位手语教师参加30分钟的节目广播可能会汗流浃背。这是体力的消耗。现在，可以连续审核几个小时以上，甚至同时审核以上的节目，生产率大幅提高到了提高。

见智慧研究：

不同类型的数字人创作的过程和技术支持有什么不同？

熊伟：

数字广播有商品的时候，其实是给数字人增加了虚实融合的广播内容。

目前，纯虚拟数字人与人的交互带来了新鲜感，但同时也产生了一些距离感和不真实感。因此，我们在创作时往往采用数字人与真人相结合的广播形式，以更好地与观众互动。制作这样的节目，需要在现场制作趋势融合的直播系统。

通过专业的光学跟踪器识别人在哪里、虚拟人在哪里、虚拟场景在哪里，最后对他们进行拍摄。同时我们在做虚拟播音员的时候需要在播出后解决无人的问题。因此，我们需要产生相应的一定的AI数字能力，以实现当数字人给真人播音员加下划线时，代替真人播音员24小时不间断播放的效果。

见智慧研究：

数字APP应用最快落地的是哪个领域？

熊伟：

数字人的应用其实是一个从娱乐向产业的转变过程。

目前主要应用于娱乐主播、我们的文旅、教育等领域。主要是因为我们可以用真人驱动，可以表演交流，可以产生内容的这种场景。另外，它还能更好地置换人类形象，大家有亲和力，生成的内容也更加丰富多样。

随着我们赋予AI的能量越来越多，它将应用于金融、医疗等更多领域，但也依赖于我们AI技术成熟发展的过程。我相信随着数字人越来越多，大家为数字人建立的数据库、数据资产越来越多，我们AI的进步也会越来越快。我相信即使在更多产业的应用到来，也不会太久。

欢迎从华尔街的见闻中，下载更多APP观看

{{userData.name}}已认证

《直播分钟》AIGC有什么新亮点？洞察研究

非幼师专业自考本科用书(幼师专业自考本科好考吗)

学习编辑短视频做兼职怎么样(兼职编辑视频多少钱)

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#