2023年AI画火了！理解文本背后的技术原理。

导游词|

近年来，AI蓬勃发展，各行各业都有不同方式的应用。而且，AI创作艺术和生产内容确实是今年以来最热门的话题。 AI创作到底发生了什么，原理如何，是搞笑，还是有对我们有用的潜在应用场景？我们力求深入回答这些问题。

AI创作是怎么火起来的？

从今年开始，文本描述自动生成图像( Text-to-Image )的AI绘制黑科技一下子衰落了。很多人对AI绘画产生巨大兴趣是因为AI作品

新闻

开始了。这幅由MidJourney生成的数字油画参加了Colorado博览会的艺术比赛，获得了第一名。这个事件引起了可以想象的很大的争论。 ( 300刀的奖金造成了3千亿的市场？）

ASON Allen’sa.I.- generated work，” thtred’opra spatial，” tookfirstplaceinthedigitalcategoryattthecoloradostatefair ”

Disco Diffusion是今年2月爆发的AI图像生成程序，可以基于描述的场景关键词渲染对应的图像。今年4月，知名的OpenAI也发布了新机型DALL-E 2。命名来源于著名画家Dali和机器人总动员Wall-E，也支持Text-to-Image。年初，Disco Diffusion可以生成有气氛的图像，但还不能生成精致的脸。但是，马上变成DALL-E 2的话，可以非常清晰地描绘脸。如今，到了Stable Diffusion，创作的精致和绘画速度上了一个新的台阶。

disco diffusion:mechanicalarmwithapaintbrushandacanvasbylishuxingandtyleredlin

Dall-E2 :变换Johannes Vermeer名画《珍珠耳环女孩》塑造不同的面孔

stable diffusion:abeautifulpaintingofabuildinginaserenelandscape

2023年8月，被认为是目前最强大的AI创作工具Stable Diffusion

正式开放

这无疑给AI创作带来了最近的火热。只要在网站上注册就可以使用，提供了方便简洁的UI，这类工具的使用门槛也大幅降低，效率高，画质也很好。如果不想花钱的话，Stable Diffusion正式开源代码、型号、weights，在huggingface上直接与clone下载，导入GPU即可自由使用。 huggingface中已经有diffusers库，可以成为调音师直接使用，colab中也有现成的notebook example。为此，发烧，推出Stable Diffusion的AI公司StabilityAI完成了1亿美元种子融资，公司估值达到10亿美元。

Stable Diffusion开源后的搜索热度维持了两个月

就像机器学习刚开始的时候一样，

AI生成技术也不是凭空出现的。只是，近一两年来，作品的质量和计算速度越来越快地提高，忽视了和AI绘画同样悠久的历史。

历史发展

AI绘画在电脑问世后不久就开始了最初的探索。 70年前艺术家Harold Cohen就已经编写了程序“AARON”来画画，但与现在的黑科技不同，AARON真的是通过操作机械臂来画画的。虽然Harold对AARON的改进持续了很长时间，但在80年代，ARRON尝试着绘制三维物体，很快就能绘制彩色图表了。但是AARON没有开源，所以正在学习Harold本人抽象颜色的绘画风格。 2006年，The Painting Fool出现了。和AARON很像。观察照片，提取颜色信息，使用现实材料进行创作。所以，同样的，计算机程序可以通过学习信息来物理地绘画。

现在我们说的更多

“AI创作”

的概念指的是更多

基于Deep Learning模型自动制图的程序

，这种绘制方式得益于近年来计算机软硬件的高速发展。 2012年两名大神Andrew Ng和Jeff Dean进行了实验，利用1.6万个CPU和Youtube上1千万个猫的脸部图像对当时最大的深度学习网络进行了三天的训练，生成了猫的脸部。现在看来这个结果毫无价值，但对当时的CV领域来说是划时代的尝试，正式开启了AI创作的新方向。

2006年，李飞飞教授发现许多研究工作在AI算法方面忽视了“数据”的重要性，并率先开始构建大型图像数据集- ImageNet。为此，图像识别大会拉开帷幕，三年后李飞飞团队发表了ImageNet的论文真实地发表了ImageNet数据集，为AI创作提供了强大的数据库。同样在2006年，Geoffrey Hilton团队实现了GPU优化深度神经网络的方法，“深度学习”这一新名词的概念被提出，各种Neural Networks技术手段开始层出不穷。深度学习的发展也加速了AI两个赛道上的分布式模型和通用模型： 2012年的AlexNet、2014年的VGGNet、2015年的ResNet、2023年的DenseNet

另一方面，关于Generative model，2014年大神Ian Goodfellow提出了GAN。两个神经网络相互学习和训练被认为是CV领域的重大突破，通过两个神经网络相互博弈，生成的数据分布更接近真实的数据分布。自那以后，2014年的GAN、VAE和2023年的PixelRNN/CNN成为了三种主流的Generative models。 2023-2023年深度学习框架也成熟了，PyTorch和Tensorflow成为首选框架，为许多图像处理提供了大量的预训练模型，技术门槛大幅降低。 2023年，Nvidia发布了视频到视频同步。它通过生成器、描述符网络等模块，合成高分辨率照片般逼真的视频，实现了将AI推向新的创造场景。 GAN的大规模使用，也出现了很多基于GAN的模型的迭代和优化。 2023年BigGAN的出现使GAN的世界更强大，由此训练产生的图像已无法分辨真伪，被认为是当时最强的图像生成器。

但一些研究指出，GAN仍然存在一些缺点，例如模型稳定性和收敛性较差，尤其是面对更复杂多变的数据。更重要的是，使生成的数据的分布接近实际的数据的分布、即接近现有的内容无法突破生成的内容非常接近现有的内容、即带来艺术性的“革新”。

从2023年开始在图像生成领域研究了更多的Diffusion model来克服这些问题。 Diffusion model的核心原理是了解图像去噪过程中是如何生成有意义的图像的，同时大大简化了模型训练过程的数据处理难度和稳定性问题。因此，Diffusion模型生成的图像比GAN模型的京都更高，随着样本数量和训练时间的增加，Diffusion model在艺术表现风格上表现出了更好的模拟能力。 2023年的比较研究表明，在同一个ImageNet数据库中训练的图像生成质量，使用Diffusion model得到的FID评价结果优于当时最高的Generative models BigGAN-deep等。

正如文章开头提到的，今年的AI热点是文本创作内容，其实直到2023年初，OpenAI发布的DALL-E在AI绘制层面也很普通，但这里开始具备的一个重要能力就是可以按照文本描述进行创作。而今年2023年，由三座大山Stable Diffusion、DALL-E 2、MidJourney创作的各种绘画中，也引起了开发商、艺术家、美术工作者等不同人群的兴趣尝试和争论。 Stable Diffusion的开源和简单的过滤功能无疑将Text-to-Imagede的热点和争论推向了高潮。

很快，大制造商不仅推出了照片，还推出了文字视频产品。 meta在过去9月底

发表

新的AI产品Make-A-Video允许用户以同样的方式使用文本来生产简洁、高质量的短视频。根据他们的说明，系统模型可以从文本和图像的配对数据中学习世界的样子，从视频剪辑中推断出没有文本时世界的变化。实现场景有多种使用方法，包括以文本形式描述不同类型的场景动作、使用一张或一组图像生成备选方案视频，以及向原始视频添加其他元素和备选方案。元还表示将发布demo工具。快10月初了，谷歌也

释放

他们的新AI产品Imagen Video也是使用文本制作视频的工具。 Imagen Video还处于研发阶段，但谷歌的学术论文显示，该工具可以通过文本描述生产分辨率为1280×768的24 fps视频，同时具有样式化能力和物体3D旋转能力。根据这篇文章，Imagen Video在文本内容的视频显示方面也比DALL-E和Stable Diffusion更好。又过了几天，谷歌和Phenaki发布了另一个文本生产视频工具Phenaki，可以生产2分钟以上的长视频。谷歌还说明了“问题数据”对AI模型的影响和潜在风险。由于公司致力于严密过滤暴力、色情、文化偏差等问题，短期内不会开放Imagen Video模式，但在不久的将来，无论是工具还是源代码方法，这些cutting -。

既然有文本到图像和文本到视频，文本到速度肯定也要摩擦热量。 10月中旬postcast.AI发表的语音点燃了与ai生成的Steve Jobs的对话(新闻)。从语音的语调来看，真的和Steve本人一样，完全听不到机器人的声音。而且，技术提供商play.ht在他们的网站上也上线了这个新的非常吸引人的功能Voice Cloning，提供名人AI合成音。他们没有提供进一步的技术信息，但看起来他们使用的是2023年上线、2023年末开放的GPT3机型。另外，从效果上来看，它看起来非常接近复制人类的声音。

技术解释

纵观历史和一些生动的例子，你不是觉得AI产生各种各样的内容已经迫在眉睫了吗？我们只需要写几句话就能生成美丽的照片、视频和音频来满足各种各样的需求吗？但是，实际操作中仍然存在许多限制。下面我们来正确分析一下最近的热文本生成图像和视频技术的原理，看看实现了哪些功能，相关的限制在哪里。然后，对实际游戏内容进行demo，结合应用场景理解这些限制。

(一)文本到图像技术

根据AI图像生成器的技术结构不同也有差异，本文在最后还附加了重要模型的参考文献。这里主要对最近很受欢迎的Stable Diffusion和DALL-E 2进行一些解读和讨论。这种AI生成模型的核心技术能力是将人类创作的内容用某个高维的数学向量来表示。如果这种从内容到向量的“翻译”足够合理，能够体现出内容的特征，人类的所有创作内容就能够转化为这个空间的向量。把这个世界的所有内容转换成向量的话，在这个空间中还不能表现的向量就是还没有被制作出来的内容。而且，因为我们已经知道了这些已知内容的向量，所以我们可以通过逆变换，用AI“创造”尚未创造的内容。

稳定定义

Stable Diffusion的整体主要包括三个部分：语言模型、差异模型和解码器。

语言模型主要将输入的文本提示转换为diffusion model中可用的表示形式，通常使用embedding和一些random noise输入到下一级。

diffusion model主要是时间条件U-Net，输入高斯噪声和文本表示作为模型，在对应的图像中加入少许高斯噪声，得到有点噪声的图像，在时间线上重复该过程，对有点噪声的图像进行高斯滤波在这样做的过程中，你就会知道每个步骤的图像版本。然后，训练的NN可以将噪声较大的例子作为输入，具有预测图像的噪声去除版本的能力。

在训练过程中，另一个encoder是decoder的对应部分。 encoder的目标是将输入图像转换为高度有效的下采样表示，但是去除与原始图像无关的高频视觉噪声。这里的做法是将encoder和diffusion的训练分开。这样，可以训练encoder以获得最佳的图像显示，然后在下游训练一些扩散模型。这样，在像素空间训练中可以比原始图像计算少64倍。因为训练模式的训练和推理是计算中最昂贵的部分。

ecoder的主要作用是得到与encoder部分对应的扩散模型的输出，并将其放大为完整的图像。例如，以64×64 px训练扩展模型，且解码器将其设为提高到512×512 px。

戴尔- e 2

DALL-E 2其实是

由3个子模块连接而成

是的，具体来说

：

一种基于CLIP模型的编码模块，以训练文本和图像encoder为目标，能够将文本和图像都编码为合适的特征空间。

以文本编码到图像编码的转换为目标的预( prior )模块。

解码模块，用于对图像编码进行解码以生成目标图像。

在开始本文之前，我希望你知道go的基本内存知识，但不需要太深入。简单地总结了以下几点。

从上面模型的分解可以看出，DALL-E 2和Stable Diffusion的文本编码器都是基于openAI提出的CLIP，图像的生成都是基于diffusion model的。在这里，所谓CLIP是指学习任意给定的图像和标题( caption )的关联度。其原理是计算图像和标题各自的嵌入后的高维数学向量的馀弦相似度cosine similarity。

(二)文字到视频技术

文本生成视频从2023年左右开始有一些研究，但一直受到很多限制。今年10月初Meta宣布他们的产品Make-A-Video和谷歌发布了Imagen Video。这两个都是创新了Text-to-Video的技术场景。这两款最新产品都是从他们的Text-to-Image产品中派生出来的，技术实现方式也是基于Text-to-Image技术进化而来的。

本质上，静止图像被认为是只有一帧的视频。生成视频比生成照片困难得多，因为需要考虑图像中要素在时间线上的变化。除了从文本信息中产生合理准确的图像像素外，还必须推论图像像素对应的信息是如何随时间变化的。这里我们主要根据Make-A-Video的研究论文来分析一下。

Meta’s Make-A-Video

Make-A-Video基于text-to-Image技术的最新进展，采用了利用基于时空分解的差异模型将基于text-to-Image的模型扩展到Text-to-Video的方法原理很直接：

文本-学习从图像数据描述的世界是多么长(从文本生成图像) )。

从没有文本的视频数据中学习世界的变化(图像在时间轴上的变化)

训练数据是23亿文本-图像数据( Schuhmann et al )和千万级别的视频数据( WebVid-10M and HD-VILA-100M )。

总体来说

生成视频也有三个重要组成部分

，所有组成部分都是

单独的培训：

基于文本图像映射训练的基本文本到图像模型总共使用三个网络。

Prior网络：

从文本信息生成Image特征向量，也是接收文本信息的唯一网络。

解码器网络：

从图像特征网络生成低分辨率64×64的图像。

两个空间的高分辨率网络：

生成256×256和768×768的图像。

卷积层和注意层将基于第一部分的网络扩展到时间维度

模型初始化阶段的扩展包括时间维度，扩展后包含新的注意层，可以通过视频数据学习信息随时间的变化

temporal layer对未标记的视频数据进行精细处理，通常从视频中提取16帧。

因此，如果加上时间维度的decoder，就可以生成16帧的图像

以及用于高帧频生成的插值框架网络

的超分辨率模型和插值帧模型，提高的高帧速率和分辨率提高了视觉质量。

总体评价优于今年早些时候的研究

好处

：

这里的优点很明显，就是不需要使用大量的文本视频pair数据来训练模型。

因此，模型的训练时间也大幅加速了。

继承了目前最好的文本生成图像模型的优秀结果。

前两点都是以前的text-to-video生成模型的发展瓶颈。

限制

：

通过这种方法，只能从视频中学习到只能得到的关系文本和现象的关系，比如一个人是从左到右挥手还是从右到左挥手的视频细节。

目前，包含多个场景和事件的长视频以及更多视频所呈现的故事细节仅限于简单的行为和变化。

同样是使用大量公开数据的大规模模型，同样存在生产有害内容的风险。

谷歌’ s图像视频

是

由七个合并子模型组成，模型最多包含116亿个参数。其中，T5是用于理解文本含义的语言模型，Base是负责生产视频的关键帧，SSR模型负责提高视频的像素，TSR负责填充关键帧之间的辅助帧。

可实现的技术应用场景

通过基础技术，特别是CV、NLP相关各种模型的不同内容和多模态场景下的尝试与迭代，AI的创作与

内容创作不仅仅局限于不同类型的内容(文本、音频、图像、视频)的创作和内容不同类型的创作场景。最好是下图

总结了这些实际可以使用的技术场景。

对游戏内容的Demo

这些技术的实现能为我们提供游戏相关的应用场景吗？在这里，对比较成熟的图像相关的生成场景进行了一些demo尝试。总体上我们游戏中与舞台相关的业务场景有几个应用点。看看这些demo的情况吧。

(一)文本生成图像

针对庄周这个英雄的身影，我们尝试了使用工具和代码，如何能生产出不同风格的庄周

游戏中的样子：

我们描述如下后的样子，还可以加上动画、二次元、素描等风格的描写，我们可以得到各种风格类型的样子。

ultradetailedillustrationofabutterflyanimeboycoveredinliquidchrome，with green short hair，beautifulandclearfacialfeatures， lost in a dreamy fairy landscape，crystal butterflies around，vivid colors，8k，anime vibes，octane render，uplifting，magical comcomes

在各种尝试的过程中，我们明显地察觉到并发现了一些限制：

文本描述生成的结果具有一些随机性，生成的图像很可能难以完全按照“需求”生成，更多的会带来“惊喜”。这种惊讶在一定程度上代表了艺术风格。因此，在实际使用中，不太适合按严格要求生产照片的任务。有更多的描述，可以给艺术创造力带来灵感和借鉴。

文本的准确描述对生成的图像的样子至关重要，技术本身对文本的描述和措辞有很高的要求，需要对脑海中核心创造性的细节进行更准确的描述。

要生产腾讯游戏等Domain-specific高度一致的内容元素，需要重新训练经过预先训练的大型模型。

从文本生成视频的场景比较新，谷歌/meta也是支持这两三周才官宣的视频生成器，还没有开放使用，是开源的，但是按照现在的热度和迭代速度，在未来3-6个月内会更有针对性地探索和尝试相关能力

(二)图像融合与转换

图像本身的融合变换从几年前就开始进行了一些研究和探索，虽然有比较成熟生成的样子，但是在这里尝试着使用和平精英的素材改变风格的样子。

和平精英素材原画和星空：

将更深邃的星空色彩和变化融合到原始照片中：

将相对较浅的星空彩色像素融合到原始图像中。

另一个有趣的方法是，我们可以改变人物的风格。例如，王者英雄不知火的舞蹈和亚瑟给我们的印象，我们可以把他们q化为数字怪物的样子：

不知火舞

亚瑟

想想看。这些不同技术的实现都可以连接起来。例如，我们可以先用文本说明生成图像，然后对图像进行样式转换。那么，在这里可以操作的事情就会增加。不在这里展开。

进一步想想，我们是不是没有必要考虑文本的写法？你帮助我生成了文本，或者可以搜索以前生成的文本吗？答案是有的。例如，Phraser提供了这样的方法。也可以在图像中搜索相关文本：

AI创作的意义与风险

(一)意义

如文章开头所述，今年的AI热点是AI创作，从2月的Disco Diffusion，到4月的DALL-E 2和MidJourney内测，5/6月的谷歌机型Imagen和Parti，以及7月底的越来越多的人开始尝试用AI制作图像、音频、视频、3D内容等，表明AI在艺术领域的可能性越来越大。

10多年前，当世界开始为AI和机器学习欢呼时，我们看到了很多AI可以做到。而“创造力”和“想象力”也是迄今为止AI最不啃的硬骨头，也是人类世界被AI和机器取代之前的最后一颗顽固。但是，现在看起来可以通过技术分解。

从alpha go中我们发现，AI以智慧和谋略突破了人类的极限，AI创作进一步以创造性和想象力取代了人类。将来，在各方面都很成熟的AI完全取代人类看起来越来越成为现实的问题。如果AI将来能包括自己写代码处理计算机领域上下游的一切事情，人类需要考虑的问题是如何与超越自己方方面面的人共存。

(二)风险

AI创作的大火在很久之后回顾必然会有Stable Diffusion开源的一席之地，同样这也带来一些争论和风险。 Stability AI的开源简单粗暴，他们几乎什么都不做。审核或过滤。他们只包含了一些关键词过滤，但在技术上很容易绕过。 Reddit提供了有关如何在5秒内删除Stable Diffusion安全过滤的教程。因此，用户可以很容易地指控Stable Diffusion生成了暴力和不好的照片，描绘公众人物和名人，高度复制美术品和受版权保护的图像。 aka deepfakes .

由此，也可以设想该技术将用于各种恶意和影响巨大的用途，很难确定在更长的未来，该技术的开源会带来更大的技术创新还是会带来各种问题。现在最大的混乱可能是Stable Diffusion生成暴力和色情图像

更简单，内容往往包含着人的特征。开源说明禁止人们使用该模式实施各种犯罪行为，但只要将Stable Diffusion下载到自己的电脑上，使用者就可以完全不遵守约束。很多论坛，比如Reddit，都有很多约束政策，屏蔽了相关内容，但是很多用户不断生成名人明星的荒诞图片，AI生成内容的伦理问题再次成为风口浪尖。

在AI制作内容的这些模型中，训练数据中一个明显的视觉素材是受版权保护的作品。这对艺术家来说，模仿艺术风格和美学的行为是不道德的行为，可能违反著作权。 Stable Diffusion也是其中的重要成员，其培训集LAION-5B包含与50多亿张图像相匹配的文本表示，其中包含大量受版权保护的内容。这些内容实际上为许多独立艺术家和专业摄影师所有。这些版权争议给这些AI创作工具带来了窃取艺术家创作成果的漫骂，也让许多有野心想法的艺术家越来越难以生存。

参考资料

: 1.https://arxiv.org/pdf/2209.14697.pdf

2.https://arxiv.org/pdf/2112.10752.pdf

3.[ 1907.05600 ]通用建模系统管理指南

4.https://arxiv.org/pdf/2204.06125.pdf

5.https://imagen.research.google

6.[ 2105.05233 ] diffusionmodelsbeatgansonimagesynthesis

7.https://ommer-lab.com/research/latent-diffusion-models /

（

注意

:后台回复关键词”

人工智能

中，可以获得demo生产工具。)

B站台直播的自研P2P实践S12英雄联赛总决赛助攻

美团高性能终端实时日志系统建设实践

RocksDB 7终于解决了比较时性能下降的问题

实时营销引擎在vivo营销自动化中的实践|引擎篇04

从0到1000万：哔哩哔哩直播框架演进史

本文转载自高可用性体系结构。技术原创和框架实践文章欢迎通过公众号菜单“咨询”投稿

{{userData.name}}已认证

2023年AI画火了！理解文本背后的技术原理。

3d人体解剖学教学软件，3D人体解剖仿真系统

必不可少的instagram营销，instagram电商怎样增粉

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#