雯生于凹非寺
量子报道|公众号QbitAI
OpenAI刚刚发售的年末新作GLIDE将扩散模型
着了小火。
基于此漫反射模型的文本图像生成的模型参数越大,其大小越小,但生成的图像质量越高。
因此,仍然由OpenAI制造,论文标题直接被称为“在图像生成中打败GAN”的ADM-G模型
也进入了大众的视线:
从基于papers with code imagenet数据集的图像生成模型排行榜来看,64 x 64到512 x 512的分辨率位居首位。
与曾经被称为史上最强图像生成器的BigGAN-deep相比,也不会落在下风,也能够通过LSUN和ImageNet 64 64的图像生成效果达成SOTA。
有网友对此感叹,虽然几年前图像生成领域还由GAN主导,但现在可能会变成扩散模型。
添加类别条件的扩散模型。 首先来看看扩散模型的定义。
这是一种新的图像生成方法,其名称中的“扩散”本质上是一个迭代过程。
具体地,从完全由噪声组成的图像中,预测在每一步骤中去除的噪声,重复去噪声以获得高质量样本,随后逐级增加更详细的信息。
OpenAI的这个ADM-G模型是在此基础上在图像生成任务上添加了类别条件的
形成了独特的烧蚀扩散模型。
研究人员分别从以下几个方面进行了改进
基本体系结构
基于UNet结构,改进了五个方面:
增加深度和宽度,同时保持模型的大小
增加头部注意
数量
在3232、1616和88分辨率下使用注意机制
使用BigGAN残差块对激活函数进行上采样和下采样
合并残差)。
缩小到原来的1/根号2
类别引导( Classifier Guidance ) )
在噪声逐步转化为信号的过程中,研究人员引入了预训练的分类网络。
可以生成中间图像的预测,得到标签。 也就是说,可以对生成的图像进行分类。
然后根据分类得分和目标类之间的交叉熵损失计算梯度,通过梯度推导下一次生成采样。
分类梯度) )。
通过缩放由超参数分类的网络梯度来控制生成的图像的多样性和精度。
例如,左为1.0大小的分类网络,右为10.0大小的分类网络,可知右的生成图像的类别明显一致:
也就是说,分类网络的梯度越高,类别越一致,精度也越高,同时多样性也越小。
生成区域的新热点当前,该模型在GitHub中已经接近千标星:
与GAN相比,扩散模型生成的图像更为多样和复杂。
基于相同的训练数据集,扩散模型可以生成全景、局部特写和具有不同角度的图像:
(左) BigGAN-deep右) ADM
其实,自2023年谷歌发布DDPM以来,扩散模型逐渐成为生成领域的新热点。
除了文章中提到的OpenAI的两篇论文外,还有Semantic Guidence Diffusion、classifier-freediffusionguidence等基于扩散模型设计的多个生成模型。
扩散模型接下来在视觉任务中会有什么新的应用呢,明年再来看看吧。
指向论文的链接:
https://arxiv.org/abs/2105.05233
开放源代码链接:
3359 github.com/open ai/guided-diffusion
参考链接:
[1] https://www.casualganpapers.com/guided _ diffusion _ Langevin _ dynamics _ classifier _ guidance/guided-difffed
[2] https://www.Reddit.com/r/machine learning/comments/rq1cnm/d _ diffusion _ models _ beat _ gans _ on _ im
—完—量子位QbitAI 头条签约关注我们,第一时间了解前沿科技动态