从4K到16K,只使用一幅图像进行训练,第一个单样本超高分辨率图像合成框架。

选自arXiv
作者:Donghwee Yoon等人
机器心脏编译
编辑:蛋酱,张骞
在这篇论文中,研究人员提出了OUR-GAN,这是第一个一次性超高分辨率(UHR)图像合成框架,可以从单幅训练图像中生成具有4K甚至更高分辨率的非重复图像。
论文链接:https://arxiv.org/pdf/2202.13799.pdf
传统的生成模型通常基于斑块分布从相对较小的图像数据集中学习生成大图像,这使得难以生成视觉上连贯的图像。OUR-GAN在低分辨率下生成视觉上连贯的图像,然后通过超分辨率逐渐提高分辨率。由于OUR-GAN从真实的UHR图像中学习,它可以合成具有精细细节的大规模形状,同时保持长距离的一致性。
OUR-GAN利用无缝子区域超分辨率,在有限的内存下合成4K或更高分辨率的UHR图像,解决了边界不连续的问题。此外,OUR-GAN通过在特征图中添加垂直位置嵌入,提高了多样性和视觉连贯性。在ST4K和RAISE数据集上的实验结果表明,与现有方法相比,OUR-GAN具有更高的保真度、视觉连贯性和多样性。
我们来看看OUR-GAN的合成效果。下图(上图)是OUR-GAN训练中使用的单幅4K图像,下图是OUR-GAN合成的16K (16384 x 10912)图像。
以下几组是由OUR-GAN合成的风景图片:
OUR-GAN成功合成了具有各种图案的高质量纹理图像:
一次性超分辨率生成对抗网络
OUR-GAN框架
OUR-GAN通过三个步骤合成占用有限GPU内存的UHR图像,如下图3所示。首先,OURGAN生成低分辨率的全局结构。然后采用内存超分辨率,在内存限制内尽可能提高分辨率。最后,OURGAN通过将超分辨率逐个应用到子区域来合成UHR图像,以进一步提高超出内存限制的分辨率。
超分辨率模型的输出分辨率受到训练图像分辨率的限制。然而,ZSSR和MZSR已经证明,通过使用信息的内部循环,超分辨率模型可以生成比训练图像大2到4倍的图像。
全局结构生成
从单个训练图像中学习和合成具有全局一致形状的不同图像是一项具有挑战性的任务。这项研究的初步实验比较了可以用单个图像训练的几个模型。其中,HP-VAE-GAN显示出比其他模型更高的多样性,但其全局一致性不足。因此,本研究选择惠普-VAE-甘作为第一基线模型,并采用纵坐标卷积来提高整体一致性。HP-VAE-GAN通过基于分层补片的生成方案来合成图像,例如等式(1)-(3),其中


分别表示尺度M下的生成器、合成图像和高斯噪声向量。符号表示上采样。
首先,如等式(1)所示,HP-VAE-GAN从高斯噪声开始
生成初始图像,然后如等式(2)和(3)所示逐渐增加分辨率。在1 m L的前期,HP-VAE-GAN应用了patch VAE [19]进行分集,如方程(2)所示,因为GAN模型的分集受到了模式崩溃问题的限制。但在L m M的后期,为了细节的保真,它应用了patch GAN [22],比如方程(3)。
内存中,分区超分辨率
在第二和第三步中,OUR-GAN专注于保真度,并通过添加精细细节来提高先前合成图像的分辨率。在第三步中,OUR-GAN应用子区域超分辨率来提高超出内存限制的图像分辨率。这些步骤中最大的技术挑战是使用单个训练图像来学习超分辨率模型。在这项研究中,高保真是通过预训练ESRGAN(一种以良好的输出质量而闻名的超分辨率模型)实现的,然后使用单个训练图像对其进行微调。在以前的工作中,有超分辨率模型,如ZSSR和MZSR [21],可以从单幅图像中学习。然而,在初步实验中,预训练的ESRGAN显示出比零样本超分辨率模块更高的图像质量。在这项研究中,DIV2K和Flickr2K数据集用于预训练ESRGAN。
第二步,研究人员使用之前合成的图像。
将随机噪声添加到
,然后通过
超分辨率模型
提高分辨率。第三步,他们将图像分成子区域,对每个子区域图像进行超分辨率处理,然后将缩放后的子区域图像拼接成更高分辨率的图像,如图5所示。这种分区超分辨率可以重复多次,以产生具有4K或更高分辨率的UHR图像。
但如果不精心设计,这个子区域的超分辨率会在边界处呈现不连续性。在以前的工作中,有一些防止不连续的方法。以往的工作表明,不连续的主要原因是输入特征图周围的零填充,并提出了一些补救措施。[28]应用重叠平铺策略来扩展输入子区域,以防止边界处零填充的影响。[12]通过精心设计具有交替卷积和转置卷积的网络,消除了零填充。
因为后者需要重新设计网络,研究人员对前者进行了改进。受罗文洁等人(2016)的启发,研究人员将重叠大小设置为电流变流体的半径,这显然小于TRF,如图6所示。图7中的实验结果表明,等于电流变流体半径的重叠足以防止不连续性。电流变流体的渐近近似为O(深度),而TRF的渐近近似为O(深度),这表明该方法的好处不容忽视。
研究人员比较了没有重叠的子区域超分辨率和ERF半径重叠的结果。图7示出了子区域超分辨率输出图像和放大整个图像的普通超分辨率输出图像之间的差异。图7 (a)示出了在没有重叠的情况下,子区域超分辨率在子区域边界处产生显著差异。然而,重叠的子区域削弱了这种差异。
实验结果
一次4K非重复图像合成
下图8显示了OUR-GAN生成的4K样本、基线模型和地面实况图像。
图8。由our-gan生成的4K样本、由基线模型生成的样本以及地面真实图像。
InGAN无法合成包含大量形状的视觉超高分辨率图像,因为它是通过重复小样本训练学习到的小尺度模式来合成图像的。SinGAN可以生成大规模模式,但无法捕捉结构细节。然而,OUR-GAN成功地合成了具有视觉上连贯的形状和精细细节的高质量图像。与其他模型相比,OUR-GAN合成了最具视觉冲击力的图像。
如下表1所示,OUR-GAN在定量研究方面也优于其他模型,在所有配置中得分最高,这表明OUR-GAN整合了全局形状和局部细节的高质量图像。
全球一致性和多样性
为了评估垂直坐标卷积的效果,研究人员将OUR-GAN的第一步模型替换为其他模型,并比较了合成图像的差异: SinGAN,ConSinGAN,HP-VAE-GAN,SIV-GAN。
图9。
图9显示了生成的图像。ConSinGAN和SIV-GAN产生的模式多样性是有限的,而HPVAE-GAN合成的扭曲结构组合了不相关的模式。如图10所示,与HP-VAE-GAN相比,OUR-GAN显著提高了图案的全局一致性,并且产生了比ConSinGAN和SIV-GAN更多样化的图案。
图103360与纵坐标卷积的效果。OUR-GAN通过垂直坐标卷积的空间偏差来提高视觉连贯性。
表二。
表2列出了定量评估的结果。OUR-GAN在定量结果中表现良好。OUR-GAN具有最低的SIFID分数,这表明OUR-GAN在学习训练图像的内部统计方面是有效的。与LPIPS的其他基线相比,OUR-GAN无显著差异。然而,高LPIPS并不总是表明模型产生高质量的图像,因为它不会惩罚视觉上不协调的模式(附录H显示了高LPIPS视觉上不协调的样本)。与HP-VAE-GAN相比,OUR-GAN缺乏多样性,但OUR-GAN可以合成更多视觉上连贯的图像。
一次性高保真4K纹理图像合成
该研究还评估了OUR-GAN在合成高保真UHR纹理图像方面的性能。OUR-GAN学习ST4K纹理图像和合成UHR图像。两个合成样品如图11所示。
更多详情请参考原论文。

其他教程

设计师收集图片的网站(可以编辑图片的网站)

2022-8-28 1:53:13

其他教程

风景园林轴测图(园林景观轴测图)

2022-8-28 1:55:21

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索