ai 图像生成技术走了多远,人工智能ai 图像描摹

文本-图像不用于数据

也可以让AI学习句子的制图吗?

来自其他国家

打工族

的最新text2image模型完成了。

实验数据表明,其效果比VQGAN-CLIP更真实,尤其是

泛化能力

相当有用

大量

文本-图像数据相对于训练过的模型来说相当好。

诶? 不给予文字评论的AI怎么知道每个图像代表什么?

这个模型到底是怎么训练的?

不用文字训练就能从文本中生成图像,首先选择这种方式是因为据作者介绍,它收集了大量的带文字的图像数据集

成本太高了

已经结束了。

摆脱了对文本-图像数据的需求后,我们可以直接使用

大规模无文本图像数据集

(例如ImageNet )

培训功能强大、通用的text2image生成器。

把打工实现的这个模型

剪辑- gen

那个具体怎么操作?

总共分为三大步骤。

首先,对没有文本标签的图像

剪辑

的图像编码器,语言-视觉

(语言-视觉)

共同嵌入空间

(嵌入式空间)

在中提取图像的嵌入式。

然后,将图像转换为

VQGAN

码本空间

(代码簿空间)

的一系列离散标记

( token )。

这意味着图像的表示方式与自然语言类似,便于以后使用Transformer进行处理。

其中,起到image tokenizer作用的VQGAN模型可以使用手中的无标记图像数据集进行训练。

最后,我再训练一个

自回归Transformer

中,使用它将图像标签从Transformer的语言-视觉统一表示映射到相应的图像。

经过这样的训练,对于一系列的文本记述,Transformer可以根据从CLIP的文本编码器中提取的文本进行嵌入

(文本嵌入)

生成相应的图像标记

( image tokens )

已经结束了。

这样没有参加训练文本数据的文本图像生成器

到底有没有效果?

与清华CogView性能相当的作者分别在ImageNe和MSCOCO数据集上进行了CLIP-GEN的训练和评估。

首先,利用MS-COCO验证集的6个文本描述生成样本。

比较CLIP-GEN和大量文本-图像训练的text2image生成模式的效果:

其中,

VQGAN-CLIP

结果是比较不现实的,并伴随着严重的形式

扭曲。

清华人

CogView

据说比DALL-E更好。 在这里的实验中,确实可以生成良好的图像结构,但是在这里

纹理详细信息

差点儿就出了事。

DF-GAN

虽然能够生成丰富了细节合理的图像,但也容易发生在局部

人工因素。

作者认为,与这些比较模型相比

CLIP-GEN图像细节更丰富,质量更高高一

例如,很好地解释了第二组文字所要求的“水中的影子”

(但是,“三只熊”中的数字概念不是很理解。)。

定量的实验结果基本证明了这个结论:

CLIP-GEN获得了最高的FID-0、FID-1得分; CapS分数

(测量输入文本和生成图像在意义上的相似性)

除了比CogView低4%外,比其他型号高很多。

另外,作者还介绍了CLIP-GEN的

泛化能力

好像还不错。

在下面这些非常规的文章中,比如“会飞的企鹅”、“叼着雪茄的狗”、“有脸有头发的柠檬”……CLIP-GEN几乎可以实现,但其他的模型不太理解。

作者介绍本模型的五位作者均来自兼职。

第一部的名字

王子豪。

通信作者的名字

易子立

,本科毕业于南京大学,博士毕业于加拿大纽芬兰纪念大学,目前兼职担任人工智能专业

(主要研究多模态、超分辨率、人脸特效)

在此之前,他在华为工作。

论文地址:

https://arxiv.org/abs/2203.00386

结束了

量子比特QbitAI 头条号合同

关注我们,第一时间了解尖端技术动态

动态分享

2023年弹出窗口的设计原则

2022-12-7 21:46:59

动态分享

2023年推荐了功能强大的帮助文件制作软件Baklib,制作效果堪比Noting.io

2022-12-7 21:49:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索