ai将图片转化为线稿(ai生成绘画)

图为人工智能系统DALL E根据文本“穿着芭蕾舞裙的萝卜遛狗”绘制的图像。图片:OpenAI官网
自然处理和视觉处理都侧重于识别和理解不同模态数据中包含的语义信息,但两种数据的语义表达和处理方式不同,导致存在所谓的“语义障碍”,现在正在被AI打破。
1月初,美国人工智能公司OpenAI推出了两款横跨文本和图像维度的模型:DALL E和CLIP。前者可以基于文本生成图像,后者可以基于文本对图像进行分类。这一突破表明,通过书面语言操纵视觉概念现在已经触手可及。自然语言处理和视觉处理的界限已经被打破,多模态AI系统正在逐步建立。
“数据有各种来源或形式,每一种都可以称为一种模态。例如图像、视频、声音、文本、红外线、深度等。都是不同模式的数据。单模态AI系统只能处理单模态的数据。例如,对于人脸识别系统或语音识别系统,它们中的每一个都只能处理图像和声音数据。”中科院自动化所副研究员黄艳在接受科技日报记者采访时表示。
相对而言,多模态AI系统可以同时处理一个以上模态的数据,可以结合多模态数据进行综合分析。“例如,服务机器人系统或无人驾驶系统就是一个典型的多模态系统。在导航的过程中,他们会实时采集视频、深度、红外等模式的数据,然后进行综合分析,选择合适的行驶路线。”黄艳说。
不同层次的任务的强制关联会产生“障碍”
就像人类有视觉、嗅觉和听觉一样,AI也有自己的“眼睛、鼻子和嘴巴”。对于研究的针对性和深度,科学家通常将其分为计算机视觉、自然语言处理、语音识别等研究领域,以不同类别解决不同的实际问题。
自然语言处理和视觉处理的过程是怎样的,为什么两者之间会有障碍?
语义是指词语、意象或符号之间的构成关系和意义。“自然语言处理和视觉处理都侧重于识别和理解不同模态数据中包含的语义信息,但两种数据的语义表达和处理方式不同,这就导致了所谓‘语义障碍’的存在。”黄艳说。
视觉处理中最常见的数据是图像,每个图像都是由不同像素组成的二维结构。像素本身不具有任何语义类别信息,即不能仅由一个像素定义为图像数据,因为像素本身只包含0到255之间的一个像素值。
“举个例子,对于一张人脸图像,如果只看某些像素,我们无法识别人脸图像的语义类别信息。因此,目前计算机视觉领域的研究人员更关心的是如何让人工智能整合像素数据,并判断这个数据集的语义类别。”黄艳说。
“语言数据是最常见的句子,是由不同的词序列化而成的一维结构。不同于图像像素,文本中的每一个词都已经包含了非常清晰的语义类别信息。自然语言处理是基于词的更高级的语义理解。”黄艳说,比如同样的词,如果按不同的顺序排列,就会产生不同的语义,如果多个句子组合成段落,就可以推断出隐含的语义信息。
可以说,自然语言处理主要研究直接用自然语言实现人与计算机之间的有效信息交换,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解人类语言的意义和人类语言的潜在意义。自然语言生成是指计算机可以用自然语言文本表达其意图。
可见自然语言处理要解决的问题深度超过了计算机视觉。自然语言处理旨在理解人类世界,计算机视觉完成的是所见即所得。这是两个不同层次的任务。目前语义分析中自然语言处理高于视觉处理,两者并不等同。如果两者语义相关,就会导致“语义障碍”。
人工智能打破了自然语言处理和视觉处理之间的界限
此前,OpenAI投入巨资打造的自然语言处理模型GPT-3拥有1750亿个超级参数,是自然语言处理领域最强的AI模型。人们发现,GPT-3不仅可以回答问题、写文章和翻译,还可以生成代码、进行数学推理、分析数据、绘制图表和制作简历。自2020年5月首次发射以来,GPT 3号以其惊人的文本生成能力吸引了广泛关注。
像GPT-3一样,Dall E是一个基于Transformer架构的语言模型,有120亿个参数。不同的是,GPT-3生成文本,而Dall E生成图像。
OpenAI在网上炫耀Dall E的“超级想象力”。随意输入一个单词,Dall E就能生成相应的图片。这张图的内容可能在现实世界中已经存在,也可能是根据自己的理解创造出来的。
此前,视觉领域的深度学习方法一直存在三大挑战:3354训练所需的大量数据集的收集和标注会导致成本上升;一个训练有素的视觉模型一般只擅长一种任务,迁移到其他任务会花费很大。即使在基准测试中表现良好,在实际应用中也不一定尽如人意。
对此,OpenAI的联合创始人曾发文声称,语言模型或解决方案可以尝试通过文本来修改和生成图像。基于这样的愿景,CLIP应运而生。CLIP只能通过提供图像类别的文本描述来对图像进行分类。
在这一点上,AI已经打破了自然语言处理和视觉处理的界限。“这主要得益于计算机视觉领域语义类别分析的快速发展,使得AI能够进一步进行更高层次的视觉语义理解。”黄艳说。
具体来说,随着深度学习的兴起,计算机视觉领域从2012年开始陆续攻克了一般自然场景中的目标识别、检测、分割等语义类别分析任务。从2015年开始,越来越多的视觉研究者开始提出并研究更高层次的语义理解任务,包括基于图像生成语言描述、用语言搜索图片、图像的语言问答等。
“这些语义理解任务通常需要结合视觉模型和语言模型来解决,于是出现了第一批跨越视野和语言领域的研究者。”黄艳说,在他们的推动下,两个领域开始互相借鉴优秀的模型和解题思路,并进一步影响了更多传统的视觉和语言处理任务。
多模态交互将带来新的应用。
随着人工智能技术的发展,科学家们也在不断突破不同研究领域之间的界限,自然语言处理和视觉处理的交叉融合并不是个例。
“语音识别实际上已经加入进来了。最近,业界有许多研究视觉语音的新任务,例如基于一段语音生成人脸图像或跳舞视频。”黄艳说,但是,需要注意的是,语音学实际上可能和语言本身在内容上有很大的重合。现在语音识别技术已经非常成熟,完全可以先把语音识别出来,转换成语言,然后把任务转化成语言和图像交互的标准题。
DALL E和CLIP都通过采用不同的方法,在多模态学习领域迈出了令人惊讶的一步。未来,文字和图像的界限是否会被进一步打破,图像的分类和生成能否被文字顺利控制,会给现实生活带来哪些改变,都值得期待。
多模态交互可能会带来哪些新的应用?黄岩举了两个有代表性的例子。
第一个是手机多模态语音助手。该技术可以丰富当前手机语音智能助手的功能和应用范围。目前手机助手只能进行单模语音交互。未来,他们可以结合手机相册等视觉数据和网络空间的语言数据,进行更加多样化的推荐、查询、问答等。
二是机器人的多模态导航。这项技术可以提高服务机器人在视觉和语音(或语言)方面与人的交互能力。比如未来可以告诉机器人“去会议室看看有没有电脑。”当机器人理解语言指令时,它们可以导航并找到视觉和深度等信息。(记者马爱平)
来源:科技日报

其他教程

你最喜欢的设计师以及他的风格(设计新颖独特)

2022-8-20 5:44:05

其他教程

无人机《飞手党修炼手册》航拍第一季结束,第二季我们再见。

2022-8-20 5:46:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索