计算机视觉概述(计算机视觉的概念)

摘要:你可能对计算机视觉略知一二!
计算机视觉领域最全面的综述(上)
7.纹理合成和风格转换纹理生成用于生成包含相同纹理的较大图像。给定一幅普通图像和一幅具有特定样式的图像,不仅保留了图像的原始内容,还通过样式转换将图像转换为指定的样式。
7.1:特征反转
特征反转是纹理生成和风格转换背后的核心概念。给定一个中间特征,我们希望迭代创建一个与给定特征相似的图像。特征反演还可以告诉我们中间层特征包含了多少图像信息。
给定DxHxW的深度卷积特性,我们将其转换为Dx(HW)矩阵X,这样就可以定义对应的Gram矩阵为:g=xx T。
通过外积,Gram矩阵捕捉不同特征之间的关系。
7.2:纹理生成的概念
它对给定纹理模式的Gram矩阵执行特征逆向工程。使生成图像的各层特征的Gram矩阵接近给定纹理图像的各层Gram。低级特征倾向于捕捉细节信息,而高级特征可以捕捉面积较大的特征。
7.3:风格转移的概念
这种优化有两个主要目标:第一是使生成图像的内容更接近原始图像的内容,第二是使生成图像的风格与指定的风格相匹配。风格由Gram矩阵反映,内容由神经元的激活值直接反映。
7.4:直接生成风格转移的图像
上述直接生成风格转移图像的方法的缺点是需要多次迭代才能收敛。解决这个问题的方法是训练一个神经网络,直接生成风格转移的图像。一旦训练完毕,风格转移只需要一次前馈网络,效率很高。在训练期间,将生成的图像、原始图像和风格图像前馈到固定网络,以提取不同层的特征来计算损失函数。
实验表明,通过使用范例规范化,风格转换网络可以去除与图像相关的比较信息,从而简化生成过程。
7.5:条件范例的标准化
上述方法的一个问题是,我们必须为每种不同的风格训练单独的模型。因为不同的风格有时包含相似性,这可以通过在不同风格的风格转换网络之间共享参数来实现。具体地,它改变了样式转换网络的示例归一化,以具有N组缩放和平移参数,每组对应于特定样式。这样,我们可以从单个前馈过程中获得N种风格的变换图像。
8.人脸验证/识别人脸验证/识别可以看作是一个更细粒度的图像识别任务。人脸验证是给出两张图像,确定是否属于同一个人,而人脸识别是回答图像中的人是谁。人脸验证/识别系统通常包括三个步骤:检测图像中的人脸、定位特征点和验证/识别人脸。人脸验证/识别的难点在于需要小样本学习。通常情况下,数据集中每个人只有一个图像,称为一次性学习。
8.1:面部识别系统的概念
作为分类问题(非常大量的类别),或者作为测量学习问题。如果两幅图像属于同一个人,那么我们希望它们的深层特征非常相似。否则,他们的特点应该是不同的。然后,根据深度特征之间的距离,进行验证或识别(K最近邻分类)。
8.2:DeepFace
第一个将深度神经网络成功应用于人脸验证/识别模型的系统。Face使用非共享参数进行本地连接。这是因为人脸的不同部位具有不同的特征(例如眼睛和嘴唇具有不同的特征),因此传统卷积层的经典“共享参数”并不适合人脸验证。因此,面部识别网络使用非共享参数局部性连接。它使用双网络进行面部验证。当两幅图像的深度特征小于给定的阈值时,它们被认为是同一个人。
8.脸谱网
通过三个因子的净输入,希望负样本之间的距离比正样本之间的距离大一个给定量。另外,三个输入因子不是随机的,否则网络会因为负样本的差样本太大而无法学习。选择最具挑战性的三个元素组(如最远的正样本和最近的负样本)会使网络陷入局部优化。NET使用半困难策略来选择比正样本更远的负样本。
8.4:大区间交叉熵损失
近年来,这一直是一个热门的研究课题。由于类内波动大,类间相似度高,一些研究工作旨在提高经典交叉熵损失对深度特征的判断能力。比如L-Softmax强化了优化目标,增加了对应类别的参数向量与深度特征的夹角。
A-Softmax进一步将L-Softmax的参数向量长度限制为1,使得训练更侧重于优化深度特征和夹角。其实L-softmax和A-Softmax都很难收敛。训练时采用退火法,从标准Softmax到L-Softmax或A-Softmax。
8.5:实时检测
系统确定人脸图像是来自真人还是照片,这是人脸验证/识别任务的关键障碍。目前业内比较流行的一些方法是读取人的面部表情、纹理信息,眨眼或者要求用户完成一系列动作。
9.图像搜索和检索给定包含特定实例(例如特定目标、场景或建筑物)的图像,图像搜索用于在数据库中搜索包含与给定实例相似的元素的图像。然而,由于两幅图像中的角度、光照和障碍物通常是不同的,因此创建一种能够处理图像类别中这些差异的搜索算法的问题对研究人员提出了一个重大挑战。
9.1:经典图片搜索的过程
首先,我们必须从图像中提取适当的代表向量。其次,对这些向量应用欧几里德距离或余弦距离来执行最近邻搜索,并找到最相似的图像。最后,我们使用特定的处理技术来稍微调整搜索结果。我们可以看到,图像搜索引擎性能的限制因素是图像的表示:
9.2:无监督图像搜索
无监督图像搜索使用预先训练的ImageNet模型,没有外部信息作为特征提取引擎提取图像表示。
直觉思维:由于深度全连通特征提供了图像的高级描述,是一个“自然”的向量,直觉思维过程是直接提取深度全连通特征作为图像的代表向量。然而,由于在图像分类中缺乏使用全连通特征对图像的详细描述,这种思维过程只产生平均的准确性。利用深度卷积特征:由于深度卷积具有更好的细节信息,可以用来处理任意大小的图像,目前比较流行的方法是提取深度卷积特征,然后利用加权全局搜索和求和池来获得图像的代表向量。权重指示特征在不同位置的必要性,并且可以采取空间向量权重或通道向量权重的形式。CroW:深度卷积特性是一种分布式表示。虽然来自神经元的响应值在确定一个区域是否有目标时不是很有用,但是如果多个神经元同时有大量的响应,那么这个区域很可能包含目标。于是,CroW沿着河道添加了一个特征图,得到一个二维的合成图,对其进行标准化,并根据量化标准化的结果作为空间权重。CroW的信道权重由特征图的稀疏性决定。类似于TF-IDF中的IDF特征,自然语言处理中的特征可用于促进不常见但高度确定性的特征。类别加权特征:这种方法试图通过使用图像集成网络的类别预测信息来使空间权重更具确定性。具体来说,它利用CAM获取预训练网络中每个类别最具代表性区域的语义信息;然后,它使用标准化的CAM结果作为空间权重。PWA:PWA发现深度卷积特征的不同通道对应目标上不同区域的响应。因此,PWA可以选择一系列确定性特征图,并将其标准化结果作为收敛的空间权重。该系统然后连接结果以形成最终图像的表示。9.3:监督图像搜索
监督图像搜索首先使用预训练的ImageNet模型,并将其调整到另一个训练数据集。然后,它从这个调整后的模型中提取图像表示。为了得到更好的结果,用于优化模型的训练数据集通常与搜索数据集相似。此外,我们可以使用候选区域网络从可能包含目标的图像中提取前景区域。
Twin Network:类似于人脸识别的思想,这个系统使用两个或三个元素输入(-)来训练模型,以最小化两个样本之间的距离,最大化两个不同样本之间的距离。
9.4:目标跟踪
跟踪的目标是跟踪视频中目标的运动。通常情况下,目标位于视频的第一帧,并用方框标记。我们需要预测下一帧中盒子的位置。目标跟踪类似于目标测试。然而,目标跟踪的难点在于我们不知道自己在跟踪哪个目标。所以在任务前无法收集足够的训练数据和训练专项测试。
9.5:双生网络
类似于人脸验证的概念,孪生网络可以用来在一行输入目标帧中的图像,在另一行输入候选图像区域,然后输出两幅图像的相似度。我们不需要遍历不同帧中的所有其他候选区域;相反,我们可以使用卷积网络,它只需要对每个图像进行一次前馈。通过卷积,我们可以得到一个二维的响应图,其中最重要的响应位置决定了框架的位置。基于twin网络的方法非常快,可以处理任何大小的图像。
9.6:CFNet
相关滤波器训练线性模板以将图像区域与其周围区域区分开,然后使用傅立叶变换。CFNet结合孪生网络的离线训练和相关的在线过滤模板可以提高加权网络的跟踪性能。
10.生成模型这种类型的模型用于学习数据(图像)的分布或从其分布中抽取新图像。生成的模型可用于超分辨率重建、图像着色、图像转换、从文本生成图像、学习隐藏图像表示、半监督学习等。此外,生成模型可以与强化学习相结合,用于仿真和逆向强化学习。
0.1:显式建模
条件概率公式用于估计图像分布的最大似然,并从中学习。这种方法的缺点是,由于每幅图像中的像素依赖于前面的像素,所以它必须从一个角落开始,有序地进行,所以生成图像的过程会稍慢。比如WaveNet可以产生类似人类创造的语音,但是由于不能同时产生,一秒的语音需要2分钟计算,实时生成是不可能的。
0.2:变分自编码器
为了避免显式建模的缺陷,变分自编码器隐式地对数据分布进行建模。它认为生成的图像是由隐变量控制的,并假设隐变量受对角高斯分布的影响。
可变编码器使用解码网络根据隐藏变量生成图像。因为不能直接应用最大似然估计,所以在训练中,类似于EM算法,利用变分自编码器构造似然函数的下界函数,然后利用下界函数进行优化。自编码器的优点是各维度的独立性;我们可以通过控制隐变量来控制影响输出图像变化的因素。
0.3:生成对抗网络(GAN)
因为学习数据分布极其困难,所以完全避免了这一步,立即生成图像。生成网络使用生成网络G从随机噪声中创建图像,并使用判别网络D来确定输入图像是真实的还是伪造的。
在训练时,判别网络D的目标是确定图像是真是假,而生成网络G的目标是使判别网络D倾向于确定其输出图像是否真实。在实践中,训练生成对抗网络会带来模型崩溃的问题,生成对抗网络无法学习到完整的数据分布。这是LS-GAN和W-GAN中的一个改进,与变分自编码器一样,对抗网络的生成提供了更好的详细信息。
1.视频分类以上大部分任务都可以用于视频分类。在这里,我们将以视频分类为例来说明处理视频数据的一些基本方法。
1.1:多帧图像特征融合
这种方法将视频视为一系列帧图像。网络接收一组属于视频的多帧图像(例如15帧),然后从这些图像中提取深度特征,最后综合这些图像特征,得到这部分视频的特征,用于分类。实验表明,“慢融合”效果最好。此外,独立组织单个帧也可以获得非常有竞争力的结果,这意味着来自单个帧的图像包含大量相关信息。
1.2: 3D卷积
将标准的二维卷积扩展为三维卷积,以连接时间维中的部分。例如,系统可以采用VG3x3卷积,并将其扩展到3x3x3卷积或2×2收敛到2x2x2收敛。
1.3:分支图像序列
这种类型的方法使用两个独立的网络来区分从视频捕获的图像信息和时间信息。信息可以从单帧静止图像中获得,是图像分类的经典问题。然后通过光流获取运动信息,跟踪相邻帧上目标的运动。
1.4:美国有线电视新闻网RNN捕捉远程依赖
以前的方法只能捕捉几帧图像之间的相关性。该方法使用CNN从单个帧中提取图像特征,然后使用RNN捕获帧之间的相关性。
此外,研究人员还试图将CNN和RNN结合起来,这样每个卷积层都可以捕捉到长距离依赖。
以上是翻译。
本文由阿里巴巴云起社区组织翻译。
原标题《deep-pe-into-computer-vision-with-neural-network-2》,
作者:Leona Zhang译者:老虎说八件事,改版:

其他教程

引导购物的文案(商品营销文案应该符合的要求)

2022-9-3 21:38:13

其他教程

春节的鞭炮声(春节的鞭炮声响起)

2022-9-3 21:40:17

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索