拯救老电影——详细讲解了爱奇艺ZoomAI视频增强技术的应用。

嘉宾|姜子东整理|随灵出品| AI技术大本营(微信官方账号ID: rgznai 100)看各种视频节目，已经成为当下的一种娱乐休闲方式。技术的进步，网速的升级，增强了我们的视觉快感，但你总会遇到一些情况，比如画面抖动、色彩灰暗的老电影/电视剧；用户带宽有限，选择低码流的模式；主上传视频/短视频质量不可控等。那么如何优化技术为用户提供更高质量的视频内容呢？爱奇艺算法工程师高级教师蒋子东，最近在AI技术大本营平台做了《爱奇艺ZoomAI视频增强技术的应用》的公开课分享。通过本课程，您将能够了解AI算法在图像增强领域和爱奇艺业务中的应用；了解超分辨率、色彩增强、划痕去除等深度学习模型的技术演进、工程挑战和解决方案。课程回放：https://edu.csdn.net/huiyiCourse/detail/964以下为姜子东老师演讲实录。大家晚上好！我是爱奇艺算法工程师姜子东。很荣幸参加今天的活动，欢迎大家分享ZoomAI视频增强技术，这也是我在爱奇艺的主要工作之一。这次分享大概会有这四个方面：一、这项技术的背景以及我们为什么需要视频增强？其次介绍视频或图像中各种增强技术的原理，包括最新的学术论文，以及自己的思考和尝试。再次，介绍了爱奇艺ZoomAI技术的框架及其在各业务线的应用。第四，分享总结和一些参考。
首先，视频/图像增强技术的重要性和现状。现在我们先来看看为什么要视频增强。去年年初，有一个共识，视频行业已经进入“超高清时代”。去年，中央电视台还推出了4K超高科技电视频道。我们会发现市面上的硬件产品基本都是超高清或者4K标配，无论是电视屏幕、机顶盒、VR设备等。其实虽然我们有那么多高清的硬件设备，但实际上我们并没有那么多超高清的视频资源。甚至可以说很多视频资源的质量很低。为什么会这样？我们总结了以下原因：第一个原因是用户的行为不可控。众所周知，最近的UGC视频应用或者图片应用非常流行，就是用户可以自己拍摄、制作、上传很多短视频和图片。例如，喜欢微博，Tik Tok，朋友圈等。爱奇艺还有视频、姜饼、泡泡等很多应用。但是用户的行为是不可控的，用户缺乏专业的拍摄设备和拍摄技巧。比如暗光拍摄造成背景噪点多，画面太暗。比如画面在广播中被多次压缩，产生大量压缩噪声。第二个原因是它本身的片源很老。比如下面两个例子，左边的《渴望》是90年的片子，右边的《护士日记》是1957年的黑白片子。
因为以前VCD、DVD之类的媒体分辨率都在720P以下。让我们简单看一下。比如这是《渴望》的效果。人物脸上有很多噪点，背景上有划痕。你可以看到脸上有很多噪点，然后胶片上会有一些划痕，就是横线，细节模糊。然后如这里的《护士日记》所示，可以看到明显有很多划痕和白点。我们可以看到旁边的桌子上有很多白色或黑色的划痕。原因是可能是胶片本身的损坏，也可能是胶片转数码过程中引入的损坏，会造成正面这些问题，比如划痕、噪点、图像抖动等。最后，用户主动选择低位流。有一个客观问题，就是即使画质好，我还是要看不起画质。为什么？比如可能是月底了，或者我所在的地方网络信号不好，不得不选择低码流的模式。既然选择了低码流，服务器会尽可能的降低分辨率，也会增加更多的压缩，会产生很多压缩噪音。可见，产生低质量视频的原因是多方面的。随着人们的追求越来越高，提高视频或图片质量的需求也越来越迫切。我们可以看看历年来图像和视频增强的相关文献，可以看出是一个逐渐完善的趋势。
第二，视频/图像增强技术的原理和挑战。如前所述，图像或视频质量低的原因是多方面的。其实每个维度都是学术和行业的研究课题。我们今天就从这五个方面来说：超分辨率是为了解决分辨率低的问题；去噪锐化是为了解决背景噪声或者压缩噪声的问题；色彩增强是为了解决颜色灰暗的问题；帧插入意味着低帧率；划痕去除就是由于胶片损坏，视频上出现很多划痕，或白点，或白块，或水渍的问题。
首先我们来看超分辨率的问题。这个问题的描述，相信来上这个课的朋友应该知道，是低分辨率的图片，一个模块之后就会变成高分辨率的图片。如果用现在流行的深度学习模型来完成这个项目，一般是CNN模型，我们得到的是高分辨率的地图。然后我们有了一个真正的高分辨率图，在它们之间取一个损耗，使这个损耗最小，从而通过反向传播优化CNN中的系数。
主要有两个问题：第一个是CNN的结构设计，如何设计这个模型结构，使得更多的像素可以被有效地恢复或创建。其实这是为了创造像素，因为原来像素就少，变成高分辨率后像素就多了。第二点是如何选择loos功能，使图像的细节或边缘更清晰。我们来看看几种主流做法：第一类是单帧超分。
输入是图片，输出是这个输入图片的高分辨率图片。右下角的这张图片是来自DBPN的这篇文章的摘要。我把它带来了。首先，左上角是最初的DNN方法，这是一个小图。首先，它通过传统的插值过程放大，例如双线性插值，然后通过全卷积网络放大。这里最经典的是SRCNN，它是深度学习超分的开山之作，其次是它的进化VDSR。VDSR的主要区别在于它最终训练的是两者的区别，而不是直接生成一个真实的图。这种全局残差后面也会用到，实测效果不错。左下角是先全卷积再上采样的过程。这种上采样可以是去卷积或子像素，其代表FSRCNN和EDSR。它有一个优势，就是做这个全量的时候输入图像尺寸比较小，所以第一个优势就是它的速度。然后我也给了一个训练机会把这个事情放大，就是我的放大不是直接放大，它可以有一个训练系数。右边的两种方法虽然是新的，但其实都适合放大两倍或者更多。比如上面那一圈，一听名字就知道图像是先金字塔分解，然后一步步放大。比如你要放大八倍，那就放大两倍，再放大两倍，再放大两倍，而不是一次放大八倍。在右下角，DBPN是一张放大再缩小，再放大再缩小的图片。然后中间的每一个模块都用类似DenseNet的方法连接起来，融合后最终得到一个结果。DBPN自己的文章中有数据对比。它的性能在放大两倍时还不如EDSR，只有在高倍数超分时才能显示出它在这种结构中的优势。代价是其操作的复杂度和时间以及内存和显存的消耗都会增加。第二类是基于多帧图像的超分辨率。因为很多时候我们处理的视频其实是可以利用视频前后帧的关系的。因为前后帧有更多的细节，我们可以呈现更多的细节。如何融合前后帧的关系？一种方法是以时间为通道数。正常情况下，我们一张图片有三个通道。如果有三张图片，实际上就是九个通道，那么我们可以把它当成一个九通道的东西，然后直接通过2D卷积进行后续处理。我们也可以把时间当成另一个维度，用3D卷积来处理。
第二种融合前后帧的方法是使用光流，这种方法最近也很流行，会在视频的很多领域使用。所有考虑前后帧关系的算法都有一个大类，就是利用光流的方法。让我们简单看一下什么是光流。让我们看看左边的这个人。当他从背上取出一支箭时，他的手肘从这个位置变成了这个位置。其实这里每个像素的运动都是光流。粗略的理解可以看作是一种运动估计。因为有各种各样可以学习光流的网络，假设我们的光流已经学会了，怎么整合呢？在这篇文章TOFlow中提到，如果我们有了这一帧及其前后两帧，我们可以根据两帧之间的光流，根据前一个镜头估计当前帧，或者根据下一帧估计当前帧，这样我们就有了三个当前帧，即真实的当前帧和两个估计的当前帧。我们将这三帧图像合并，经过2D和三维卷积处理，就可以得到最终生成的超分辨率图像。
我们这个阶段的模型设计的结构是这样的：先用单帧处理，再用单上采样，再用全局残差。因为我们实际上对比了单帧和多帧的区别，发现从肉眼来看，单帧的效果和多帧非常接近。这种情况下多帧的消耗会多很多，还会有一些其他的影响，所以我们选择了单帧的处理方式。为什么只使用单个上采样？在我们的业务场景中，图片基本上会放大两倍，放大四倍的可能性不大，所以直接用单张的性价比最高。使用DenseNet的结构参考了DBPN的思想，引入了更多的底层特性。然后是全局残差，因为VDRI之后，大部分超分都会采取全局残差的形式。可以想象，低分辨率图像和高分辨率图像在低频下基本是一样的，唯一的区别就是那些细节。这个增加意味着右边的图像是低频成分，整个网络只需要学习那些高频细节。至于损失函数的选择，一般来说，最常见的是这种L1或L2损失，即mse或mae。许多论文也对此进行了讨论。像mse这样的损失自然会导致图像模糊。现在有一大类损耗叫GAN，根据图像的分布产生像素。GAN的损耗在很多demo中可以说是非常惊人的，但是我们在使用的过程中发现了两大问题。我们可能不适合自动化流程：第一个可能会造成语义不一致。我们可以在盒子里找找，左边的没有加GAN，右边的加了GAN。可以看到，右图确实比左图清晰很多。
但问题是太明确了。右图原图中真正的头饰其实是一个太阳，但甘的放大图虽然清晰，但看不出太阳是什么样子。所以它改变了图形的语义。左边的虽然模糊，看不清楚，但不改变语义。如果是针对UGC图片用户上传的图片，不能擅自改变用户的初衷，在语义准确和图片模糊之间做出取舍。我们认为语义准确性更重要。GAN的第二个问题会放大噪声。低分辨率的图像往往伴随着噪声，这种噪声可能被甘具体化为一种具体的东西。
我们最终的选择是mse加上损耗梯度。梯度损失实际上是运动预测网络中常见的损失，这就要求生成的图形和真实图形的梯度要一致。因为梯度就是边缘。在很多情况下，我们希望让边缘变得锋利。加入梯度损失会使整个网络的边缘趋于尖锐。我们来看下面这个例子，左边的是最常见的，然后这里是没有渐变的los，这里是有渐变的los，就是看到头发边缘会更锐利。我们来看一个视频中超分的例子。这个例子是去年爱奇艺世界大会上展示的。可以看到左边比较模糊，右边会比较清晰，是540P到1080P的视频。
之前介绍的是基于云的算法。实际上，移动终端采用深度学习的方法并不合适。虽然有tflite、ncnn等基于移动的深度学习框架，但毕竟和机器不太匹配。很多中低端手机实际上是无法运行这一代机型的。在移动端，我们主要考虑的是效率，所以我们使用了单层过滤器进行训练和优化。
先说超分后的去噪。图像中的噪声主要是背景噪声和压缩噪声。其实去噪和过分的网络结构可以很相似，因为都是“图对图”的生成网络，所以上面说的这些基本都可以互相借鉴。比如右侧也引导全局残差。
其实去噪主要有两个问题：一个是去噪本身就是低通滤波器，也就是基本上可以近似为低通滤波器。如何在烘干过程中尽可能的保留边缘和细节？第二个是如何模拟真实的噪声，因为很多论文其实已经说了，很多去噪方法在合成噪声的测试集中是很优秀的，因为他们也是用人工合成引起的方法来训练，比如加一个高斯噪声，但是这个时候在真实的图片中可能就不行了，所以如何更好的模拟真实的原因也是一个很大的问题。
我们可以看看两个经典的去噪网络。第一个是DNCNN，这是一个全卷积模型。只要输入一个噪声图，经过多层卷积，最终会出来一个全局残差。在训练期间，各种级别的高斯去噪被添加到训练集中，以模拟多原因混合数据集。第二个是CBDNet，也就是2019年的CVPR。它的网络分为两部分。首先我们需要在画完一张图后估计出噪声水平，然后将估计出的噪声水平输入到第二个网络中，加上原图，再计算出一张最终生成的图。中间还引入了一个不对称损失，即根据实验发现，如果之前的噪声估计也不准确，那么小估计比大估计好。不对称损失意味着双方的惩罚不一致。
当我们在这里这样做时，我们采用一个端到端的网络来同时完成去噪和锐化。噪声主要是背景噪声和压缩噪声。同时做去噪和锐化，弥补去噪带来的边缘模糊，网络结构和之前的过分很像。如何同时完成去整形和锐化？其实总的思路是在训练集中加入一定比例的噪声和模糊，然后不断贴近真实情况，然后不断调整，然后得到更好的效果。
可以看一些实拍的例子。绿手周围的噪音消失了。那么，以右图《渴望》为例，如果突出文字，衣服的格子纹理会更清晰。
接下来我们来看下一个问题，也就是色彩增强的问题。主要解决图片或视频亮度差、CVPR亮度、曝光过度或色彩暗淡的问题。主流有两种方式。第一个是黑盒模型，这是一个端到端的生成模型，就是拍一个不好的图片，经过这个网络，或者全部卷起来，或者unet，然后生成一个好的图片。例如，DPE今年18岁。前端网络是一个unet结构。输出一张图片后，如果我们有一对数据段，也就是手动PS后的一张坏图和一张对应的好图，那么我们可以用mse的损失GAN的损失来做。如果我们没有配对数据，可以用cycleGAN的这个方法。为什么是黑盒模式？因为我们最终得到了一张增强的图片，我们不知道它是如何把一张不好的图片变成一张好的图片的。
第二种是白盒模型，是回归模型而不是生成网络。输入原始图像，输出各种颜色相关的参数，然后只需使用正常的图像处理方法对原始图像进行处理即可。可以参考微软提出的曝光法，把强化学习和GAN结合起来，把一个不好的画面一步步变成好的。为什么要加强学习？和下棋一样，比如有12个棋子，每个棋子都要先下哪一步再下哪一步，每一步的用量都可以调整。
下面总结一下这两种方法。第一，黑盒模型更容易训练，因为是一代模型，上一代模型都可以训练。但是它的问题是色块中可能出现异常值，导致语义不一致。毕竟，卷积的原理导致输出像素值与感受野中的其他像素值以及原始像素值相关。第二个问题是，如果原图很大，这个时间会很慢。白盒模式其实更符合人类PS的习惯。得到一张图片后，你只需要知道调整哪些参数来改变它。而且更适合视频处理。但它的问题是训练很难收敛，效果最好的例子可能还不如黑箱里的。
为了稳定线上模型，我们设计了比曝光简单很多的白盒版本。首先，我们不再介绍强化学习了。我们只处理这三个量：曝光、饱和度和白平衡。因为经过大量的实验，我们发现这三个值对于调整图片的颜色是最重要的。然后我们确定它的顺序。最后，当我们寻求损失时，我们有两个损失。首先损失的是增强图和真正好图的mse，因为我们有一些配对的数据集，比如Adobe的FiveK。第二个损失是色彩调整参数的mse。这个真值是怎么获得的？我们也可以自建一些数据集，也就是在我们得到一张好的图片后，刻意降低它的曝光度和饱和度。这个时候，其实我们就知道要加多少曝光和饱和度才能补上了。所以我们可以融合这两个损失，一方面得到这个mse的损失，另一方面让这些回归损失变小，可以让整个模型更稳定。同时计算量很小，一张大图可以缩小到6464进行处理。
看最后处理的效果，第一列和第三列是原始图像，右边两列是增强图像。调整亮度、饱和度、白平衡后，可以看到效果还是可以的。
接下来的问题是如何在视频处理中保持帧间的一致性。在许多情况下，我们的视频是一帧一帧制作的。例如，如何确保这一帧变为正红，下一帧也应变为正红？如果一段时间越来越暗，你会发现颜色在抖。如何解决这个问题？很少有公开论文讨论这个问题，但是我们设计了一个解决方案：先进行场景分割，再进行白盒模型。也就是把一个视频帧分割出来之后，我们可以把它分成不同的场景。这个场景分割的基础是找到图片颜色的突变点，然后我们在每个场景中选择一帧做白盒模型得到参数。该场景中的所有帧都用相同的参数增强。
我们可以看一个简单的视频例子。《渴望》的色彩增强。比如树叶会更绿。
增色后，看下面的划痕。划痕去除其实是一个比较小的问题，相关论文很少。主要是因为电影本身的媒介受到了损害。这里举个例子，可能有人把片子刮花了，最后播的时候会有刮花，也可能是读的时候磁头什么的干扰了，这种波动会动。
解决这类问题的经典方法是两步。首先，检测划痕，然后去除划痕。在大多数情况下，划痕检测采用直线检测的方法。直线检测就是找到空间中的垂直线、水平线、直线，然后用空间插值或者时间插值，用其他像素填充这条线。它的缺点很明显。第一，如果划痕不是一条直线，是水渍，是白点，是弯弯曲曲的，效果可能不行。第二，图片本身可能有横线或竖线，比如电线杆或桌子上的纹理，所以会被误删除。
那么如何应对这种方法呢？我们可以借鉴前面超分提到的光流法来设计，但是这里有一个前提，就是划痕只能出现在这一帧的这个位置，而不会出现在前后两帧的同一个位置。这是由划痕产生原理决定的，因为两张膜不可能在同一位置产生完全相同的划痕。有了这个前提，我们就可以设计上面的模型，利用光流估计某一帧，然后融合。但有一个问题，那就是如何保证这前后的2k帧在同一个场景中？因为正常视频中有剪辑，会有场景切换，所以刚才讲的场景算法还可以再用。我们可以看到最终的效果。
最后一个问题是关于框架插入。插帧的技术其实很好理解，就是原始视频帧率比较低。如何提高视频帧率才能让观看体验更流畅？比如体育直播，动画片，动作片，武侠片可能用的比较多。主流的方法基本都是这样的。它们通过光流估计，然后翘曲融合，和之前的去划痕结构很像。
比如CVPR18中的这个，说明它一边有光流，右边有会聚。它的创新点是什么？即增加一些边缘提取，做一些边缘特征，以保证最终合成插入的帧也有较好的边缘。这个还没有开源的实现。我们在这个模型的基础上做了一些削减，因为右边的那个太大了。我们先简单看一下效果左边的原视频。车滑过去看到一卡一卡一卡，右边的会更顺畅。
第三，介绍ZoomAI技术的实现和应用。第三部分介绍了ZoomAI的框架和应用。麦图解。图片方面，它在工具包里有三个——超分辨率，去噪锐化，色彩增强。因为都是针对一张图片做的，输入一张图片后，这三个界面都可以做的一样，这样各个业务线都可以自由配置。使用什么工具以及它们的顺序，或者它们各自的参数，都可以灵活配置。这就是1.0方案。
在2.0中，我们增加了对内容的理解。现在来想想很多图。例如，当背景在肖像模式下模糊时，则不应该锐化背景。如果这张图片中有文字，可以大胆的进行文字区域的锐化。所以在2.0中，我们首先通过文字检测来检测文字区域，同时也通过一个前景提取网络来检测这张图片的前景区域和背景区域。然后每个区域的这个模块就是之前1.0的模块，最后得到一个结果。我们来看一下原理图。比如这张图，Nana本身是前景区域，文字部分是文字区域，剩下的是背景区域，这样才能融合。
麦视频解决方案。这个视频方案有很多工具，首先是两个预处理工具，——，场景分割和重复帧的去除，然后是一些帧间算法，——，划痕去除和帧插入，然后是单帧算法，3354，用来处理单个画面，比如过评分，去噪锐化，颜色增强。将每个视频解压缩成一个画面，然后去掉重复的帧，再进行场景分割。每个场景经过帧间算法和单帧算法，最后与原始音频结合成为最终视频。这中间部分可以根据业务条线的逻辑随时调整。
业务和使用场景。可以看到，ZoomAI已经包含了几个算法模块，在爱奇艺的很多产品线和应用场景中都有应用。
下面是一些现有的应用场景。首先是这部国剧的复原项目，主要使用去噪锐化和划痕去除两个模块。经过我们的处理后，人的面部显得更加平滑，背景无噪，人物不会抖动，人物更加突出。这里的AI加工相比人工加工，最大的优势就是效率提高，成本降低，效率提高500倍。国剧修复第一阶段成果已于春节期间上线。现在准备在暑假推出包括四大经典小说在内的第二批经典电视剧。
这是老综艺视频的处理。评书全集《乱世枭雄》刚刚在爱奇艺上线。它的原始分辨率很低，只有240P，而且有很多锯齿。修复后清晰度提高很多，达到了在线标准。让我们看一个例子。桌子这边纹理更清晰，左边原图会模糊。这里有一个动画增强。我们使用超级模块和色彩增强，右边的红色会更红。我们来看看视频的效果。右边的草会更绿，整体颜色会更亮。这里的红色，包括后面会出现的黄色，整体会更加鲜艳。而且采用场景分割后，颜色不会抖动，非常稳定。
这是3D动画《四海鲸骑》的帧插入效果的显示。左边这张是原装的，可以看到船转弯的时候一张一张卡住了，右边这张明显更流畅。尤其是镜头缩小的时候，左侧有很强的停滞感，右侧会更流畅。
以下是增强每个频道的封面图像的效果。现在打开爱奇艺，看到的封面图片基本都是ZoomAI增强的，用的模块是去噪锐化和色彩增强。
四。高级资源推荐和经验分享。下面谈谈工程思维。学术界和工程应用各有侧重。前者侧重于模型设计和创新，而工程应用花在数据和训练上的时间最多。我们这行最重要的是数据。与kaggle竞赛不同，我们没有现成的数据集，需要依靠各种工程技术来收集反映实际应用场景的数据。数据的质量很大程度上影响最终模型的效果。那么对于模型的结果，PSNR等指标可以作为参考，但最终还是要看主观感受。在过分插框的训练中，我们遇到很多A比B强，但B主观上比A强的情况。毕竟最后呈现给用户的是主观感受。这也是目前评价指标的偏差，很多GAN相关论文都有阐述，我们也在研究这个问题。对于模型的选择，我们更注重模型的稳定性和泛化能力。毕竟是线上服务，不是为了惊艳的演示效果。当然，在选择和设计模型的时候，我们还需要考虑更重的约束，比如模型大小本身的约束，执行速度的约束，支持什么框架等等。找到最终效果和效率的平衡点。最后是我之前提到的论文来源。感兴趣的朋友可以进一步看看。这是今天一般的分享内容。
下面的QA链接是蒋子东对用户问题的回答。问：超分辨率使用传统方法来增强图像细节。有哪些客观指标可以评价不同增强方法的效果，还是只能主观评价？答：客观指标可以看一些趋势，做一些快速判断。但最终还是要引入主观评价来确定效果。爱奇艺有完整的质检团队来判断媒体的质量。除非你在玩游戏，如果你在玩游戏，它用什么客观指标都可以。但如果是真实应用，主观评价更重要。问：划痕去除过程中有融合CNN。这个CNN是用什么数据集训练的？答：去划痕的数据是我们自己生成的数据，也就是我们可以得到很多视频帧的剪辑，然后我们自己加上划痕。划痕是不同形状和颜色的块或线。还有一个方法，你可以试试。现在很多剪辑软件都可以添加老电影特效，你也可以用这个方法添加划痕。问：去噪的训练数据是如何构造的？如何模拟真实的噪音？模型是实时处理的吗？答：现在的去噪模型不是实时的，但是可以实时。如果是实时，网络需要简化。如何模拟真实的噪音？真正的噪音是这样的。其实你可以看看香港理工大学的一个理大数据集，这是一个真实的噪音数据集。需要一个固定的相机多次疯狂拍摄一个场景。疯狂拍摄之后，每一帧都有噪点，然后取一个平均值，我觉得是真实的画面。我们一方面使用这个数据集，另一方面尝试加入不同的高斯噪声和压缩噪声。问：去噪时如何同时训练去噪和锐化？回答：不同比例的噪声和高斯模糊被设计添加到数据集。问：对于没有参考指标的视频，如何判断当前视频的质量？要不要增强，降噪，锐化？答：这是我们在做的评估视频质量的工作，可以判断视频的噪点水平和模糊程度，用来指导后续的增强。现在在线短视频增强中加入了这样一个模块，只会对评价不那么好的视频进行增强。问：ZoomAI是爱奇艺开发的框架吗？答：ZoomAI应该是爱奇艺开发的媒体增强解决方案，对视频或图片进行增强。它本身由多个算法模块组成。问：超级分数的梯度损失是如何选取的？答：梯度损失是指生成的图形和真实图形的“梯度”的mse一致。因为渐变是边缘，意味着除了让它平缓的地方靠近，更重要的是强调它渐变的局部靠近。这时候有两个损失。两个损失融合的时候，一定要有一个权重参数，这个参数可以调整，在最好的场景下做出最好的效果。问：如何解决移动终端功耗过大的问题？答：移动端相当于我们不用深度学习框架。我们用的是自己写在GPU上的SDK，所以它的功耗可以自己控制。如果使用深度学习，这个功耗可能会有一些问题。问：明明移动端有那么多AI模型，为什么不能用深度学习进行过分？答：这就是生成模型和回归或分类模型的区别。生成模型的复杂度与要生成的图像的面积成正比。对于图像增强，图像的目标分辨率肯定不会太小，所以模型不会简单，计算量也不会小。而如果你指的是分类问题或者简单的回归问题，你可以把原图缩小到很小的尺寸，然后你的计算量就没有那么大了。就像我们颜色的白盒处理一样。问：去噪是一种模式吗？还是不同的噪音有不同的型号？蒋子东：我们这里做的是多种模式。其实前面会有一个判断，根据对噪音的判断来决定不同比例的车型。问：什么是视频评分数据集？答：数据集是爱奇艺内部的，通过我们的质检团队会有很多这样的数据。
问：你对NIMA这个图像评估算法有什么看法？答：我觉得有参考价值，但不能作为硬指标来评判。因为是第一篇用CNN做质量评测的文章，而且效果还可以。如果对同一张图片区别对待，这个评价还是有参考价值的，但是如果用于多种图片，因为图片可能是风景，可能是人，也可能是杯子，那么这个评分可能因为数据集的限制而不那么可信。问：色彩增强会对场景进行分类吗？答：其实会有的。分为五类，人物，风景，美食，漫画，其他。问：ZoomAI可以实时处理实时显示吗？回答：如果是纯实时视频流，那么就是手机上的那种，实时显示。其他什么都不需要。如果我们只在服务器端做，就没有必要实时做。我们只需要上传视频，最终生成一个好的视频。问：锐化和降噪的顺序？回答：因为是一起加工的，所以顺序上没有区别，都是一个型号的直接结果。问：场景风格对深度学习有用吗？答：没有这方面的专门研究，我觉得可能有用，但是对于我们的业务来说，不需要这么复杂。例如，对于颜色增强，我们希望分割出颜色的强烈变化。就算这个场景不变，突然开灯，还是客厅的场景，只是颜色突然变了。这个时候我们也希望它判断场景发生了变化，所以用颜色的维度来判断相似度，效果不错。问：如何将模型缩小，放入移动端？答：这其实是个大问题。其实很多论文都在讲这个问题。首先，如果你去分类什么的，首先要选择本身就是为移动端设计的结构，比如MobileNet等。这样会放很多进去。如果生成模型，实际上只有激烈的切割，这减少了中间特征的层数和通道数。问：我们现在的ZoomAI是在不同的地方使用吗？答：有在移动端实时运行的应用，比如前面提到的爱奇艺播放器的移动端和PC端。而且有些是后端的媒体增强，代替人工修复或者人工增强。问：一般需要多少训练样本？答：这个要看任务和你能拿多少。有些比较简单，比如去噪。我记得是200万张图，有些不那么容易拿到的数据会更少。问：视频帧插入后，25变成50fps，视频翻了一倍。一定要插值相应的音频吗？回答：音频不需要插值，因为音频的采用率没变，还是原来的样子。插入帧后，持续时间保持不变。插帧后还是1小时，音频也是1小时。你只需要把两者结合起来。谢谢大家！(本文分享自AI技术大本营在线公开课，转载请联系微信1092722531)

{{userData.name}}已认证

拯救老电影——详细讲解了爱奇艺ZoomAI视频增强技术的应用。

聆听视角再次刷新——音宽Liberty 2 Pro

广告和视频屏蔽样样精通！体积只有1M的超级浏览器

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#