短视频效果评估(如何评估短视频质量)

短视频信息流产品是目前最火的互联网产品,完全占据了用户的碎片时间。据艾瑞统计,2018年,短视频产品月独立设备有6亿台。爱奇艺也有自己的视频信息流产品矩阵,如爱奇艺热点、小视频、爱奇艺PPS、Nadou、姜饼等。每天都有大量新的UGC视频产生,短视频质量变得参差不齐。批量精准识别视频质量,有助于提升用户体验,优化推荐算法,揭示高质量视频。
短视频/小视频的主要低质问题可以归纳为以下几点:
1.封面画质:模糊、黑边、拉伸变形、画面阴暗、无主体、无意义等。
2.视频内容质量:视频无意义、无聊、不清晰、花哨、广告、低俗等。
3.文字质量:标题过于简单,特殊符号多,句子不通顺,语法结构不正常,标题党,图文不符等。
基于对上述低质量原因的分析,我们构建了一个融合视频文本、图像、内容、声音等输入信息的视频质量模型。主要内容如下:
1.封面图像质量模型:基于卷积模型提取的深度特征和人工设计特征的图像质量模型。
2.视频内容质量模型:基于多模态深度内容质量模型的端到端训练。
3.文本质量模型:基于文本结构特征和文本语义特征的文本质量分类模型。
应用场景
视频质量模型的主要功能是输出不同模式视频的质量评价分数,如下图所示:
视频质量评价信息可以应用在视频生命周期的多个阶段,比如上传者上传提示、进出语料库、算法端引入质量评分提升等。
上传者上传提示:用户上传视频时,质量模型会给出视频的多模态质量评分。系统会根据质量评分决定是否提示用户上传质量有变化的封面图片,从源头上保证视频的质量。语料库进出:爱奇艺信息流建议构建健康的用户生态,大量低制作成本的低质量视频进入语料库,不符合产品的长远目标。利用视频的多模态质量评价信息,可以实时将新的低质量视频过滤到语料库中,大大降低了人工审核的成本。目前该服务已在热点地区上线推荐,目前已识别出1M以上的低质量视频。从AB测试的结论来看,留存等一些产品指标也是正的。提升视频曝光度:在推荐召回率和排名模型中引入视频质量评分,同时优化视频的后验和先验信息,从而向用户推荐高质量的转化视频。目前增加了小视频服务的召回模型,AB测试增益明显。视频质量模型的算法方案
由于视频标题、封面图像和内容质量不高,质量清晰度差异较大,三类信息的异质性明显。在建模中,采用单一建模和视频质量综合评价的方法。
封面图像质量模型:
人工基本质量特征(低级特征)
边缘的空间分布:快照杂乱无章(边缘均匀分布),专业照片主题清晰,边缘清晰(边缘聚焦在图像中心附近),图像经过拉普拉斯滤波,衡量其类别拉普拉斯图像均值的L1距离。色彩分布、色调计数、对比度和亮度:基于图像的RGB或HSV色彩空间。模糊度:模糊的图像可以看作是清晰的图像,这是基于各种模糊核的作用。基于这些计算方法,可以评估图像或图像像素的清晰度或聚焦程度。我们实现了由不同模糊核计算的六组模糊特征(14),以及它们的统计均值、方差、最大值和最小值。考虑到图像的局部模糊性,每个模糊特征将在图像的四个区域分别计数。我们模糊算子包括:
1.该算法基于基于梯度的算子,假设清晰图像比模糊图像具有更清晰的线条;
2.基于拉普拉斯算子,统计图像中线条的比例;
3.其他包括基于小波的算子);基于基于统计的运算符;基于离散余弦变换;基于局部表示和过滤的组合(杂项运算符)。
学习ImageNet微调基于预先训练好的ImageNet模型,在训练数据较少的目标任务上进行迁移学习是一种比较流行的做法,效果明显。在一些主流的视觉任务中,如目标检测、图像分割和行为识别,已经达到了最先进的效果。
在我们的质量分类任务中,由于数据规模有限(万级规模),目标任务的分类体系与ImageNet有很大的不同。通过实验对比,我们选择保留中间层以上的层。实际使用Resnet50作为预训练主网,block3以上的层是固定的。
宽深:深度和人工特征都很重要。为了同时受益于ImageNet预训练网络的深度表示学习和人工特征,封面图像质量模型采用了deepwide模型结构,同时在深度和广度两方面对特征交叉和训练优化进行了针对性的改进和优化。以下模型结构:
侧(泛化):基于Resnet-50作为特征提取器,提取中间层作为图像的深度表示,然后连接多个隐层优化目标任务,层间加入BN。
广(内存):除了前面介绍的基本特性,还介绍了美学特性和AI特性。使用谷歌NIMA深度美学模型的结果作为特征,高质量图像在美感上通常优于低质量图像。
传统的深边特征和宽边特征融合为两个独立有效的特征表示,它们之间没有交互作用。并且我们知道有效的特征组合可以产生更有价值的特征表示,所以我们使用紧致双线性池(CBP)来学习深度特征和基本特征的交集,并将特征的交集作为深度侧输入。
视频质量模型视频内容质量模型是监督分类模型。在当前视频分类模型的基础上,我们实现了一个基于视频帧提取、光流和音频表示的多模态视频质量分类模型。
由于我们的训练数据规模小,三维卷积和LSTM分类不适合我们的场景。考虑到NetVlad模型和双流问题的不同,在问题解决维度上存在互补性。同时引入音频信息输入,解决低质量视频音质差的问题。
我们的模型结构如下:
视频帧提取和音频帧提取的细节如下:
内特弗拉德
Netvlad是在图像位置识别任务中提出的模型,解决了传统vlad算法基于无监督聚类过程学习图像视觉主题表示的问题。主要改进是聚类过程变成端到端的监督学习,通过反向传播调整优化聚类中心。
我们将其扩展到视频质量分类场景,从端到端学习视频帧图像表示的聚类分布,从而获得视频级的特征表示。与一般的视频分帧特征聚合方法(如平均池或最大池)相比,NetVlad可以获得更好的视频表示,在视频图像明显的低质量问题(如黑屏、光线暗、不清晰等)中发挥重要作用。
温变系数
TSN(Temporal Segment Network)是一种经典的双流网络结构,如下图所示,主要用于捕获视频定时信息。我们用光流作为模型的先验信息,光流的本质是捕捉同一位置像素的时间运动信息。
高质量视频的光流轨迹规则,运动区域清晰。低质量视频的光流轨迹混乱,静止画面的视频甚至没有运动轨迹。如下,左图为高质量视频,右图为低质量视频。
帧间自关注:每个片段会随机选择k帧。通常,k帧的CNN表示通过类似于平均池的方法聚合,以获得视频片段的特征表示。我们认为不同的视频帧对目标的重要性不同,因此引入自我注意来学习重要性权重
NetVlad和TSN分别对视频的视觉表示和运动表示进行建模。我们还引入了音频的特征表示来识别音质差和没有声音的低质量视频。音频特征的提取主要基于预训练网络vggish,每个音频帧都可以提取得到128维的特征。如前面的模型图所示,我们采用多路的端到端网络结构。NetVlad、TSN和音频DNN是该模型的三个主要模型。
文本质量模型
文本质量模型主要基于视频标题和描述等文本信息来评估视频的文本质量,主要侧重于特征提取,包括语义提取和句法结构提取。模型是xgboost分类模型。
总结和计划
结合业务场景,从文本、封面图片和视频内容三个方面构建了相应的质量模型,并应用了信息流业务的不同模块。但是,仍然存在一些不足。未来会优化功能,优化算法模型,适应业务场景。
1.特征提取的优化:视频图像特征和部分内容特征的提取成本还是比较高的,也影响了在线效率。目标是深化特征提取,优先使用深度模型提取多模态特征,使整个模型训练过程更加简洁。
2.算法模型优化:目前多模态输入信息的使用和模型的框架还比较简单。将来,我们将考虑学习多模态特征的共享表示。视频质量模型将尝试更合适的模型来学习潜在的时空模式。目前,文本、图像和视频的质量模型是孤立训练的,我们期望训练端到端的多任务模型。
3.自适应业务场景:不同业务的数据质量分布差异较大,需要建立更通用的质量模型。未来将升级为积木式质量模型,构建不同低质量原因的质量识别子模型,由商家根据自身需求选择合适的子模型组合使用。

其他教程

他不是预言家,却洞悉了百年后的婚姻生活英文(他不是预言家,却洞悉了百年后的婚姻生活英语)

2022-9-10 4:02:30

其他教程

黑竹沟为什么叫百慕大(百慕大三角黑竹沟)

2022-9-10 4:04:34

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索