机心原创机心编辑部
为什么突然空气变得安静? 上面有“降噪”按钮。
“你在说什么? 风太大了,听不见! ”这句大家经常说的话实际上在现实中也经常发生。 特别是在录制短视频。 风声、雨声、机器声……所有的噪音都有可能给你的视频带来“全损音质”。
为了减轻环境噪声的影响,人们想了各种各样的方法。 例如,在麦克风上穿厚“毛衣”:
但是,“毛衣”不是冰的笑容,不能解决所有的问题。 更何况,我们很多人拍视频都是直接用手机收集声音,连专业的麦克风都没有。 硬件不够。 噪声在视频中的广泛存在催生了许多降噪软件,在视频后期制作中起着重要的作用。 但是,这些软件也有各自的短板,例如操作复杂、降噪不彻底、上传下载需要时间、降噪程度不可调等。 随着短视频制作集团的扩大,越来越多的制作者想要简单、灵活、易用的降噪软件。 对此,拥有3亿792万天老铁的快手表示:“已经安排好了。 这个实用的小功能最近在快手视频拍摄、剪辑、APP制作“快影”上上线,打开APP就可以直接使用了。
在“快速摄影”APP底部功能区的“声音”下,单击“视频声音轨道”或“录音”按钮时,页面包含“降噪”选项。 降噪前后效果比较: https://v.QQ.com/x/page/p 32490 gv9vx.html在试用过程中不仅能消除各种噪声,还能满足实时预览、降噪量调整等需求之所以能够满足这些需求,是因为移动端引入了即时照片降噪功能。 与在服务器端部署方案相比,移动端的部署节省了上传、下载的时间,从而降低了视频制作对网络的要求,节约了制作时间; 同时,还支持个性化的降噪量选择( 5个降噪范围,降噪5dB至全部消除),不需要背景音时请完全消除,想保留背景音时请适当抑制。 比较各范围降噪效果: https://v.QQ.com/x/page/v 3249 fjc 279.html经过快速降噪处理的音频依然非常丰富、立体。 这是因为快速阴影深度降噪算法支持两通道16kHz宽带输出,最大限度地保留了原始信号的带宽和两通道声像。相比之下,典型的深度语音降噪算法采用单通道作为《零度基点》创作者的视频制作平台,即时摄影具有视频画中画、图文并茂、人脸融合等多种实用小功能,能够满足大部分短视频创作者的制作需求“降噪”功能上线后,对拍摄环境和硬件的要求进一步降低,用户可以更加随心所欲地拍摄。 那么,这种使用方便的功能是如何制作出来的呢? 在最近的采访中,快手的音频技术团队向机器的中心介绍了这个功能背后的技术细节。 在建立有效模型的同时实现小尺寸的语音去噪是语音领域的一个重要研究方向,其历史可追溯到20世纪30年代,从无线到电话再到VOIP,对语音去噪技术有着强烈的需求。 在深度学习取得较大进展之前,人们普遍认为单通道语音降噪是通过传统的信号处理方式实现的,只能去除带噪语音中的稳定噪声成分,如空调噪声、汽车发动机噪声等。 这些噪声在音量和频率上都很稳定,相对容易消除。 但是,我们的环境中充满了很多瞬态的噪音,比如汽车鸣笛,很多人交谈等等。 这些噪音在音量和频率上有很大的变化,是传统降噪方案的短板。 2015年以后,深度学习技术取得了飞跃性的进步,降噪技术也取得了很大的进步。 速影降噪方案是基于深度学习技术制定的。 技术小组表示,在训练阶段,将从三个方面保证模型大小受限情况下的降噪效果。
第一个方面是网络设计。 快影降噪方案的核心是CNN和RNN混合网络结构,可以兼顾语音局部特征捕获和长时间特性跟踪,确保降噪效果。 第二个方面是预处理、后处理、损失函数的设计。 在预处理方面,团队利用信号处理和心理声学中的响度和掩蔽等方面已有的结论,在不影响主观听觉的情况下设计了基于信号处理的预处理模块。 该模块的目的是通过去除训练目标中人耳无法感知的成分,聚焦于更重要的成分,简化深度网络训练目标,促进有限参数量小网络的收敛度,最终通过进行提高主观音质体验在后处理方面,团队利用语音信号低频和高频分量的强相关特性以及人耳在心理声学上对高频分量感知明显弱于低频分量的结论,实现了一种合理分配计算资源、可在大部分机型上在线的降噪方案。 在损失函数设计方面,团队在实践验证学术界现有损失函数的基础上,结合降噪问题的主要矛盾点——降噪( over-suppress )和语音保留( under-suppress )平衡和语音信号谐波特征明显的特性噪声数据多样性是提高降噪模型通用性的关键。 为此,技术团队对各种环境混响、采集回放设备、预处理算法进行了仿真,生成了各种数据。 基于这些数据,技术人员使用AI算法训练神经网络,区分语音和噪声,从噪声多的环境中剥离干净的语音。 在部署阶段,考虑到短视频创作者在实时预览、降噪量调整以及降噪处理后能够保留原始视频的立体声信号等需求,技术人员选择了移动端部署方案。 为了解决消噪效果与移动端计算力之间的矛盾,他们在算法端进行模型压缩,采用知识蒸馏、模型剪枝、量化等方法,并在工程实现方面深入优化了计算复杂度,使模型能够适应高、中、低端机型
敌人杀千,但绝不自毁。 为了验证快影降噪方案与其他产品的效果差异,技术团队采用SNR (信噪比)和POLQA (感知客观语音质量评估)等指标对模型进行了评估。 SNR表示语音噪声的程度。 SNR越大,语音中包含的噪声量越少。 实验结果表明,在相同降噪量下,快影的降噪能力与其他产品相当; 然而,第一个镜头的噪声消除方案的优点在于它支持噪声消除量可调的模式,并且随着噪声消除量的增加,第一个镜头的噪声消除效果相对于其他产品非常明显
POLQA是目前业界公认的参考音质。 与原始信号相比,评测单元可以评估降级或处理的音频信号。 反映了音频整体的音质效果,包括声音失真和完整性。 如下图所示,纯语音降噪时,快影没有损伤音质,但其他产品则不然; 在12dB相同的降噪量下,速影比其他产品高0.2分左右。 随着降噪量的提高,速影的降噪效果越来越明显。
注:由于其他产品无法选择噪声消除量,快视20dB和全噪声消除的提升都是相对于其他产品的单一噪声消除量(约12dB )的提升。 幕后技术团队:未来易用的产品离不开可靠的技术团队。 除了最近推出的降噪产品外,快的音频技术团队还在世界音频技术顶级会议Interspeech 2021召开的国际回声消除算法大赛中取得了丰硕的成果,成为了双向回声消除的单一世界冠军和远程信号值得一提的是,参加这场比赛时,快队其实在人数上并不占优势,只有其他大厂的三分之一左右。
快手音频技术团队和快影团队表示,他们下一步的工作重点是提高快影的“特定场景语音分层处理”效果,解决用户在正常说话场景下(如用户演唱时)的噪音问题。 算法需要在去除噪声的同时保留伴奏。 团队的目标是不断优化高清场景中的降噪效果,让所有用户在快速通道APP中享受到黑科技带来的卓越听觉体验。