东西方(微信官方账号:zhidxcom) |王晓曦
导语:谷歌AI研究人员正在将计算机视觉应用于语谱图,并开发了一种新的数据增强技术SpecAugment,可以在不引入额外数据的情况下优化语音识别系统的性能。
据国外媒体报道,谷歌人工智能研究人员正在将计算机视觉应用于光谱图。SpecAugment可以在不修改基本语言模型的情况下优化语音识别系统的性能。
研究人员表示,SpecAugment方法无需额外数据就能有效解决模型的过拟合问题,大大降低了计算成本。
参见4月18日发表在预印本论文提交平台arXiv上的论文,论文名称为《SpecAugment:一种用于自动语音识别的简单数据增强方法》(spec augmentation 3360 a自动语音识别的简单数据增强方法)。
010-350000
首先,新的数据增强技术指的是过拟合的问题。Spec Augmentation是谷歌人工智能研究人员开发的一种新的数据增强技术。这项技术不同于传统的数据增强技术。在语音识别中,它直接增强声谱图,但是采用另一种方法来增强转换后的声谱图3354频谱。
这种数据增强技术可以更有效地解决自动语音识别(ASR)系统模型的过拟合问题。
过拟合是指随着训练次数的增加,模型会慢慢找出数据模式,在反映数据趋势的同时,能拟合尽可能多的数据点。如果训练继续,模型将进一步挖掘训练数据中的细节和噪声,并将尽一切努力拟合所有数据点。因此,该模型可以很好地预测已知数据,但对未知数据的预测能力较差。
人们通常采用增加数据量和测试样本集的方法来解决过拟合问题,但这样会增加计算成本。
SpecAugment不需要引入额外的数据,而是直接增强声谱图数据来解决过拟合问题,从而提高语音识别的准确率。
第二,SpecAugment将单词错误率降低到2.6%。在传统的ASR中,在用作网络的训练数据之前,声波通常被编码为可视的,例如声谱图。一般对声谱图进行训练数据增强,然后将增强后的声谱图转换成声谱图,这样每次增强后都会生成新的声谱图。
010-350000
在馈入网络之前,声谱图通常被转换成声谱图。
但是,在SpecAugment中,增强的是谱图本身,而不是波形数据。因为增强函数直接应用于网络的输入特征,所以它可以在训练期间在线运行,而不会显著影响训练速度。
SpecAugment通过沿时间方向扭曲声谱图,屏蔽掉一些连续频段的信号,在时间上屏蔽掉某个时间段的发音,从而修改声谱图。下图显示了:
010-350000
通过在时间方向上扭曲屏蔽(多个)频段信号(横坐标)和多个时间段(纵坐标)来增强Mel谱图。光谱中被屏蔽的部分以紫色显示以示强调。
为了测试SpecAugment,研究人员应用SpecAugment来听、听和拼写语音识别网络。在衡量语音识别技术的主流开源数据集LibriSpeech 960h中得到的误字率(WER,衡量语音识别技术水平的核心指标)为2.6%,在Switchboard 300h语音识别基准测试中得到的误字率为6.8%。
第三,传统的数据增强方法计算成本高。ASR系统可以将语音翻译成文本,它被应用在许多现代设备和产品中,例如谷歌的Alexa智能语音助手,Android智能手机用来发送短信和电子邮件的Gboard虚拟键盘服务,Google Home和YouTube。
在开发基于深度学习的ASR系统方面仍然存在许多重要的挑战。其中之一就是ASR模型会出现上面提到的过拟合问题。
在语音识别中,通常在声谱图上使用传统的数据增强,这可以通过加速或减速或增加背景噪声来扭曲声谱图。这种方法将使单个数据的多个增强版本在训练过程中反馈给网络,迫使网络学习相关特征,这确实有助于网络变得更好。
然而,增强音频输入的传统方法增加了额外的计算成本,并且有时需要额外的数据。
结论:新的数据增强方法提高了语音识别的准确率。Google AI的研究人员Daniel S. Park和研究科学家陈伟霆(两人都是论文作者)在博客中表示:虽然通过不断引入语言模型,网络仍然可以变得更好,但他们的研究结果令人兴奋的一点是,在没有语言模型帮助的情况下,SpecAugment训练的模型超越了以前所有的方法。
Google SpecAugment是一种新的语音数据增强技术,将大大提高语音识别的准确性。如果这项技术能够广泛应用,相信智能语音助手会更加智能。
论文链接:https://arxiv.org/pdf/1904.08779.pdf
文章来自:Venturebeat、谷歌博客