单词错误率低至2.6%！谷歌新的音频数据增强方法，直接应用声谱图

智东西（公众号：zhidxcom）编 | 王小溪导语：谷歌AI的研究人员正在把计算机视觉应用于频谱图，开发出了新的数据增强技术SpecAugment，能在不需要引入额外数据的情况下，使语音识别系统性能达到最优。智东西4月24日消息，据外媒报

东西方(微信官方账号：zhidxcom) |王晓曦

导语：谷歌AI研究人员正在将计算机视觉应用于语谱图，并开发了一种新的数据增强技术SpecAugment，可以在不引入额外数据的情况下优化语音识别系统的性能。

据国外媒体报道，谷歌人工智能研究人员正在将计算机视觉应用于光谱图。SpecAugment可以在不修改基本语言模型的情况下优化语音识别系统的性能。

研究人员表示，SpecAugment方法无需额外数据就能有效解决模型的过拟合问题，大大降低了计算成本。

参见4月18日发表在预印本论文提交平台arXiv上的论文，论文名称为《SpecAugment：一种用于自动语音识别的简单数据增强方法》(spec augmentation 3360 a自动语音识别的简单数据增强方法)。

010-350000

首先，新的数据增强技术指的是过拟合的问题。Spec Augmentation是谷歌人工智能研究人员开发的一种新的数据增强技术。这项技术不同于传统的数据增强技术。在语音识别中，它直接增强声谱图，但是采用另一种方法来增强转换后的声谱图3354频谱。

这种数据增强技术可以更有效地解决自动语音识别(ASR)系统模型的过拟合问题。

过拟合是指随着训练次数的增加，模型会慢慢找出数据模式，在反映数据趋势的同时，能拟合尽可能多的数据点。如果训练继续，模型将进一步挖掘训练数据中的细节和噪声，并将尽一切努力拟合所有数据点。因此，该模型可以很好地预测已知数据，但对未知数据的预测能力较差。

人们通常采用增加数据量和测试样本集的方法来解决过拟合问题，但这样会增加计算成本。

SpecAugment不需要引入额外的数据，而是直接增强声谱图数据来解决过拟合问题，从而提高语音识别的准确率。

第二，SpecAugment将单词错误率降低到2.6%。在传统的ASR中，在用作网络的训练数据之前，声波通常被编码为可视的，例如声谱图。一般对声谱图进行训练数据增强，然后将增强后的声谱图转换成声谱图，这样每次增强后都会生成新的声谱图。

010-350000

在馈入网络之前，声谱图通常被转换成声谱图。

但是，在SpecAugment中，增强的是谱图本身，而不是波形数据。因为增强函数直接应用于网络的输入特征，所以它可以在训练期间在线运行，而不会显著影响训练速度。

SpecAugment通过沿时间方向扭曲声谱图，屏蔽掉一些连续频段的信号，在时间上屏蔽掉某个时间段的发音，从而修改声谱图。下图显示了：

010-350000

通过在时间方向上扭曲屏蔽(多个)频段信号(横坐标)和多个时间段(纵坐标)来增强Mel谱图。光谱中被屏蔽的部分以紫色显示以示强调。

为了测试SpecAugment，研究人员应用SpecAugment来听、听和拼写语音识别网络。在衡量语音识别技术的主流开源数据集LibriSpeech 960h中得到的误字率(WER，衡量语音识别技术水平的核心指标)为2.6%，在Switchboard 300h语音识别基准测试中得到的误字率为6.8%。

第三，传统的数据增强方法计算成本高。ASR系统可以将语音翻译成文本，它被应用在许多现代设备和产品中，例如谷歌的Alexa智能语音助手，Android智能手机用来发送短信和电子邮件的Gboard虚拟键盘服务，Google Home和YouTube。

在开发基于深度学习的ASR系统方面仍然存在许多重要的挑战。其中之一就是ASR模型会出现上面提到的过拟合问题。

在语音识别中，通常在声谱图上使用传统的数据增强，这可以通过加速或减速或增加背景噪声来扭曲声谱图。这种方法将使单个数据的多个增强版本在训练过程中反馈给网络，迫使网络学习相关特征，这确实有助于网络变得更好。

然而，增强音频输入的传统方法增加了额外的计算成本，并且有时需要额外的数据。

结论：新的数据增强方法提高了语音识别的准确率。Google AI的研究人员Daniel S. Park和研究科学家陈伟霆(两人都是论文作者)在博客中表示：虽然通过不断引入语言模型，网络仍然可以变得更好，但他们的研究结果令人兴奋的一点是，在没有语言模型帮助的情况下，SpecAugment训练的模型超越了以前所有的方法。

Google SpecAugment是一种新的语音数据增强技术，将大大提高语音识别的准确性。如果这项技术能够广泛应用，相信智能语音助手会更加智能。

论文链接：https://arxiv.org/pdf/1904.08779.pdf

文章来自：Venturebeat、谷歌博客

{{userData.name}}已认证

单词错误率低至2.6%！谷歌新的音频数据增强方法，直接应用声谱图

上海市第九人民医院招聘公告(上海第九医院招聘网最新招聘)

南卡runner pro怎么连接蓝牙(南卡runner pro骨传导蓝牙耳机)

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#