单词错误率低至2.6%!谷歌新的音频数据增强方法,直接应用声谱图

智东西(公众号:zhidxcom)编 | 王小溪导语:谷歌AI的研究人员正在把计算机视觉应用于频谱图,开发出了新的数据增强技术SpecAugment,能在不需要引入额外数据的情况下,使语音识别系统性能达到最优。智东西4月24日消息,据外媒报

东西方(微信官方账号:zhidxcom) |王晓曦

导语:谷歌AI研究人员正在将计算机视觉应用于语谱图,并开发了一种新的数据增强技术SpecAugment,可以在不引入额外数据的情况下优化语音识别系统的性能。

据国外媒体报道,谷歌人工智能研究人员正在将计算机视觉应用于光谱图。SpecAugment可以在不修改基本语言模型的情况下优化语音识别系统的性能。

研究人员表示,SpecAugment方法无需额外数据就能有效解决模型的过拟合问题,大大降低了计算成本。

参见4月18日发表在预印本论文提交平台arXiv上的论文,论文名称为《SpecAugment:一种用于自动语音识别的简单数据增强方法》(spec augmentation 3360 a自动语音识别的简单数据增强方法)。

010-350000

首先,新的数据增强技术指的是过拟合的问题。Spec Augmentation是谷歌人工智能研究人员开发的一种新的数据增强技术。这项技术不同于传统的数据增强技术。在语音识别中,它直接增强声谱图,但是采用另一种方法来增强转换后的声谱图3354频谱。

这种数据增强技术可以更有效地解决自动语音识别(ASR)系统模型的过拟合问题。

过拟合是指随着训练次数的增加,模型会慢慢找出数据模式,在反映数据趋势的同时,能拟合尽可能多的数据点。如果训练继续,模型将进一步挖掘训练数据中的细节和噪声,并将尽一切努力拟合所有数据点。因此,该模型可以很好地预测已知数据,但对未知数据的预测能力较差。

人们通常采用增加数据量和测试样本集的方法来解决过拟合问题,但这样会增加计算成本。

SpecAugment不需要引入额外的数据,而是直接增强声谱图数据来解决过拟合问题,从而提高语音识别的准确率。

第二,SpecAugment将单词错误率降低到2.6%。在传统的ASR中,在用作网络的训练数据之前,声波通常被编码为可视的,例如声谱图。一般对声谱图进行训练数据增强,然后将增强后的声谱图转换成声谱图,这样每次增强后都会生成新的声谱图。

010-350000

在馈入网络之前,声谱图通常被转换成声谱图。

但是,在SpecAugment中,增强的是谱图本身,而不是波形数据。因为增强函数直接应用于网络的输入特征,所以它可以在训练期间在线运行,而不会显著影响训练速度。

SpecAugment通过沿时间方向扭曲声谱图,屏蔽掉一些连续频段的信号,在时间上屏蔽掉某个时间段的发音,从而修改声谱图。下图显示了:

010-350000

通过在时间方向上扭曲屏蔽(多个)频段信号(横坐标)和多个时间段(纵坐标)来增强Mel谱图。光谱中被屏蔽的部分以紫色显示以示强调。

为了测试SpecAugment,研究人员应用SpecAugment来听、听和拼写语音识别网络。在衡量语音识别技术的主流开源数据集LibriSpeech 960h中得到的误字率(WER,衡量语音识别技术水平的核心指标)为2.6%,在Switchboard 300h语音识别基准测试中得到的误字率为6.8%。

第三,传统的数据增强方法计算成本高。ASR系统可以将语音翻译成文本,它被应用在许多现代设备和产品中,例如谷歌的Alexa智能语音助手,Android智能手机用来发送短信和电子邮件的Gboard虚拟键盘服务,Google Home和YouTube。

在开发基于深度学习的ASR系统方面仍然存在许多重要的挑战。其中之一就是ASR模型会出现上面提到的过拟合问题。

在语音识别中,通常在声谱图上使用传统的数据增强,这可以通过加速或减速或增加背景噪声来扭曲声谱图。这种方法将使单个数据的多个增强版本在训练过程中反馈给网络,迫使网络学习相关特征,这确实有助于网络变得更好。

然而,增强音频输入的传统方法增加了额外的计算成本,并且有时需要额外的数据。

结论:新的数据增强方法提高了语音识别的准确率。Google AI的研究人员Daniel S. Park和研究科学家陈伟霆(两人都是论文作者)在博客中表示:虽然通过不断引入语言模型,网络仍然可以变得更好,但他们的研究结果令人兴奋的一点是,在没有语言模型帮助的情况下,SpecAugment训练的模型超越了以前所有的方法。

Google SpecAugment是一种新的语音数据增强技术,将大大提高语音识别的准确性。如果这项技术能够广泛应用,相信智能语音助手会更加智能。

论文链接:https://arxiv.org/pdf/1904.08779.pdf

文章来自:Venturebeat、谷歌博客

剪辑教程

上海市第九人民医院招聘公告(上海第九医院招聘网最新招聘)

2022-7-8 6:04:45

剪辑教程

南卡runner pro怎么连接蓝牙(南卡runner pro骨传导蓝牙耳机)

2022-7-8 6:06:56

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索