基于人工智能神经网络的鸟类鸣叫声分类

生态学家利用鸟类来了解食物系统和森林健康。比如森林里啄木鸟多了,就说明枯木多了。因为鸟类通过歌声和叫声来交流和标记领地,所以用耳朵来识别是最有效的。事实上,专家可以通过耳朵辨别不同的鸟。近年来,自主记录装置(ARU)可以轻松地在森林中捕捉到数千小时的音频,可以用来更好地了解生态系统,并确定关键的栖息地。但是手动查看音频数据非常耗时,鸟鸣专家也很少。然而,基于机器学习(ML)的方法有可能大大减少了解栖息地所需的专家审查量。然而,基于机器学习的鸟类音频分类由于几个原因而具有挑战性。一方面,鸟类经常互相歌唱,尤其是在许多鸟类最活跃的“黎明大合唱”期间。此外,没有明确的个别鸟类记录可供借鉴。——几乎所有可用的训练数据都是在嘈杂的室外条件下记录的,在这种条件下,经常会有来自风、昆虫和其他环境来源的其他声音。所以现有的鸟鸣分类模型很难识别安静的、遥远的、重叠的声音。此外,一些最常见的物种经常出现在不太常见的物种的训练记录背景中,导致模型忽略了常见物种。
视频加载.
为了解决训练ML模型在不访问孤立声音示例的情况下自动分离录音的普遍挑战,谷歌最近在谷歌的论文“使用混合不变训练的无监督声音分离”中提出了一种新的无监督方法,称为MixIT。此外,在谷歌的新论文《通过无监督的声音分离改善鸟类分类》中,谷歌使用MixIT训练来分离鸟类的歌声,改善物种分类。谷歌发现,在分类中包含分离的音频可以提高三个独立的soundscape数据集的准确性和分类质量。谷歌也很高兴在GitHub上宣布开源的鸟鸣分离模型。
Birdsong Audio Separation MixIT学习将单通道录音分离成多个独立的音轨,完全可以用嘈杂的真实世界录音进行训练。为了训练分离模型,谷歌通过将两个真实世界的记录混合在一起,创建了一个“混合物的混合物”(MoM)。然后分离模型学习将MoM分成许多通道,使损失函数最小化。它使用两个原始的真实世界录音作为真实参考。损失函数使用这些参考对分离的通道进行分组,以便它们可以混合在一起,重新创建两个原始真实世界录音。由于不可能知道MoM中的不同声音在原始记录中是如何组合的,所以分离模型别无选择,只能分离每个声音本身,从而学习将每个唱歌的鸟放在不同的输出音频通道中,并将其与风和其他背景噪声分离。谷歌通过使用Xeno-Canto和Macaulay图书馆的鸟鸣录音训练了一个新的MixIT分离模型。谷歌发现,这种新模型在鸟鸣分离方面优于MixIT分离模型,MixIT分离模型使用来自AudioSet数据集的大量通用音频训练。谷歌通过将两个录音混合在一起,应用分离,然后重新混合分离的音频通道来重建原始的两个录音,来测量分离的质量。测量谷歌相对于原始录音的混音音频的信噪比(SNR)。谷歌发现,与在AudioSet上训练的模型相比,专门为鸟类训练的模型的信噪比提高了6.1分贝(dB)(10.5 dB vs 4.4 dB)。主观上,谷歌也发现了许多系统工作良好的例子,将非常难以区分的呼叫与现实世界的数据分开。下面的视频演示了从两个不同的地区(卡普勒斯和高Sierras)分离鸟鸣。视频显示混合音频的mel频谱图(2D图像显示音频的频率内容随时间变化),并突出显示分离到不同轨道的音频。
视频加载.
为了对ARU捕捉到的真实音频中的鸟类进行分类,谷歌首先将音频分成5秒钟的片段,然后创建每个片段的梅尔声谱图。然后,谷歌训练了一个高效的网络分类器,从mel-spectrogram图像中识别鸟类,并训练了Xeno-Canto和Macaulay库的音频。谷歌训练了两个独立的分类器,一个用于内华达山脉物种,另一个用于纽约州北部。请注意,这些分类器不是为分离的音频而训练的;这是未来需要改进的地方。谷歌引入了一些新技术来改进分类器训练。分类要求分类器为物种分类的每个级别(属、科和目)提供标签,这允许模型在学习相似物种之间有时细微的差异之前学习物种的分组。分类训练还允许模型受益于关于不同物种之间分类关系的专家信息。谷歌还发现,随机低通滤波有助于在训练中模拟远处的声音:随着音源越来越远,高频部分先于低频部分消失。这对于识别高山上的物种特别有效,那里的鸟在很远的地方唱歌,没有树木的阻碍。
谷歌发现,在分类之前使用新的MixIT模型来分离音频,可以提高分类器在三个独立的真实数据集上的性能。这种分离对于识别安静和背景的鸟类特别成功,在许多情况下,它也有助于发出重叠的声音。
上图:来自内华达山脉的两种鸟的Mel光谱,一种美洲鹞(amepip)和一种灰冠朱雀(gcrfin)。图例显示了预训练分类器给出的两个物种的对数概率。值越高,置信度越高,大于-1.0的值通常是正确的分类。下图:音频的Mel谱自动分离,分类器从分离的通道记录概率。请注意,分类器只能在音频分离后识别不同的鸟。
On:一个复杂的混合体,有三个音:gockin,mouchi和stejay。下图:分类器分成三个通道和三个物种的对数概率。即使分类器不确定它是什么,谷歌也看到斯特拉斯堡杰伊的良好视觉分离模型确实有一些潜在的局限性。Google偶尔会观察到过度分离,即一首歌被分成多个频道,可能会导致分类错误。谷歌还注意到,当不止一只鸟在发声时,最突出的歌曲通常在分离后得分较低。这可能是由于在分类器训练期间没有出现的环境背景的丢失或者由分离引入的其他人为因素。目前,谷歌在单独的频道上运行分类器和原始音频,并为每个物种获得最高分。谷歌预计,进一步的工作将使谷歌减少过度分离,并找到一种更好的方法来结合分离和分类。您可以在Google的GitHub资源库中查看和听到完整系统的更多示例。谷歌目前正在与加州科学院的合作伙伴合作,以了解指定火灾和野火后栖息地和物种组合的变化,并将这些模型应用于多年来收集的ARU音频。谷歌还预见了无监督分离模型在生态学中的许多潜在应用,不仅仅是鸟类。例如,分离的音频可以用于创建更好的声学指标,这些指标可以通过跟踪鸟类、昆虫和两栖动物的整体活动来衡量生态系统的健康状况,而无需识别特定的物种。类似的方法也可以用来追踪水下珊瑚礁的健康状况。

其他教程

岳阳电商运营培训班,岳阳电子商务学校

2022-9-9 0:53:16

其他教程

好的素材视频(高清视频素材网站推荐)

2022-9-9 0:55:20

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索