视频提取特征(音频提取软件)

绝大多数音频特征起源于语音识别任务,它们可以精简原始的波形采样信号,从而加速机器对音频中语义含义的理解。从20世纪90年代末开始,这些音频特征也被应用于乐器识别等音乐信息检索任务中,更多针对音频音乐设计的特征也应运而生。1. 音频特征的类别

大多数音频特征源于语音识别的任务,它可以简化原始波形采样信号,从而加速机器对音频中语义的理解。自20世纪90年代后期以来,这些音频特征也被应用于音乐信息检索任务,如乐器识别,更多为音频音乐设计的功能应运而生。

1.音频特征的类别知道音频特征的不同类别。它不是对一个特征的精确分类,而是对其物理意义的更深层次的理解。一般来说,我们可以从以下维度来区分音频特征:

(1)特征是由模型直接从信号中提取的,还是基于模型输出的统计,如均值、方差等。

(2)无论特征表示瞬态值还是全局值,瞬态一般以帧为单位,而全局覆盖更长的时间维度;

(3)特征的抽象程度,底层特征的抽象程度最低,最容易从原始音频信号中提取出来,可以进一步加工成高级的中间特征来表示乐谱中常见的音乐元素,如音高、音符开始时间等。最抽象的特征大多用于音乐风格和情感任务;

(4)根据特征提取过程的不同,可分为:直接从原始信号中提取的特征(如过零率)、将信号转换成频率后获得的特征(如频谱质心)、需要通过特定模型获得的特征(如旋律)、通过改变人类听觉认知启发的量化特征尺度获得的特征(如MFCCs)。

我们以“特征提取过程的差异”为主要分类基准,列出了每个类别中的共同特征:

同时我们也发现有些特征并不属于其中的一类,比如MFCC,因为提取MFCC会将信号从时域转换到频域,然后根据模仿人类听觉反应的梅尔尺度滤波器得到,所以它同时属于频域特征和感知特征。

2.常用提取工具:下面列出了一些提取音频特征的常用工具和平台。

名字

地址

改编语言

奥比奥

https://aubio.org

c/python

https://essentia.upf.edu

c /python

利布罗萨

https://librosa.org

大蟒

疯妈妈

http://madmom.readthedocs.org

大蟒

py音频分析

https://github.com/tyiannak/pyAudioAnalysis

大蟒

Vamp插件

https://www.vamp-plugins.org

c /python

Yaafe

http://yaafe.sourceforge.net

python/matlab

3.音频信号处理音频数字信号是一系列样本,其数字代表时域上的连续变化,通常称为“波形图”。为了分析数字信号,有必要对信号进行采样和量化。

采样是指连续时间的离散过程,其中均匀采样是指以相等的时间间隔进行采样。每秒要采集的声音样本数称为采样频率,音频文件中常见的44.1kHz和11kHz指的是采样(频率)率。

为了将量化的连续波形转换成离散数字,首先将整个振幅分成一组有限的量化步长。幅度的划分可以是等间隔的或不等间隔的,并且落入某一步的样本值被赋予相同的量化值。音频文件中的深度位置表示量化值,16位位深度表示幅度到2 ^ 16的量化。

奈奎斯特定律指出,如果采样频率大于或等于信号中最高频率分量的2倍,就可以从信号的采样值准确地重构出信号,但实际上采样频率明显大于奈奎斯特频率。

4.常见变换4.1短时傅立叶变换

STFT(short Time Fourier Transform)适用于分析慢时变信号的频谱,已广泛应用于音频和图像分析。方法是将信号分成帧,然后对每帧进行傅里叶变换。每一帧语音信号都可以认为是从不同的平稳信号波形中截取的,每一帧语音的短时谱就是每个平稳信号波形谱的近似。

因为语音信号在短时间内是稳定的,所以可以分帧,计算某一帧的傅立叶变换,就是短时傅立叶变换。

傅立叶变换(FFT)可以将信号从时域变换到频域,而逆傅立叶变换(IFFT)可以将频域变换到时域信号。傅立叶变换是音频信号处理最常见的方式,它将信号从时域变换到频域。STFT得到的声谱图在音频信号中也称为声音声谱图或语音声谱图。

010-350000

4.2离散余弦变换

离散余弦变换(DCT)是一种与傅立叶变换相关的变换。它类似于DFT,但只使用实数。离散余弦变换相当于一个大约两倍长的离散傅立叶变换。这种离散傅里叶变换是对实偶函数进行的(因为实偶函数的傅里叶变换仍然是实偶函数)。在某些变体中,需要将输入或输出位置移动半个单位。

4.3离散小波变换

离散小波变换在数值分析和时频分析中非常有用。离散小波变换将基本小波的尺度和平移离散化。

4.4梅尔频谱和梅尔倒谱

声谱图往往是一幅很大的图。为了得到合适大小的声音特征,通常用mel尺度滤波器组将其转换成Mel谱。

人耳对音高的感知大致与声音基频的对数成线性关系。在Mel标度上,如果两段语音的Mel频率相差两倍,则人耳可以感知的音调也相差大约两倍。频率较小时,mel随Hz快速变化;频率高时,mel上升慢,曲线斜率小。这说明人耳对低频音调比较敏感,高频时很平淡,这是受梅尔标度滤波器组的启发。

迈耶尺度滤波器由若干个三角滤波器组成,低频大阈值密集滤波器,高频低阈值稀疏滤波器。正好对应了频率越高耳朵越迟钝的客观规律。图中所示的滤波器称为Mel-滤波器组,具有相同的组面积,广泛应用于人声领域(语音识别、说话人识别),但如果用于非人声领域,会丢失大量高频信息。此时,我们更喜欢具有相同堤高度的Mel滤波器堤。

010-350000

010-350000

librosa中MEL光谱的实现:

将numpy导入为np def melspectrogram(y=None,sr=22050,S=None,n_fft=2048,hop_length=512,power=2.0,**kwargs): S,n_fft=_spectrogram(y=y,S=s,n_fft=n _ FFT,hop _ length=hop _ length,power=power) #构建一个Mel滤镜Mel _ basis=filters.mel (Sr,n _ FFT,**kwargs)

# – Mel谱图和MFCC-# def MFCC(y=None,sr=22050,S=None,n_mfcc=20,**kwargs):如果S为None :S=power _ to _ db(Mel谱图(y=y,Sr=Sr,* * kwargs))return scipy . FFT pack . DCT(S,axis=0,type=dct _ type,norm=norm) [3360n _ mfcc] 4.5常数q变换

在音乐中,所有的音调都是由几个八度的12个平均律组成的,对应的是钢琴中一个八度的十二个半音。这些半音之间的频率比为21/12。很明显,对于两个同调级的八度,高八度是低八度的两倍。所以在音乐中,声音是指数分布的,但是我们傅里叶变换得到的音频频谱是线性分布的,两者的频点不能一一对应,会导致一些音阶频率的估计值出现误差。所以乐音的现代分析一般采用一种具有相同指数分布规律的时频变换算法:常数Q变换。

CQ是指滤波器组的中心频率呈指数分布,滤波器带宽不同,但中心频率与带宽的比值为常数q,与傅里叶变换不同,其频谱的横轴频率不是线性的,而是基于log2,可以根据不同的谱线频率改变滤波器窗口的长度,以获得更好的性能。因为CQT具有与音阶频率相同的分布,所以通过计算音乐信号的CQT谱可以直接获得音乐信号在每个音符频率的振幅值。

010-350000

参考数据

《A Tutorial on Deep Learning for Music Information Retrieval》 《STFT和声谱图,梅尔频谱(Mel Bank Features)与梅尔倒谱(MFCCs)》 《基于音乐识别的频谱转换算法——CQT》我们是行者AI,在“AI游戏”中不断前行。

来【微信官方账号|行者_ai】和我们探讨更多技术问题吧!

剪辑教程

白天过度嗜睡症(嗜睡是一种病理性的倦睡)

2022-6-29 1:09:35

剪辑教程

安卓音量增大器(安卓手机音量变小)

2022-6-29 1:11:44

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索