让我们先做一个听写。放心吧,中国的那种!
仔细听,默写古诗:
什么?你听完一定很困惑。你确定你没有放错光盘吗?我没有把光盘放错地方。我只是篡改了一下。看看图片,你应该明白我做了什么。
原始波形
改变波形
你猜到了吗?没错!我只是把原片段的波形倒放了一下,听起来好像中国古诗变成了怪音。那么,我们的原创古诗词有哪些呢?
没想到啊!这么熟悉的古诗,稍加操作,就变成了完全陌生的味道。同样,我们可以把原声反过来,也就是声音的波形反过来。
反向波形
什么?听起来和原版没什么区别。事情越来越有趣了。为了理解调皮的声音,我们需要先了解声音波形。
众所周知,声音是发声体振动形成的机械波,带动周围介质振动。它在气体和液体中以纵波的形式存在,而在固体中则伴随着横波。对于我们日常接触来说,自然就是空气中的声波,使空气形成密密麻麻的排列。如果我们测量某一点的压力,就可以得到以时间为横轴,压力为纵轴的一维图像。
稠密空气的排列。
声波的一维图像
采样率和比特深度:自然声波是模拟信号。对于连续变化的波形,计算机必须每隔一段时间记录一次。在每个采样点,计算机将压力信号转换成电信号。经过数模转换后,用来记录振幅的二进制位数称为位深。更高的位深度可以提供更多可能的幅度值,从而产生更大的动态范围、更低的噪底和更高的保真度。
高采样率可以更好地再现原始波形
采样率表示每秒的数字样本数。可以想象,采样率越高,数字波形的形状就越接近原始模拟波形。低采样率将限制可以录制的频率范围,这可能导致原始声音的录制性能较差。为了再现给定的频率,采样率必须至少是频率的两倍。比如CD的采样率是每秒44100个样本,所以可以再现最高频率22050Hz,刚好超过人类听觉极限20000Hz。
声谱:世界上的声音之所以如此美丽复杂,是因为它们不是相同频率和振幅的重复,而是不同频率、振幅甚至相位的叠加。我们上面讨论的波形图表达了声音在时间上的特征(振幅)。有什么方法可以让我们看到声音的频率特征?你一定想到了一个人的名字3354傅立叶。傅立叶变换只是将时域的分布变换为频域的分布,即我们看到的复杂波形可以看作是无限个频率和幅值不同的简谐波的合成结果。
音框:要得到声音的频谱,首先要对音频进行切片,通过傅立叶变换对短时间内的声波进行分析,这是有效且有意义的。这就是音帧的概念,一般是ms级别的一段。在语音识别领域,语音的基本单位是音素,代表语音的基本发声单位,在汉语中可以理解为声母和韵母。音素由若干帧组成,不同的音素再组成单词,完成识别。因此,对车架的声音模型进行分析是非常重要的。对于编码后的音频文件,帧长一般规定为1024个采样点的时间间隔。对于一个44100Hz的采样文件,其时间长度为:1024*1000/44100ms,约为23.2 ms。
如果把一整帧音频的频谱沿横轴展开,就可以得到声谱图,可以称之为声音的时间谱。它的横轴代表时间,纵轴代表频率,明暗代表振幅。
贝多芬《致爱丽丝》某一帧的频谱和时间谱。
在一开始解决问题之前,我们还是要明确一件事,那就是一段音频听起来是什么样的?直觉告诉我们,如果两段音频的波形相似,听起来应该也差不多。幸好我们的直觉是对的。波形倒置不会改变这种声音。这种自然声音波形的一个有趣的特点是,在大尺度上,声音波形是对称分布的,这是源于物体往复振动的声音的结果。
但是,对于波形不一致的声音,它们也可能听起来一样。波形不能作为判断声音一致性的黄金法则。(为此,请参考参考文献3)
声音波形在大尺度上是对称的。
波形不可靠。看来我们得从光谱中想出点子了。我们已经提到了框架的概念。想想这两个声音听起来是一样的。应该是指每一帧的听觉都是一样的,帧的排列顺序也是一样的。对于每一帧,频谱都有振幅和相位。参考文献3告诉我们,人耳对相位不敏感。当满足相位不敏感性时,确定一致性的是每个帧的振幅-频谱和帧序列。嘿,这不是声谱图吗?看来声谱图的一致性和听感的一致性是有很大关系的。我们可以试着解释一下声音的反向和逆操作。
对过程感兴趣的可以看后记。结论是这样的:
声波反转后,对应的声谱图也反转。听起来自然会很奇怪。
声波倒置后,对应谱的整体相位移动180度,谱图不变。人耳对这种180度相移不敏感,所以听起来很一致。
简单了解声音采样和频谱,我们甚至可以做一些语音加密的小技巧。例如,对于一个两声道的音频文件,除了文件的头信息之外,它按照左右顺序存储波形采样值。如果我们对原始采样值进行变换(不超过比特深度),这就是一个简单的加密编码。
当然,反向模仿可能是一个更轻松愉快的游戏,录一段音频,然后反向。邀请其他人模仿反转的音频。第二次反转后,看看他能不能猜出原声。算了,我要去捉弄别人了!
参考:
1.部分图片来自网络。
2.Adobe用户指南
3.https://zhuanlan.zhihu.com/p/33554898
4.https://zhuanlan.zhihu.com/p/71582795
5.https://zhuanlan.zhihu.com/p/66117227
附言
从傅立叶变换的角度,我们来解释一下反转和倒置对声谱图和听觉感知的影响。实际上,声音处理的傅立叶变换采用非周期离散傅立叶变换(DFT)。通常通过快速傅立叶变换(FFT)来计算。为了便于说明,我们将其简化为连续傅里叶变换。(这里,仅从整体转化来看,结论是可靠的。)对于原始声波,假设有变换:
1.当声波倒放时,对应的时间谱在时间上反转也就不足为奇了。我们需要解释的是,对于每一帧,它的振幅谱是完全确定的。时间反转影响傅立叶变换中正负频率对应的镜像函数,它们是反转的。它对最终获得的振幅谱没有影响。(某一频率的幅度是正负频率镜像函数相加的结果。在DFT的情况下,它是对称频率分量的相加。相应解释参见4和5)。因为频谱反转后需要及时移动到零点,所以会按照时移特性移动。总之,每一帧的(幅度)频谱都是不变的,整体时间是反转的,所以时频频谱呈现反转关系。
原始光谱
反向光谱(已经水平镜像)
2.反转声波的结果是:
相位反转后,所有频率镜像函数的相位偏移180度,谱图为振幅频谱,所以谱图不变。因为人耳对整体180度的相位变化不敏感(参考3),所以声音也是一致的。当人耳对帧的相位不敏感时,声谱图的一致性和听觉感知是统一的。
原始光谱
倒置光谱
原标题:奇怪的s
点击标题查看
1.为什么不倒翁小姐可以摇一整夜不倒?
2.在家考试容易作弊吗?
3.“我给你37美元,请把这桶油搬走”
4.老师隔离后用射击游戏上网络课。学生看完真的怕自己想玩游戏吗?
5.被五步蛇咬了走几步最安全?
6.我们从不对你撒谎,除非.你不懂物理。
7.为什么植物油可以倒进海里救命?这个问题是美国学霸的父亲做不出来的。
8.为什么32关的《超级马里奥兄弟》只有64KB?
9.十种物理效果,一次看够!
10.方程E=mc中,M的能量从哪里来?
暂无讨论,说说你的看法吧