1.1元语音信号
演讲的基本目的是武汉的日日夜夜和武汉的日日夜夜的交流。也就是说,在说话者和听者之间传递信息。根据香农的信息论Kim Hye Yoon 364曹政奭,用离散符号序列表示的一条消息,可以用它的信息内容(以比特为单位)来量化,其中信息的传输速率以比特每秒(bps)为单位。在语音产生中,以及在许多人工设计的电子通信系统中,要传输的信息以连续变化的(模拟)波形的形式被编码,该波形可以被人类听众传输、记录(存储)、操纵并最终解码。信息的基本模拟形式是声音波形,我们称之为语音信号。语音信号(例如,图中1.2元所示的语音信号)可以通过麦克风转换成电波形,并可以通过模拟和数字信号处理方法进一步操作,然后通过扬声器(电话听筒)大声转换成回声图形式或耳机(根据需要)。当然,这种形式的语音处理是贝尔电话和许多今天用于记录、传输和处理语音和音频信号的设备的发明的基础。用贝尔自己的话说,金惠妍,47元,曹政奭,
华生,如果我能找到声音通过时电流会随着空气密度的变化而改变电流强度的机制,那么我就可以广播任何声音,甚至是语音。
尽管贝尔在不了解信息论的情况下做出了伟大的发明,但信息论的原理在复杂的现代数字通信系统的设计中发挥了重要作用。因此,尽管我们的主要焦点是语音波形及其参数模型形式的表示,但从讨论语音波形中编码的信息开始仍然是有用的。
图1.3袁展示了言语产生和感知的全过程,是Kramp-Karrenbauer从在说话者大脑中形成一个信息,到产生一个言语信号,最后到听众理解这个信息的过程的图示。在语音科学的经典介绍中,Denes和Pinson恰当地将这一过程称为“语音链”。语音链的更详细的框图表示如图1所示袁4。该过程从左上角开始。比如,语音信息在说话人的大脑中以一定的方式表达出来。在语音生成过程中,可以认为语音信息有多种不同的表征(1.4元中的上路径)。
该消息最初可以表示为英语文本。为了说出“消息”,说话者隐含地将文本转换成对应于文本口语版本的声音序列的符号表示。这一步在1.4元中被称为语言代码生成器,它将文本符号转换成音标(以及压力和时长信息),以描述口语版消息的基本声音和产生声音的方式(即速度和加重)。例如,使用称为ARPAbet的计算机键盘友好代码,在图形的1.2元中用音标标记波形的每一段。因此,逃生室:冠军联赛,我们应该遵循文本“与ARPAbet符号由声音表达为金惠尹书泷泽萝拉Kramp-卡伦鲍尔范sir Iy Kramp-卡伦鲍尔CHEY S曹政奭。(关于注音的更多讨论,请参见《侏罗纪世界3》一章。)言语产生过程的第三步是切换到神经肌肉控制。即一组控制信号,其指示神经肌肉系统移动发音装置,即舌头、嘴唇、牙齿、下巴等。以与期望的语音一致的方式。
时间(秒)
图1.2元
一个语音波形,带有一条消息的语音标签,上面写着“我们应该追”。
《密室逃脱:冠军锦标赛》(IPA)国际语音协会通过使用一组等价的特殊符号,为语音转录提供了一套规则。ARPAbet代码不需要特殊的字体,所以有更多的信息和所需的强调。肌肉控制步骤的最终结果是一组关节运动(连续控制),使声带发声器按照规定的方式运动,发出所需的声音。最后,语音产生过程的最后一步是“声道系统”,通过创建物理声源和适当的时变声道形状,产生如图1.2元所示的声波波形。这样,所需信息中的信息被编码成声音符号
确定语音生成过程中的信息流速率,假设语音合成中约有32元符号(字母)书面语。英语中有26元的字母,但如果我们包括简单的标点符号和空格,我们会得到一个接近32元=25元的计数。)正常的平均语速是每秒15元符号左右。因此,假设独立字母是简单的一阶近似,编码为语音的文本消息的基本信息速率约为75元bps(每符号5比特乘以每秒15元符号)。然而,实际速率随语音速率而变化。对于图1.2元的例子,文本表示具有15元字母(包括空格),并且语音声音的相应持续时间是0.6元秒,从而给出更高的估计值15元x5/0.6元=125 bps。在该过程的第二阶段,文本表示和韵律(例如,声调和重音)标记被转换成称为音素的基本声音单元,并且信息速率可以容易地增加到200元bps以上。1.2元中用于标记语音的ARBAbet音标集包含约64元=26元符号,或约6元位/音素(再次近似假设音素的独立性)。图1.2元,0.6元秒左右有8个音素。这导致8元x 6元/0.6元=80元bps的估计值。描述信号的韵律特征所需的其他信息(例如,持续时间、音高、响度)可以很容易地增加编码为语音信号的文本消息的总信息速率的100元bps。
语音链中前两个阶段的信息表示为
离散,所以我们可以很容易地通过一些简单的假设来估计信息流的速率。对于语音链的语音生成部分的下一阶段,表示将变得连续(以关节运动的神经肌肉控制信号的形式)。如果可以测量,我们可以估计这些控制信号的频谱带宽,并对这些信号进行适当的采样和量化,以获得等效的数字信号,并且可以估计这些数字信号的数据速率。与产生的声波波形的时间变化相比,咬合架移动相对较慢。并且对所需信号表示精度的估计表明,采样的关节运动控制信号的总数据速率约为2000 bps [105] Hye Yoon 105曹政奭。因此,原始文本信息是由一组不断变化的信号来表示的,其数字表示需要较高的信号表示率。最后,侏罗纪世界3,我们后面会看到,语音链语音生成部分末端的数字化语音波形的数据速率可以达到
《侏罗纪世界3》请注意,我们引入了“数据速率”一词进行数字表示,以区别于语音信号表达的消息的固有信息内容。
它可以从64元,000个基点到700元,000多个基点。我们可以通过检查以期望的感知保真度表示语音信号所需的采样率和量化来获得这样的数字。例如,“电话质量”语音处理要求保留从0元到4kHz的带宽,这意味着采样率为8000样本/秒。每个样本的幅度可以通过分布在对数标度上的8元比特来量化,从而得到64元,000 bps的比特率。这种表示非常清晰(比如人们可以很容易从中提取信息),但对于大多数听众来说,另一方面,语音波形可以用“CD质量”来表示,使用44元、100元样本/秒和16元样本的采样率,或者“数据质量”。70.56万基点.在这种情况下,再现的声音信号实际上与原始的声音信号没有区别。
当我们通过语音链将文本表示转换为语音波形表示时,结果就是对消息的编码,它可以通过声波传播来传输,并被受众的收听机制可靠地解码。上面对数据速率的分析表明,当我们从文本转移到采样的语音波形时,数据速率可以增加10,000倍。这些额外信息中的一部分代表了说话者的特征,如情绪状态、言谈举止、口音等。但大部分是由于模拟信号的简单采样和精细量化效率低下。因此,由于认识到语音固有的低信息速率,许多数字语音处理的中心主题是获得数据速率低于sam的数字表示
完整的语音链包括上述语音生成/生成模型和语音感知/识别模型,如1.4元左半部分所示。语音感知模型显示了从上限到下限的一系列处理步骤。浏览耳朵上的语音以理解语音信号中编码的信息。第一步是有效地将声波转换成频谱表示。这是在内耳中通过基底膜完成的,基底膜通过在空间上分离传入语音信号的频谱分量并对其进行分析(相当于非均匀滤波器组)来充当非均匀频谱分析器。语音感知过程的第二步是将频谱特征转化为一组可以被大脑解码和处理的声音特征(或语言学中的独特特征)。这个过程的第三步是通过人脑中的语言翻译过程,将声音特征转换成与传入消息相关联的一组音素、单词和句子。最后,语音感知模型的最后一步是将消息的音素、单词和句子转换成对基本消息含义的理解,以便能够做出反应或采取一些适当的措施。我们对图1.4元大部分语音感知模块中的过程的基础知识充其量只是基础知识,但一般认为语音感知模型中每一步的一些物理关系都发生在人脑中,所以全脑模型对于考虑发生过程是非常有用的。第二章4讨论了听觉感知的基本知识。
1.4元的完整语音链示意图还展示了一个我们还没有讨论的附加过程,即模型的语音生成和语音感知部分之间的传输通道。在其最简单的实施例中,如1.3元所示,这种传输通道仅由公共空间中扬声器和听众之间的声波连接组成。这个传输信道必须包含在我们的语音链模型中,因为它包含了现实世界中的噪声和信道失真,这将增加在真实通信环境中理解语音和消息的难度。就我们的目的而言,更有趣的是Kramp-Karrenbauer在这里,语音波形被转换为数字形式,并由通信系统进行处理、存储或传输。也就是说,正是在这个领域中,我们发现了数字语音处理的应用。
1.1语音信号
1.1元的语音信号
言语的根本目的是人类的交流;
语言的根本目的是人类交流;
即说话者和听者之间的信息传输。
也就是说者和听者之间的信息传递。
根据Shannon的信息理论[364],以离散符号序列表示的消息可以通过其以比特为单位的信息内容来量化,其中信息的传输速率以每秒比特数(bps)来衡量。
根据Shannon的信息论,Kim Hye Yoon 364曹政奭,用离散符号序列表示的消息可以用比特的信息含量来量化,其中信息的传输速率以比特每秒(bps)来衡量。
在语音产生中,以及在许多人类工程电子通信系统中,要传输的信息以连续变化的(模拟)波形的形式被编码,该波形可以被人类听众传输、记录(存储)、操纵并最终解码。
在语音产生中,以及在许多人类工程电子通信系统中,要传输的信息以连续变化的(模拟)波形的形式被编码,该波形可以被人类听众传输、记录(存储)、操纵并最终解码。
信息的基本模拟形式是一种声波,我们称之为语音信号。
信息的基本模拟形式是声音波形,我们称之为语音信号。
语音信号,如图1.2所示,可以通过麦克风转换为电波形,再通过模拟和数字信号处理方法进一步处理,然后根据需要通过扬声器、电话听筒或耳机转换回声音形式。
如1.2元所示,语音信号可以通过麦克风转换为电波形,然后通过模拟和数字信号处理方法进行处理,再根据需要通过扬声器、电话听筒或耳机转换为回声形式。
当然,这种形式的语音处理是贝尔发明电话的基础,也是当今众多记录、传输和处理语音和音频信号的设备的基础。
当然,这种语音处理方式是贝尔电话发明的基础,也是今天众多录音、传输和处理语音和音频信号的设备的基础。
用贝尔自己的话说[47],
用贝尔自己的话说,[47],
华生,如果我能得到一种机械装置,当声音通过空气时,它能使电流的强度随着空气密度的变化而变化,我就能发送任何声音,甚至是说话的声音。
华生,如果我能弄到一种机制,能使电流在有声音通过时,随着空气密度的变化而改变其强度,那么我就能发出任何声音,甚至是说话的声音。
尽管贝尔在不了解信息论的情况下做出了他的伟大发明,但信息论的原理在复杂的现代数字通信系统的设计中已经占据了非常重要的地位。
虽然贝尔在不了解信息理论的情况下做出了他的伟大发明,但信息理论的原理在设计复杂的现代数字通信系统中具有非常重要的意义。
因此,尽管我们的主要焦点将主要集中在语音波形及其参数模型形式的表示上,但从语音波形中编码的信息的讨论开始仍然是有用的。
因此,尽管我们的主要关注点将主要放在语音波形及其参数模型形式的表示上,但从讨论语音波形中编码的信息开始还是很有用的。
图1.3显示了产生和感知言语的完整过程——从说话者大脑中信息的形成,到言语信号的产生,最后到听者对信息的理解。
图1.3展示了从说话者大脑中形成信息,到创造语音信号,最后到听者理解信息的完整过程。
在他们经典的《言语科学导论》中丹尼斯和平森恰当地将这一过程称为言语链[88]。
在经典的语言科学导论中丹尼斯和平森恰当地将这一过程称为语音链”[88]。
图1 .4显示了一个更精确的语音链框图。
图1.4显示了一个更细化的语音链框图表示。
这个过程始于左上角,是说话者大脑中以某种方式表达的信息。
这一过程开始于左上角,在说话人的大脑中以某种方式呈现出一条信息。
在言语产生的过程中,信息可以被认为有许多不同的表现形式(图1.4中的上方路径)。
在语音产生的过程中,消息信息可以被认为有许多不同的表示(图1.4中的上路径)。
例如
例如
该消息最初可以表示为英语文本。
消息最初可以表示为英语文本。
为了说出消息,说话者隐含地将文本转换成对应于文本口语版本的声音序列的符号表示。
为了传达”信息”,说话者含蓄地将文本转换成与文本的口语版本相对应的声音序列的符号表示。
这一步在图1.4中称为语言代码生成器,它将文本符号转换为语音符号(以及重音和持续时间信息),语音符号描述了信息口语版本的基本声音以及声音产生的方式(即速度和重音)。
这一步中,被称为语言代码生成器在图1.4中,将文字符号转换成语音符号(连同压力和持续时间信息)来描述消息的基本口语版的声音和方式(即速度和强调)的声音旨在生产。
举例来说,图1.2中的波形段用一种计算机键盘友好的代码阿帕贝特标上音标。
例如,图1.2的波形片段使用一种称为阿帕贝特的计算机键盘友好代码标记语音符号。
2因此,文本”我们应该追逐”在语音上表示为IY-EY大学.
2因此,”我们应该追逐的文本”(在阿帕贝特符号中)被表示为IY-EY大学。
(见第三章关于音标的更多讨论。)
(见第三章更多关于音标的讨论。)
语音产生过程的第三步是转换成神经肌肉控制;
语音产生过程的第三个步骤是神经肌肉控制的转换;
即,指导神经肌肉系统以与期望的口语声音一致的方式移动语音发音器官(即,舌头、嘴唇、牙齿、颌和腭)的一组控制信号
也就是一组控制信号,引导神经肌肉系统以一种与预期发音一致的方式移动发音器官,即舌头、嘴唇、牙齿、下巴和舌膜
以秒为单位的时间
时间间隔,以秒为单位
图1.2
图1.2
带有语音标签的语音波形,用于文本”我们应该追吗”所表示的消息
这是一种带有语音标签的语音波形,它所代表的信息是”我们应该追逐吗”
2国际音标协会(国际音标)使用一组等效的专用符号提供了一套音标规则。
国际音标协会(国际音标)提供了一套使用等价的专用符号集的音标规则。
阿帕贝特代码不需要特殊的字体,因此更具信息性,并具有所需的强调程度。
阿帕贝特代码不需要特殊的字体,因此具有更多的信息和所需的强调程度。
神经肌肉控制步骤的最终结果是一组发音运动(连续控制),其导致声道发音器官以规定的方式移动,以便产生期望的声音。
神经肌肉控制步骤的最终结果是一系列的发音动作(连续控制),使声道的发音器官按照规定的方式移动,从而产生所需的声音。
最后,语音产生过程的最后一步是”声道系统”,它产生物理声源和适当的时变声道形状,从而产生如图1.2所示的声波波形。
最后,语音产生过程中的最后一步是”声道系统”,它创建物理声源和适当的时变声道形状,从而产生如图1.2所示的声波形。
这样,所需消息中的信息被编码到语音信号中。
这样,所需信息中的信息就被编码到语音信号中。
为了确定言语产生过程中信息流动的速率,假设书面语中大约有32个符号(字母)。
为了确定语音产生过程中信息流动的速度,假设在书面语言中大约有32个符号(字母)。
(英语中有26个字母,但是如果我们包括简单的标点和空格,我们得到的数字接近32=25个符号。)
(英语中有26个字母,但如果我们加上简单的标点和空格,我们得到的数字更接近32=25个符号。)
正常的平均语速大约是每秒15个符号。
正常的平均说话速度大约是每秒15个符号。
因此,假设独立的字母为简单的一阶近似,编码为语音的文本消息的基本信息速率约为75个基点(每符号5比特乘以每秒15个符号)。
因此,假设独立的字母作为简单的一阶近似,编码为语音的文本消息的基本信息速率约为75个基点(每个符号5比特乘以每秒15个符号)。
但是,实际速率会因通话速率而异。
然而,实际的语速会随着语速的变化而变化。
对于图1.2的例子,文本表示具有15个字母(包括空格),并且相应的语音发声具有0.6秒的持续时间,给出155/0.6=125 bps的较高估计。
在图1.2的例子中,文本表示有15个字母(包括空格),而相应的语音表达持续时间为0.6秒,给出了更高的估计值15 x 5/0.6=125个基点。
在该过程的第二阶段,文本表示被转换成称为音素的基本声音单元以及韵律(例如,音高和重音)标记,信息速率可以容易地增加到200个基点以上。
在这一过程的第二阶段,文本表示法被转换成称为音素和韵律标记(如音调和重音)的基本声音单位,信息率可以很容易地增加到200个基点以上。
图1.2中用来标注语音的阿贝耳语音符号集包含大约64=26个符号,或大约6位/音素(假设音素独立,也是一个粗略的近似值)。
图1.2中用于标注语音的阿尔巴贝特语音符号集包含约64=26个符号,或约6位/音素(假设音素独立,这也是一个粗略的近似)。
在图1.2中,大约0.6秒有8个音素。
在图1.2中,大约0.6秒内有8个音素。
这导致了8 x 6/0.6=80个基点的估计值。
这导致估计为8 x 6/0.6=80个bps。
描述信号的韵律特征(例如,持续时间、音调、响度)所需的附加信息可以很容易地将编码为语音信号的文本消息的总信息速率增加100个基点.
描述信号的韵律特征(例如,持续时间、音调、响度)所需的附加信息很容易使编码为语音信号的文本消息的总信息速率增加100个bps。
语音链中前两个阶段的信息表示是离散的,因此我们可以通过一些简单的假设来估计信息流的速率。
语音链的前两个阶段的信息表示是离散的,因此我们可以很容易地通过一些简单的假设来估计信息流的速度。
对于语音链的语音产生部分的下一个阶段,表示变得连续(以用于发音运动的神经肌肉控制信号的形式)。
在下一阶段,在语音链的语音产生部分,表征成为连续的(以关节运动的神经肌肉控制信号的形式)。
如果可以测量,我们就可以估计这些控制信号的频谱带宽,并对这些信号进行适当的采样和量化,以获得可以估计数据速率的等效数字信号。
如果可以测量,我们可以估计这些控制信号的频谱带宽,并对这些信号进行适当的采样和量化,得到可以估计数据速率的等效数字信号。
与产生的声波波形的时间变化相比,咬合架移动相对较慢。
与产生的声波波形的时间变化相比,关节移动相对缓慢。
对带宽和所需信号表示精度的估计表明,采样发音控制信号的总数据速率约为2000个基点[105],因此,原始文本消息由一组连续变化的信号表示,其数字表示需要比我们估计的作为离散文本信号传输消息的信息速率高得多的数据速率。
估计所需的带宽和信号表示精度表明,总的发音控制信号采样的数据速率大约是2000个基点[105],因此,原始文本消息是由一组连续变化信号的数字表示需要更高的数据率比我们估计的信息率作为离散文本信号传输的消息。
3最后,我们将在后面看到,在语音链的语音产生部分的末端,数字化语音波形的数据速率可以
3 .最后,正如我们稍后将看到的,在语音链的语音产生部分的末端,数字化语音波形的数据速率可以
3请注意,我们为数字表示引入了术语”数据速率”,以区别于由语音信号表示的消息的固有信息内容。
注意,我们为数字表示引入术语”数据速率”,以区别于语音信号所表示的消息的固有信息内容。
从64,000到700,000个基点。
从64000到70000基点不等。
我们通过检查以期望的感知保真度表示语音信号所需的采样率和量化来得出这些数字,例如,电话质量的语音处理要求保持0到4千赫的带宽,这意味着采样率为8000样本/秒。
我们通过检查以理想的感知保真度表示语音信号所需的采样率和量化来得出这样的数字,例如,”电话质量”语音处理需要保持0至四千赫的带宽,这意味着采样率为8000个/秒。
每个样本幅度可以用分布在对数标度上的8位进行量化,从而产生64,000个基点的比特率。
每个样本振幅可以用8位分布在对数尺度上进行量化,结果比特率为64000基点。
这种表示是高度可理解的(即,人类可以容易地从中提取消息),但是对于大多数听众来说,它听起来将不同于说话者发出的原始语音信号。
这种表达是很容易理解的(也就是说,人类可以很容易地从中提取信息),但对大多数听众来说,它听起来会不同于说话者发出的原始语音信号。
另一方面,语音波形可以用“光盘质量”来表示,使用16位样本的44,100样本/秒的采样速率,或705,600基点的数据速率。
另一方面,语音波形可以用”光盘质量”表示,使用16位采样率44100个样本/秒,或705600个位/秒的数据率。
在这种情况下,再现的声音信号实际上无法与原始语音信号区分开来。
在这种情况下,再现的声音信号将与原始语音信号几乎无法区分。
当我们通过语音链从文本表示转移到语音波形表示时,结果是消息的编码可以通过声波传播来传输,并且被收听者的听觉机制稳健地解码。
当我们通过语音链从文本表示过渡到语音波形表示时,结果是可以通过声波传播传输的信息编码,并被听者的听觉机制稳健地解码。
以上对数据速率的分析表明,当我们从文本转换到采样语音波形时,数据速率可以提高10,000倍。
以上对数据速率的分析表明,当我们从文本移动到采样语音波形时,数据速率可以增加多达10,000倍。
这些额外信息的一部分代表了说话者的特征,例如情绪状态、讲话习惯、口音等。但这主要是由于简单采样和精细量化模拟信号的低效率。
这些额外信息的一部分代表说话者的特征,如情绪状态、说话习惯、口音等,但大部分是由于简单采样和精细量化模拟信号的低效率。
因此,在对语音的低固有信息速率的认识的推动下,许多数字语音处理的中心主题是以比采样波形更低的数据速率获得数字表示。
因此,由于意识到语音的低内在信息率,大部分数字语音处理的中心主题是获得比采样波形的数据率更低的数字表示。
完整的语音链由上述类型的语音产生/生成模型以及语音感知/识别模型组成,如图1.4的下半部分所示。
完整的语音链包括上述类型的语音产生/生成模型,以及语音感知/识别模型,如图1.4下半部左方所示。
语音感知模型显示了从在耳朵处捕获语音到理解语音信号中编码的消息的一系列处理步骤。
语音感知模型展示了从耳朵捕捉语音到理解语音信号中编码的信息的一系列处理步骤。
第一步是声波波形到频谱表示的有效转换。
第一步是将声波波形有效地转换为频谱表示。
这是在内耳中通过基底膜来完成的,基底膜通过在空间上分离输入语音信号的频谱分量来充当非均匀频谱分析器,从而通过相当于非均匀滤波器组来分析它们。
这是由内耳的基底膜完成的,基底膜作为一个非均匀频谱分析仪,在空间上分离输入语音信号的频谱成分,从而通过非均匀滤波器组来分析它们。
语音感知过程中的第二步是将频谱特征神经转换成一组声音特征(或语言学领域中所称的区别特征),这些特征可以被大脑解码和处理。
语音感知过程的第二步是将光谱特征通过神经传导成一组声音特征(或语言学领域所指的独特特征),这些特征可以被大脑解码和处理。
该过程的第三步是通过人脑中的语言翻译过程将声音特征转换成与输入消息相关联的一组音素、单词和句子。
这个过程的第三个步骤是通过人类大脑的语言翻译过程,将声音特征转换成与输入信息相关的一组音素、单词和句子。
最后,语音感知模型中的最后一步是将消息的音素、单词和句子转换成对基本消息含义的理解,以便能够做出响应或采取一些适当的行动。
最后,语音感知模型中的最后一步是将信息的音素、单词和句子转换为对基本信息的含义的理解,以便能够做出回应或采取一些适当的行动。
我们对图1.4中大多数语音感知模块中的过程的基本理解充其量是初步的,但人们普遍认为,语音感知模型中每个步骤的一些物理关联发生在人脑中,因此整个模型对于思考发生的过程是有用的。
我们的基本的理解过程在大多数的言语知觉模块如图1.4基本在最好的情况下,但普遍认为,一些物理相关言语知觉模型中的每个步骤的发生在人类的大脑,因此整个模型是有用的思考所发生的过程。
第四章讨论了听觉和感知的基本原理。
听力和知觉的基本原理将在第四章讨论。
在图1.4的完整语音链图中,有一个额外的过程我们没有讨论,即模型的语音生成和语音感知部分之间的传输通道。
在图1.4的完整语音链图中还有一个我们没有讨论的附加过程,即模型的语音生成部分和语音感知部分之间的传输通道。
在其最简单的实施例中,如图1.3所示,这种传输通道仅由位于同一空间的扬声器和听众之间的声波连接组成。
在其最简单的实施例中,如图1.3所示,该传输通道仅由位于公共空间的扬声器和听者之间的声波连接组成。
在我们的语音链模型中包含这种传输信道是非常必要的,因为它包含了真实世界的噪声和信道失真,这使得在真实的通信环境中理解语音和消息更加困难。
在我们的语音链模型中包含这个传输信道是非常必要的,因为它包含了真实世界的噪声和信道失真,这使得在真实通信环境中理解语音和信息更加困难。
对于我们的目的来说,更有趣的是,语音的声波波形被转换为数字形式,并由通信系统进行处理、存储或传输。
更有趣的是,在这里,语音的声波波形被转换成数字形式,并通过通信系统进行操作、存储或传输。
也就是说,正是在这个领域中,我们发现了数字语音处理的应用。
也就是说,数字语音处理正是在这一领域得到了应用。
1.1语音信号
言语的根本目的是人类的交流;即说话者和听者之间的信息传输。根据香农河的信息理论[364],以离散符号序列表示的消息可以通过其以比特为单位的信息内容来量化,其中信息的传输速率以每秒比特数(bps)来衡量。在语音产生中,以及在许多人类工程电子通信系统中,要传输的信息以连续变化(模拟)wa的形式编码veform that can be trans-mitted, recorded (stored), manipulated, and ultimately decoded by a human listener. The fundamental analog form of the message is an acoustic waveform that we call the speech signal. Speech signals, such as the one illustrated in Figure 1.2, can be con-verted to an electrical waveform by a microphone, further manipulated by both analog and digital signal processing methods, and then converted back to acoustic form by aloud speaker, a telephone handset, or headphone, as desired. This form of speech processing is, of course, the basis for Bell’s telephone invention as well as today’s multitude of devices for recording, transmitting, and manipulating speech and audio signals. In Bell’s own words [47],
Watson, if I can get a mechanism which will make a current of electricity vary its intensity as the air varies in density when sound is passing through it, I can telegraph any sound, even the sound of speech.
Although Bell made his great invention without knowing about information theory, the principles of information theory have assumed great importance in the design of sophisticated modern digital communications systems. Therefore, even though our main focus will be mostly on the speech waveform and its representation in the form of parametric models, it is nevertheless useful to begin with a discussion of the information that is encoded in the speech waveform.
Figure 1.3 shows a pictorial representation of the complete process of producing and perceiving speech – from the formulation of a message in the brain of a speaker, to the creation of the speech signal, and finally to the understanding of the message by a listener. In their classic introduction to speech science, Denes and Pinson appropriately referred to this process as the speech chain” [88]. A more refined block diagram representation of the speech chain is shown in Figure 1 .4. The process starts in the upper left as a message represented somehow in the brain of the speaker. The message information can be thought of as having a number of different representations during the process of speech production (the upper path in Figure 1.4). For example
the message could be represented initially as English text. In order to speak” the message, the speaker implicitly converts the text into a symbolic representation of the sequence of sounds corresponding to the spoken version of the text. This step, called the language code generator in Figure 1.4, converts text symbols to phonetic symbols (along with stress and durational information) that describe the basic sounds of a spoken version of the message and the manner (i.e., the speed and emphasis) in which the sounds are intended to be produced. As an example, the segments of the waveform of Figure 1.2 are labeled with phonetic symbols using a computer-keyboard-friendly code called ARPAbet.2 Thus, the text should we chase” is represented phonetically (in ARPAbet symbols) as [SH UH D- W IY – CH EY S]. (See Chapter 3 for more discussions of phonetic transcription.) The third step in the speech production process is the conversion to neuro-muscular controls; i.e., the set of control signals that direct the neuro-muscular system to move the speech articulators, namely the tongue, lips, teeth, jaw, and velum, in a manner that is consistent with the sounds of the desired spoken
FIGURE 1.2
Time in Seconds
FIGURE 1.2
A speech waveform with phonetic labels for the message represented by the text “should we chase.’
2The International Phonetic Association (IPA) provides a set of rules for phonetic transcription using an equivalent set of specialized symbols. The ARPAbet code does not require special fonts and is thus more message and with the desired degree of emphasis. The end result of the neuro-muscular controls step is a set of articulatory motions (continuous control) that cause the vocal tract articulators to move in a prescribed manner in order to create the desired sounds. Finally, the last step in the speech production process is the “vocal tract system,” which creates the physical sound sources and appropriate time-varying vocal tract shapes so as to produce an acoustic waveform such as the one shown in Figure 1.2. In this way, the information in the desired message is encoded into the speech signal.
To determine the rate of information flow during speech production, assume that there are about 32 symbols (letters) in the written language. (In English there are 26letters, but if we include simple punctuation and spaces, we get a count closer to 32 =25 symbols.) The normal average rate of speaking is about 15 symbols per second. Hence, assuming independent letters as a simple first-order approximation, the base information rate of the text message encoded as speech is about 75 bps (5 bits per symbol times 15 symbols per second). However, the actual rate will vary with speaking rate. For the example of Figure 1.2, the text representation has 15 letters (including spaces) and the corresponding speech utterance has a duration of 0.6 seconds, giving a higher estimate of 15 x 5/0.6= 125 bps. At the second stage of the process, where the text representation is converted into basic sound units called phonemes along with prosody (e.g., pitch and stress) markers, the information rate can easily increase to over 200 bps. The ARBAbet phonetic symbol set used to label the speech sounds in Figure 1.2 contains approximately 64 = 26 symbols, or about 6 bits/phoneme (again a rough approximation assuming independence of phonemes). In Figure 1.2, there are eight phonemes in approximately 0.6 seconds. This leads to an estimate of8 x 6/0.6 =80 bps. Additional information required to describe prosodic features of the signal (e.g., duration, pitch, loudness) could easily add 100 bps to the total information rate for the text message encoded as a speech signal.
The information representations for the first two stages in the speech chain are discrete, so we can readily estimate the rate of information flow with some simple assumptions. For the next stage in the speech production part of the speech chain, the representation becomes continuous (in the form of neuro-muscular control signals for articulatory motion). If they could be measured, we could estimate the spectral bandwidth of these control signals and appropriately sample and quantize these signals to obtain equivalent digital signals for which the data rate could be estimated. The articulators move relatively slowly compared to the time variation of the resulting acoustic waveform. Estimates of bandwidth and required signal representation accuracy suggest that the total data rate of the sampled articulatory control signals is about 2000 bps [105], Thus, the original text message is represented by a set of continuously varying signals whose digital representation requires a much higher data rate than the information rate that we estimated for transmission of the message as a discrete textual signal.3 Finally, as we will see later, the data rate of the digitized speech waveform at the end of the speech production part of the speech chain can
3Note that we introduce the term data rate” for digital representations to distinguish from the inherent information content of the message represented by the speech signal.
be anywhere from 64,000 to more than 700,000 bps. We arrive at such numbers by examining the sampling rate and quantization required to represent the speech signal with a desired perceptual fidelity, For example, telephone quality” speech processing requires that a bandwidth of 0 to 4 kHz be preserved, implying a sampling rate of 8000 samples/sec. Each sample amplitude can be quantized with 8 bits distributed on a log scale, resulting in a bit rate of 64,000 bps. This representation is highly intelligible (i.e., humans can readily extract the message from it) but to most listeners, it will sound different from the original speech signal uttered by the talker. On the other hand, the speech waveform can be represented with “CD quality” using a sampling rate of 44,100 samples/sec with 16-bit samples, or a data rate of 705,600 bps. in this case, the reproduced acoustic signal will be virtually indistinguishable from the original speech signal.
As we move from a textual representation to the speech waveform representation through the speech chain, the result is an encoding of the message that can be transmitted by acoustic wave propagation and robustly decoded by the hearing mechanism of a listener. The above analysis of data rates shows that as we move from text to a sampled speech waveform, the data rate can increase by a factor of up to 10,000. Part of this extra information represents characteristics of the talker such as emotional state, speech mannerisms, accent, etc., but much of it is due to the inefficiency of sim-ply sampling and finely quantizing analog signals. Thus, motivated by an awareness of the low intrinsic information rate of speech, a central theme of much of digital speech processing is to obtain a digital representation with a lower data rate than that of the sampled waveform.
The complete speech chain consists of a speech production/generation model, of the type discussed above, as well as a speech perception/recognition model, as shown progressing to the left in the bottom half of Figure 1.4. The speech perception model shows the series of processing steps from capturing speech at the ear to understanding the message encoded in the speech signal. The first step is the effective conversion of the acoustic waveform to a spectral representation. This is done within the inner ear by the basilar membrane, which acts as a non-uniform spectrum analyzer by spatially separating the spectral components of the incoming speech signal and thereby analyzing them by what amounts to a non-uniform filter bank. The second step in the speech perception process is a neural transduction of the spectral features into a set of sound features (or distinctive features as they are referred to in the area of linguistics) that can be decoded and processed by the brain. The third step in the process is a conversion of the sound features into the set of phonemes, words, and sentences associated with the incoming message by a language translation process in the human brain. Finally the last step in the speech perception model is the conversion of the phonemes, words, and sentences of the message into an understanding of the meaning of the basic message in order to be able to respond to or take some appropriate action. Our fundamental understanding of the processes in most of the speech perception modules in Figure 1.4is rudimentary at best, but it is generally agreed that some physical correlate of each of the steps in the speech perception model occurs within the human brain, and thus the entire model is useful for thinking about the processes that occur. The fundamentals of hearing and perception are discussed in Chapter 4.
There is one additional process shown in the diagram of the complete speech chain in Figure 1.4 that we have not discussed – namely the transmission channel between the speech generation and speech perception parts of the model. In its simplest embodiment, as depicted in Figure 1.3, this transmission channel consists of just the acoustic wave connection between a speaker and a listener who are in a common space. It is essential to include this transmission channel in our model for the speech chain since it includes real-world noise and channel distortions that make speech and message understanding more difficult in real-communication environments. More interestingly for our purpose here- this is where the acoustic waveform of speech is converted to digital form and manipulated, stored, or transmitted by a communication system. That is, it is in this domain that we find the applications of digital speech processing.
语音的基本目的是为了人类沟通,即说话者和倾听者之间消息的传输。据香农信息论1361,以离散符号序列表示的消息可对其信息量以比特进行量化,信息传输速率可用比特/秒(bps)进行度量。在语音产生及许多人类设计的电子通信系统中,待传输信息以连续变化的波形(模拟波形)进行编码,这种波形可以传输、记录(存储)、操纵,最后被倾听者解码。消息的基本模拟形式是一种称为语音信号的声学波。如图1.2 所示,语音信号可通过麦克风转换成电信号,进一步通过模拟和数字信号处理方法进行操纵,然后可根据需要通过扬声器、电话听简或头戴式耳机转换回声学波。这种语音处理方式为贝尔发明电话奠定了基础,同时也是今天大多数记录、传输、操纵语音和音频信号的设备的基础。用贝尔自己的话说:“华生,如果我能得到一种像声音传播时空气改变密度那样改变电流密度的机制,就能通过电来传递任何声音,甚至是语音。”
为了确定语音产生过程中信息流的速率,我们假设在书面语中约有32个符号(字母,英语中有26个字母,若包括标点符号和空格,则接近32=25个符号)。正常的平均说话速率约为15个符号每秒,因此,假设字母相互独立后做简单的–阶近似,文本消息编码成语音后的基本信息速率约为75bps (5比特每符号乘以15个符号每秒)。但是,实际的速率会随着说话的速率变化而变化。
@国际语音协会(IPA)为音素标注提供了一套规则,它用等价的一组特殊符号来表示音标ARPAbet编码不需要特殊字体,因此更加便于计算机应用。
对于图1.2 中的例子,文本包含15 个字母(包括空格),对应的语音词条持续了0.6秒,因此有更高的速率15×5/0.6= 125bps。在语音产生过程的第二个阶段,文本表示转变成基本声音的单元,它们称为带有韵律(即音高和重音)标记的音素,此时信息速率很容易达到200bps以上。图1.2 中用来标注语声片段的ARBAbet音素集包含近64=26个符号,即6比特每音素(假设音素相互独立得到的粗略近似)。在图1.2 中,大约0.6秒的时间里有8个音素,计算得到信息速率为8*6/0.6 = 80bps,考虑描述信号韵律特征的额外信息(如段长、音高、响度),文本信息编码成语音信号后,总信息速率需要再加上100bps。
语音链前两个阶段的信息表示是离散的,所以用一些简单假设就可估计信息流的速率。在语音链中语音产生部分的下-阶段,信息表示变成连续的(以关节运动时的神经肌肉控制信号的形式)。若它们能被度量,就可估计这些控制信号的频谱带宽,进行恰当的采样和量化获得等效的数字信号,进而估计数据的速率。与产生的声学波形的时间变化相比,关节的运动相当缓慢。带宽估计和信号表示需要达到的精度要求意味着被采样的关节控制信号的总数据率约为200bpl0.因此,用一-组连续变化信号表示的原始文本消息传输,比用离散文本信号表示的消息传输需要更高的数据率”。在语音链中语音产生部分的最后阶段,数字语音波形的数据率可从64000bps变化到超过70000bps.我们是通过测量表示语音信号时为达到想要的感知保真度所需要的采样率和量化率计算得到上面的结果的。例如,“电话质量”的语音处理需要保证带宽为0~4kHz,这意味着采样率为8000个样本秒。每个样本可以用对数尺度量化成8比特,从而得到数据率64000bps。这种表示方式很容易.听懂(即人们可很容易地从其中提取出消息),但对于大多数倾听者来说,语音听起来与说话者发出的原始语音会有不同。另一方面,语音波形可以表示成“CD质量”,即采用44100个样本/秒的采样率,每个样本16比特,总数据率为705600bps, 此时复原的声学波听起来和原始语音信号几乎没有区别。
当我们通过语音链将文本表示变成语音波形表示时,消息编码后能够以声学波形的形式进行传播,并且可被倾听者的听觉机制稳健地解码。前面对数据率的分析表明,当我们将消息从文本表示转换成采样的语音波形时,数据率会增大10000倍。这些额外信息的一部分能够代表说话者的一些特征,如情绪状态、说话的习惯、口音等,但主要是由简单采样和对模拟信号进行精细量化的低效性导致的。因此,出于语音信号固有的低信息速率的考虑,很多数字语音处理的重点是用比采样波形更低的数据率对语音进行数字表示。
完整的语音链包括上面讨论的语音产生/生成模型,也包括图1.4底部从右向左显示的语音感知/识别模型。语音感知模型显示了从耳朵捕捉语音信号到理解语音信号编码中携带的消息的一系列处理步骤。第一步是将声学波有效地转换成频谱表示,这是由耳朵内部的基底膜实现的,基底膜的作用类似于非均匀频谱分析仪,它能将输入语音信号的频谱成分进行空间分离,以非均匀滤波器组的方式进行频谱分析。语音感知过程中的第二步是神经传导过程,将频谱特征变成可被大脑解码:和处理的声音特征(或语音学领域中所指的差异性特征)。第三步通过人脑的语言翻译过程将声音特征变成与输入消息对应的一组音素、词和句子。语音感知模型中的最后一步是将消息对应的音素、词和句子变成对基本信息意义的理解,进而做出响应或采取适当的处理。我们对图1.4中大部分语音感知模块过程的基本理解还是非常初步的,但人们普遍认为语音感知模型中各个步骤物理间的相互关联发生在人脑中,因此整个模型对于思考语音感知模型中各个过程的发生非常有帮助。第4章中将讨论听觉和感知机理。
图1.4所示的整个语音链框图中还有一个过程我们没有讨论,即模型中语音产生部分和语音感
@为数字表示引入术语“数据率”,是为了区别于语音信号表示的消息中所含的内在信息内容。
知部分之间的传输通道。在图1.3 中描绘的最简单的具体实现中,传输通道仅包含同一空间中说话者和倾听者间的声学波连接。将传输通道包含在语音链模型中非常有必要,因为在真实的通信环境中,噪声和信道失真会使得理解语音和消息变得更加困难。有趣的是,正是在传输通道中我们利用通信系统将声学波形转变成数字形式,并对其进行操纵、存储或传播;也正是在这一领域里, 我们找到了数字语音处理的应用。
暂无讨论,说说你的看法吧