关于“语音合成”的两三件事是至理名言。

编者按3360智慧展现未来,洞察新知。中国科学院之声和中国科学院自动化研究所联合开设科普专栏《至理名言》为您介绍人工智能相关的知识和故事。从最新的成果到背后的轶事,它将带你参观AI空间,看看人工智能如何唤醒万物,让世界变得更美好。
文语转换(Text to speech,TTS)是一种自动将文字转换成语音信号的技术,涉及声学、语言学、自然语言理解、信号处理、模式识别等多个学科。它是信息处理领域的前沿技术。
早期的“语音合成”是指利用机器产生人工语音的技术。
它可以通过机械(机械学)、光学或电子手段产生类似于人说话的声音。最早的语音机是由冯肯佩兰在1780年制造的。它完全是机械式的,通过风箱向簧片输送空气来模拟声带的振动。声道是由一块软橡胶管模拟的共鸣器,其形状由操作者的手控制。运算符可以发出元音和辅音,如/a/、/o/、/u/、/p/、/l/、/m/、/r/、/n/等。通过控制操作杆和开口。在20世纪30年代,佩吉特的合成器能够说出简单的话,如“你好,伦敦,你在吗”。然而,所有这些机械合成器合成的声音与人所说的自然声音相差甚远。
图1语音机页面
随着电子技术的发展,人们开始使用计算机、数字滤波器和各种电子设备来研究语音合成。
G.Fant在1960年出版的《语音产生的声学理论》一书中,系统阐述了语音产生的声学理论,使语音合成技术的发展迈出了关键的一步,随之诞生了大量基于该理论的串联或并联共振峰合成器。
自20世纪80年代末以来,语音合成技术取得了很大的进步,特别是基音同步叠加法(Moulines and Charpentier,1990),大大提高了基于时域波形拼接法的语音合成的自然度。
20世纪末,统计参数语音合成系统成为一种新的主流算法,尤其是基于隐马尔可夫的语音合成最为成功。它可以自动高效地构建合成系统,无需人工干预。由于统计,对说话人和发音风格的依赖性较小,合成语音的语音风格和音色容易人为控制。而且合成系统的规模没有波形拼接大。
图2基于统计参数的语音合成系统
近年来,一些学者致力于端到端语音合成模型的建模,其性能有了很大的提高。2016年,谷歌的Deepmind研究团队提出了基于深度学习的WavetNet语音生成模型。
图3基于深度学习的WavetNet语音生成模型
该模型可以直接对原始语音数据进行建模,避免了声码器对语音进行参数化带来的音质损失,在语音合成和语音生成中非常有效。基于此,端到端语音合成模型发展迅速,在一些数据集上达到了与人类语音相当的水平。
随着计算机硬件水平的不断提高和机器学习技术的蓬勃发展,语音合成技术已经从最初的基于语音学规则的参数合成逐渐发展到基于大语料库的拼接合成和基于统计参数的语音合成。合成语音的可懂度和自然度也得到了显著提高,并成功应用于语音播报系统、有声读物、地图导航、信息查询系统等多个场景。可以说,语音合成技术正在悄然改变我们的生活,未来甚至会成为人们生活中不可或缺的一部分。图4语音合成的应用场景
参考资料:
1.H. Zen、K. Tokuda和A. Black,“统计参数语音合成”,《语音通信》,第51卷,第11期,第1039-1064页,2009年11月。
2.沈军,庞,魏斯,等,“通过调节Mel谱图预测的波网进行自然TTS合成”,in Proceedings ICASSP。IEEE,2018年,第373376页。
3.3张志勇,等。一种基于小波变换的音频生成模型[J]。网站预印本arXiv:2016 . 383636363636
4.王婷,陶军,傅锐,等。一次语音合成中的双层说话人监督[J]。继续。散客2020,2020: 3989-3993。
来源:中国科学院自动化研究所

其他教程

美团yolov6现烤现尝(准确率高于yolov5 yolox)

2022-8-30 20:06:02

其他教程

大学英语综合教程4选词填空翻译第四单元(上海交通大学应用型大学英语综合教程1课文翻译答案)

2022-8-30 20:08:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索