机器之心专栏
机器之心编辑部
QQ浏览器“听书”背后的StyleTTS赋予了合成语音情感温度。
今年4月,QQ浏览器宣布“小说频道”正式改为“免费小说”频道,这意味着阅读平台下的上千种小说将可供用户免费阅读。文学浮沉二十多年,阅读方式几经变迁。
同时,科技的发展也在创新阅读方式。比如语音合成技术的成熟,让越来越多的读者选择听小说。在语音合成技术中,如何使声音充满情感和表现力一直是一个难点。在QQ浏览器最近推出的“听书”功能中,应用了腾讯PCG AI交互部StyleTTS端到端合成框架的创新技术,使合成语音具有情感温度,高保真音色堪比真人。
QQ浏览器使用的StyleTTS利用精心设计的语音语料库训练声学模型和文本处理模型。得到的模型深入挖掘了语音语言特征,合成的语音清晰、自然、友好、表现力强。目前QQ浏览器“听书”功能推出了多种音色,每种音色都有自己的风格,满足不同人的阅读喜好。最新更新中,QQ浏览器推出了三款作家AI音色包。不同寻常的玩法背后,是QQ浏览器进一步应用AI合成声音的尝试。
实现跨扬声器风格控制合成的端到端声学模型。
事实上,语音合成技术一直伴随着网络文本的发展,因为它的历史更长。1939年,贝尔实验室制造了第一台基于共振峰原理的电子合成器,这是语音合成的一个重要开端。直到90年代,出现了基于大语料库的单元选择和波形拼接的方法,可以合成高质量的自然语音。在神经网络出现之前,波形拼接一直是语音合成的主要方式。波形拼接的基本原理是根据输入文本的信息,从人工记录和标注的语料中选择合适的基元(通常是音素或音节),进行少量调整,然后利用波形拼接得到待合成文本对应的语音序列。而波形拼接合成法需要准备大量高质量的语料库,拼出来的语音能让人听懂,但很难做到自然流畅。波形拼接合成应用于阅读小说时,其合成语音生硬,机械化的电音无法给观众带来良好的听觉体验。但人读文章时,呼吸停顿自然,节奏自然,听起来不累。
深度神经网络克服了传统文语转换系统的局限性,匹配口语中的语音顿挫和语调模式及节奏,将语音单元合成为计算机语音。通过声学建模,即将文本特征转化为声学特征,利用半监督机器学习技术,实现高精度、自动化的发音辨别和接近真人的语音生成。合成的语音在节奏、语调、顿挫感上几乎和真人一样,具有和人声一样的自然节奏和词汇清晰度。
StyleTTS结构图
端到端语音合成系统由前端、声学模型和声码器组成。前端主要解决基于语义理解的文本发音问题,主要包括文本正则化、分词、单词发音、停顿预测等。声学模型负责赋予语音节奏,如语速、语调、停顿、重音、情绪变化等。声码器的最后一部分负责还原语音的声学特征,即语音或声线,如振幅、频率、波长等。
为了更贴近读者的语音特点,QQ浏览器这次使用的StyleTTS端到端语音合成更加注重个性化和情感共鸣,合成效果具有更高的自然度和辨识度。同时可以灵活选择和控制语音转换的风格、口音、情感,满足不同场景的需求。在早期,六种音色是ca
腾讯PCG AI交互部相关负责人告诉机器之心,在录制音库的时候,会特别加入一些东北方言的文字,音箱会根据方言大声朗读。在训练StyleTTS声学模型时,采用无监督学习的帧级VAE在帧级表示韵律,使说话人的音色与韵律解耦,与重音有关的信息主要保留在韵律模型中。在《东北女声》中,我们使用方言和普通话的不同数据对韵律部分进行对抗训练,通过韵律模型来加强对口音的学习。
QQ浏览器使用的StyleTTS端到端合成框架除了音色和方言的不同风格外,还支持不同人(声)的韵律模型和音色模型的重组和搭配,可以实现跨说话人的风格控制合成,具有抑扬顿挫的节奏和丰富的立体情感表达,对于语音合成来说是一大突破。此外,模型中还加入了说话人特征编码、语言特征编码等经典方法,进一步提高了建模能力。未来,借助StyleTTS框架的优势,同一个人可以学习并拥有多种风格和语言,这将给用户带来更多选择。
生成语音的韵律和表现力由声学模型决定,而清晰度由声码器决定,这就限制了最终合成语音的音质,也是整个语音合成模型计算的瓶颈。阅读主要在移动端,不仅对音质要求高,对性能的挑战也很大。StyleTTS端到端合成框架采用多频段MelGAN子带建模,可以在短时间内合成出较好的音频。对移动终端进行了定制优化,在不明显降低音频质量的情况下,合成速度提高了数倍。
目前情感表达中语音合成的准确率主要通过人工主观观察和MOS评分来判断。为此,QQ浏览器正联合腾讯PCG AI交互部等各方,设置更为细致的音色制作和评分机制,从场景、风格、语速、年龄、音准、音质等多个维度进行详细评分,全面评估每一种音色的好坏。
QQ浏览器的月活跃用户现在达到4.45亿,免费小说作为一级入口放在底部菜单栏,让用户打开浏览器就能找到阅读小说的界面,可见小说在其“内容服务综合信息平台”定位中的重要性。免费小说在为QQ浏览器带来增量的同时,也在更大范围内推广了更多的优质IP。而“听书”为读者提供了另一种阅读方式,不仅能增加用户粘性,还能吸引全新的读者。正因如此,QQ浏览器一直在“听书”的模式上不断尝试,为读者提供更好的阅读体验,而StyleTTS的应用也进一步满足了“听书”的个性化需求。
降低语音合成成本,探索新的阅读方式。
在刚刚过去的国际盲人节,QQ浏览器免费小说《听书》功能更新,推出了叶、公子眼、青山祖嘴的AI音色包,并上线“读者”频道。名人更有影响力和号召力,很容易被选中录制音色包,QQ浏览器选了三个作者。可见QQ浏览器在数字阅读方面积极探索玩法持续创新的决心。听作者自己写的小说,真的让他们感觉不一样。
QQ浏览器的免费小说频道,拥有数千万的小说,数百万的阅文集团作者资源,这意味着阅文有足够的创新空间。这样一来,读者的体验就会和现在流行的默认发音有很大的不同。
010-350000
传统的语音合成定制需要10个小时以上的数据录制和标注,对录制器和录制环境要求很高。从开始定制到最终交付,生产周期长,成本高。目前QQ浏览器使用的StyleTTS,通过海量、高质量的录音数据,构建了稳定的基础模型。只需要每种情感的少量数据就可以还原说话人不同的情感效果,节省了大量的ma
在国内主流音频平台上,有声书的热度以66.3%高居榜首。据相关研究数据显示,中国现已成为全球第二大有声阅读市场。2020年,中国有声阅读市场规模已经超过80亿元。预计到2022年,有望超过美国,成为全球最大的有声阅读市场。可以想象,随着StyleTTS技术的普及,有声书行业也会发生很大的变化。
如何让人工智能具备人类的特征和技能?答案是不断吸收和学习。谷歌曾要求其AI阅读2000多部言情小说,只因为它能像真人一样与人对话,对话内容有更多风格。对于StyleTTS来说,要想像真人一样说话,还需要大量的录音资料供他们分析、归纳、吸收。登陆QQ浏览器的“听书”功能,为StyleTTS提供了丰富的实用反馈,AI阅读技术也将逐渐成熟,音色多样,丰富流畅,听书将成为常态。
腾讯PCG AI互动部相关负责人表示,“听书”是StyleTTS现在的重要发展领域,后续还会有更多用户个性化、多角色、情绪情感,甚至自动配乐、音效等尝试,接近真人配音制作的水平。此外,在短视频、AI交互、社交、实时通讯等领域也会有更多的应用探索。通过打造高质量、高效率的音视频内容创作工具,帮助创作者更好地创作。
体验链接:https://novel.html5.qq.com/qbread/reader? CSR=1ch=009241