高保真音色堪比真人，StyleTTS为QQ浏览器“听书”语音注入情感

机器之心专栏机器之心编辑部QQ 浏览器「听书」背后的 StyleTTS 让合成语音有了情感的温度。今年 4 月，QQ 浏览器宣布「小说频道」正式变更为「免费小说」频道，这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二

机器之心专栏

机器之心编辑部

QQ浏览器“听书”背后的StyleTTS赋予了合成语音情感温度。

今年4月，QQ浏览器宣布“小说频道”正式改为“免费小说”频道，这意味着阅读平台下的上千种小说将可供用户免费阅读。文学浮沉二十多年，阅读方式几经变迁。

同时，科技的发展也在创新阅读方式。比如语音合成技术的成熟，让越来越多的读者选择听小说。在语音合成技术中，如何使声音充满情感和表现力一直是一个难点。在QQ浏览器最近推出的“听书”功能中，应用了腾讯PCG AI交互部StyleTTS端到端合成框架的创新技术，使合成语音具有情感温度，高保真音色堪比真人。

QQ浏览器使用的StyleTTS利用精心设计的语音语料库训练声学模型和文本处理模型。得到的模型深入挖掘了语音语言特征，合成的语音清晰、自然、友好、表现力强。目前QQ浏览器“听书”功能推出了多种音色，每种音色都有自己的风格，满足不同人的阅读喜好。最新更新中，QQ浏览器推出了三款作家AI音色包。不同寻常的玩法背后，是QQ浏览器进一步应用AI合成声音的尝试。

实现跨扬声器风格控制合成的端到端声学模型。

事实上，语音合成技术一直伴随着网络文本的发展，因为它的历史更长。1939年，贝尔实验室制造了第一台基于共振峰原理的电子合成器，这是语音合成的一个重要开端。直到90年代，出现了基于大语料库的单元选择和波形拼接的方法，可以合成高质量的自然语音。在神经网络出现之前，波形拼接一直是语音合成的主要方式。波形拼接的基本原理是根据输入文本的信息，从人工记录和标注的语料中选择合适的基元(通常是音素或音节)，进行少量调整，然后利用波形拼接得到待合成文本对应的语音序列。而波形拼接合成法需要准备大量高质量的语料库，拼出来的语音能让人听懂，但很难做到自然流畅。波形拼接合成应用于阅读小说时，其合成语音生硬，机械化的电音无法给观众带来良好的听觉体验。但人读文章时，呼吸停顿自然，节奏自然，听起来不累。

深度神经网络克服了传统文语转换系统的局限性，匹配口语中的语音顿挫和语调模式及节奏，将语音单元合成为计算机语音。通过声学建模，即将文本特征转化为声学特征，利用半监督机器学习技术，实现高精度、自动化的发音辨别和接近真人的语音生成。合成的语音在节奏、语调、顿挫感上几乎和真人一样，具有和人声一样的自然节奏和词汇清晰度。

StyleTTS结构图

端到端语音合成系统由前端、声学模型和声码器组成。前端主要解决基于语义理解的文本发音问题，主要包括文本正则化、分词、单词发音、停顿预测等。声学模型负责赋予语音节奏，如语速、语调、停顿、重音、情绪变化等。声码器的最后一部分负责还原语音的声学特征，即语音或声线，如振幅、频率、波长等。

为了更贴近读者的语音特点，QQ浏览器这次使用的StyleTTS端到端语音合成更加注重个性化和情感共鸣，合成效果具有更高的自然度和辨识度。同时可以灵活选择和控制语音转换的风格、口音、情感，满足不同场景的需求。在早期，六种音色是ca

腾讯PCG AI交互部相关负责人告诉机器之心，在录制音库的时候，会特别加入一些东北方言的文字，音箱会根据方言大声朗读。在训练StyleTTS声学模型时，采用无监督学习的帧级VAE在帧级表示韵律，使说话人的音色与韵律解耦，与重音有关的信息主要保留在韵律模型中。在《东北女声》中，我们使用方言和普通话的不同数据对韵律部分进行对抗训练，通过韵律模型来加强对口音的学习。

QQ浏览器使用的StyleTTS端到端合成框架除了音色和方言的不同风格外，还支持不同人(声)的韵律模型和音色模型的重组和搭配，可以实现跨说话人的风格控制合成，具有抑扬顿挫的节奏和丰富的立体情感表达，对于语音合成来说是一大突破。此外，模型中还加入了说话人特征编码、语言特征编码等经典方法，进一步提高了建模能力。未来，借助StyleTTS框架的优势，同一个人可以学习并拥有多种风格和语言，这将给用户带来更多选择。

生成语音的韵律和表现力由声学模型决定，而清晰度由声码器决定，这就限制了最终合成语音的音质，也是整个语音合成模型计算的瓶颈。阅读主要在移动端，不仅对音质要求高，对性能的挑战也很大。StyleTTS端到端合成框架采用多频段MelGAN子带建模，可以在短时间内合成出较好的音频。对移动终端进行了定制优化，在不明显降低音频质量的情况下，合成速度提高了数倍。

目前情感表达中语音合成的准确率主要通过人工主观观察和MOS评分来判断。为此，QQ浏览器正联合腾讯PCG AI交互部等各方，设置更为细致的音色制作和评分机制，从场景、风格、语速、年龄、音准、音质等多个维度进行详细评分，全面评估每一种音色的好坏。

QQ浏览器的月活跃用户现在达到4.45亿，免费小说作为一级入口放在底部菜单栏，让用户打开浏览器就能找到阅读小说的界面，可见小说在其“内容服务综合信息平台”定位中的重要性。免费小说在为QQ浏览器带来增量的同时，也在更大范围内推广了更多的优质IP。而“听书”为读者提供了另一种阅读方式，不仅能增加用户粘性，还能吸引全新的读者。正因如此，QQ浏览器一直在“听书”的模式上不断尝试，为读者提供更好的阅读体验，而StyleTTS的应用也进一步满足了“听书”的个性化需求。

降低语音合成成本，探索新的阅读方式。

在刚刚过去的国际盲人节，QQ浏览器免费小说《听书》功能更新，推出了叶、公子眼、青山祖嘴的AI音色包，并上线“读者”频道。名人更有影响力和号召力，很容易被选中录制音色包，QQ浏览器选了三个作者。可见QQ浏览器在数字阅读方面积极探索玩法持续创新的决心。听作者自己写的小说，真的让他们感觉不一样。

QQ浏览器的免费小说频道，拥有数千万的小说，数百万的阅文集团作者资源，这意味着阅文有足够的创新空间。这样一来，读者的体验就会和现在流行的默认发音有很大的不同。

010-350000

传统的语音合成定制需要10个小时以上的数据录制和标注，对录制器和录制环境要求很高。从开始定制到最终交付，生产周期长，成本高。目前QQ浏览器使用的StyleTTS，通过海量、高质量的录音数据，构建了稳定的基础模型。只需要每种情感的少量数据就可以还原说话人不同的情感效果，节省了大量的ma

在国内主流音频平台上，有声书的热度以66.3%高居榜首。据相关研究数据显示，中国现已成为全球第二大有声阅读市场。2020年，中国有声阅读市场规模已经超过80亿元。预计到2022年，有望超过美国，成为全球最大的有声阅读市场。可以想象，随着StyleTTS技术的普及，有声书行业也会发生很大的变化。

如何让人工智能具备人类的特征和技能？答案是不断吸收和学习。谷歌曾要求其AI阅读2000多部言情小说，只因为它能像真人一样与人对话，对话内容有更多风格。对于StyleTTS来说，要想像真人一样说话，还需要大量的录音资料供他们分析、归纳、吸收。登陆QQ浏览器的“听书”功能，为StyleTTS提供了丰富的实用反馈，AI阅读技术也将逐渐成熟，音色多样，丰富流畅，听书将成为常态。

腾讯PCG AI互动部相关负责人表示，“听书”是StyleTTS现在的重要发展领域，后续还会有更多用户个性化、多角色、情绪情感，甚至自动配乐、音效等尝试，接近真人配音制作的水平。此外，在短视频、AI交互、社交、实时通讯等领域也会有更多的应用探索。通过打造高质量、高效率的音视频内容创作工具，帮助创作者更好地创作。

体验链接：https://novel.html5.qq.com/qbread/reader? CSR=1ch=009241

{{userData.name}}已认证

高保真音色堪比真人，StyleTTS为QQ浏览器“听书”语音注入情感

怎么从电视剧上截取一小段视频，如何截取电视视频中的一部分

从“电子”到“科技”，安徽诺讯引领行业腾飞。

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#