番茄的ai朗读和真人朗读怎样切换(番茄免费小说ai朗读原理)

机器之心报道作者：泽南研究员大战「硬演 AI」的故事。AI 整的活，永远出乎人类的预料。最近，一个网络小说阅读 APP 因为有 bug 登上了热搜，b 站上也出现了不少搞笑视频，一些还有百万播放量。引发人们广泛讨论的「番茄小说」是抖音旗下的

机器心脏报告

作者：泽南

《大战》中研究员“硬装AI”的故事。

AI的整个工作总是超出人类的预期。最近一个网络小说阅读APP因为一个bug上了热搜，b站上出现了很多搞笑视频，有的播放量上百万。

被广泛讨论的“番茄小说”是Tik Tok旗下的一款阅读应用。和其他很多类似的应用一样，它有听书的功能。AI算法生成的语音可以让你直接听任何文字小说，同时做其他事情。

番茄小说的区别在于，——比大多数app都“聪明”，它的语音合成AI更“聪明”:可以读出不同音色和音调的文字。如果字是“哈哈哈……”，AI不会平平淡淡的读，而是真的会笑；在朗读两个人的对话时，它可以自动将声音分成两种不同的语气，从而区分不同的角色。

但在某些小说中，如果作者写的文字给出过多的S，AI就会进入死循环，发出奇怪的噪音，或者文字中包含几段英文甚至希腊字母，那么AI就会读出完整的中式英语。

视频加载.

这让人有点紧张。毕竟在网络世界里，人们往往会在意这种特殊用法的描述。

语音合成有多难？

搜索之后，我们和这项技术的开发者聊了聊。

火山之声(字节跳动AI Lab智能语音团队)负责人马泽军表示：“番茄小说中的bug热搜真的超出了我们的预期，大家内部讨论了很久。“最近人们对语音合成技术的进步感到兴奋，但他们从未想到是从这个角度。」

马泽军表示，修复bug的技术早已开发出来。问题发生后，通过与业务方的沟通，很快推出了新机型，并修复了bug。老版本的股票音频正在被逐渐取代，为鬼畜区做贡献的网友们的快乐并没有持续多久。

事实上，在字节跳动内部，马泽军带领的团队与番茄小说的合作始于2019年。去年，火山语音对语音合成模型进行了大迭代，从早期的自回归结构到引入外部时间对齐机制的非自回归结构。与原模型相比，新模型在消除对齐错误和累积错误方面有了很大的改进，从而解决了发音不清和长句的问题。

为了解决“中式英语”问题，研究团队已经能够通过跨语言迁移(具体来说就是“当你的童年男神学会无缝切换语言”)让没有英语训练数据的音色模型产生标准的美式口音。

这些任务说起来容易，但对于研究人员来说，要想构建一个完美的语音合成AI，还有很多挑战需要克服。

在人工智能领域，语音技术是除计算机视觉(CV)和自然语言理解(NLP)之外的另一个重要领域。最早的研究可以追溯到1952年。一个典型的语音合成系统通常分为三个标准的技术模块：前端的文本分析，中间的声学模型和最终的声码器。

010-350000

要想让机器发出的声音接近真人，首先需要保证输出的内容不发错音，这就需要文本分析模型进行分析。为了读出优先顺序，声学模型需要根据文本分析得到的语言学特征预测发音速度、音高和停顿，然后用Mel谱特征输出。最后，声码器负责将Mel频谱转换成波形输出。它需要保证高质量的音质，避免金属声。

在番茄小说中，文本分析前端采用了在NLP领域广泛使用的Transformer架构模型BERT。通过神经网络加规则混合正则化模型(TN)和多任务前端模型，结合长时间的人工规则修正，不断提高前端句子级准确率，并通过蒸馏、量化等技术降低计算能力需求。声学模型采用基于LConv的并行Tacotron结构，声码器采用基于GAN的全神经网络架构。

真人朗读听起来很自然，因为人类对上下文的理解。为了让合成的语音听起来更好，在常规的TTS流程之上，火山语音团队还增加了更多的功能模块，实现了角色归属和情绪控制两大模块。Bert结构也用于角色归因，用于对两个任务建模：对话判断和回指消歧，类似的结构也用于预测情绪。

“小说文本中可能有很多人之间的对话，一个说话的人可能有多种情绪。通过音色和情绪的解耦，我们可以更好地控制合成语音的表现力，进而实现不同音色、不同情绪的灵活组合，这也是一大突破。”马泽军说。

组播是另一个有趣的尝试：算法模型先理解语境，获取每句话是旁白还是对话，是哪个角色说的，表达了什么样的情绪等相关信息，再与人的设定和情绪对应的模型合成，最终完成一本有声读物的解读。

语音合成的AI虽然有些地方发音不准，但大部分时候给人带来的体验还是不错的。在演示bug的视频下，有网友认为番茄小说的文字阅读听起来是同类app中最舒服的。

010-350000

除了为番茄小说提供AI阅读技术，语音还支持语音搜索的能力，可以帮助用户更快的找到自己感兴趣的小说。

“比如你可以对着手机说：找到《风起陇西》对应的原小说。我们可以让用户听得更好，找得更快，”马泽军说。

层出不穷的黑科技

番茄是Tik Tok在2019年初推出的免费阅读产品，现在已经成为中国最热门的在线阅读APP。人工智能阅读技术在其中发挥了重要作用。

语音学正计划将这些能力转移到更多的语言中。借助跨语言合成技术，不仅可以朗读音色准确的英语，还可以覆盖西班牙语、印尼语等，同时保留原有的小说风格。这极大地丰富了其国际单播音色矩阵，为不同国家的用户提供了更多选择。

除了情感合成和多角色阅读，火山语音学目前正在探索在AI文本阅读过程中加入背景音乐和音效的方向。“我们还在探索多角度声源定位，让你戴上耳机，空间音效就能演绎出脚步的移动，获得身临其境的体验，”马泽军说。

火山语音学的研究除了能让AI看小说，还涵盖了语音学的很多方面。在今年的国际语音学峰会ICASSP 2022上，字节跳动一项关于音乐翻唱检索的研究Bytecover2被大会接受，它可以在海量曲库中准确搜索出一首曲目的不同翻唱版本。

在上一代Bytecover研究中，火山语音学创造性地将ResNet-IBN模型和多任务学习的思想应用于封面特征识别，显著提高了封面特征的鲁棒性和可分辨性。Bytecover在国际音乐信息检索大赛MIREX中取得了历史最好成绩，准确率比第二名高出8%，大大刷新了历年来的封面识别曲目最好记录。mAP指数达到84%，是同年参赛的其他方案性能的14倍。

010-350000DYZC1是字节跳动提出的方法。

在Bytecover2上，作者利用主成分分析对全连接层(FC)进行初始化，构建PCA-FC模块对特征进行降维，降低了计算成本，检索速度提高了8倍。更重要的是，这项技术已经在大量的字节跳动产品中使用，在音乐分发、曲库整理、智能推荐等任务中发挥了重要作用。

AI研究最近的趋势是“大模型”。在计算机视觉和自然语言处理中，大规模预训练模型已经成为一个重要的研究方向，火山语音也在语音领域有所探索。提出了基于Swin transformer的音乐自我监控预训练方法S3T，能够有效挖掘音乐的时域和频域信息，在多个下游任务中取得了业界领先的成果。例如，与之前的自我监测方法相比，S3T在全行业音乐分类数据集上的准确率提高了12.5%，在特定任务上也超过了最优监督学习方法。

“面向全球市场，字节跳动需要面对大量的数据和广泛的需求，大规模的语音预训练模型是我们研究的重要方向，”马泽军说。“在最新的工作中，研究人员分别从算法和工程上优化了数百万小时语音数据的预训练，实现了一个拥有数百亿参数的大模型。」

未来火山之声还希望做千万小时的数据规模，完成一个千亿参数的大模型，达到支持100种语言的目标。

字节跳动的人工智能将给我们带来更多的惊喜。

开放领先的技术。

为番茄小说搭建AI语音技术的火山语音团队成立于2017年10月。目前，它有100名成员，并有R & amp海外的北京、上海、深圳、新加坡和波兰设有研发中心。

最近另一个关于火山之声的消息是，媒体报道的负责人离职了。马泽军表示，报道中提到的肖梅是AI Lab前语言学专家，主要负责语言学在语音合成技术中的应用。而不是AI实验室智能语音部门的负责人。

010-350000肖梅本人也驳斥了这一传闻。

长期以来，语音为字节跳动及ToB行业各业务线和火山引擎创新场景提供了全球领先的语音AI技术能力和优秀的全栈语音产品解决方案。在音频理解、创作、检索和生成、智能对话等领域不断进行场景创新和行业赋能，高效解决了语音通信、人机语音交互、音视频内容理解和创作等领域的诸多问题。

“我们不仅负责前沿算法的研究，还肩负着工程化的任务，面向公司整体业务，”马泽军说。“我们相信人工智能不仅可以在实验室实现技术突破，或者展示炫酷的效果，也希望它们能够走向实际应用场景。只有通过与用户的不断互动和迭代改进，才能达到这样的目标。」

不仅仅是火山语音技术在番茄小说中的应用，已经覆盖了Tik Tok、剑影等在字节跳动的核心产品和工具。voice提供的多语言视频字幕可以使用13种语言，为30多个国家提供服务。除了为娱乐产品提供服务，其语音技术还为火山发动机和飞行书籍提供功能。

在六一儿童节到来之际，火山之声旗下AI音乐人ByteMuse在Tik Tok打造了三首AI创作的儿童趣味配乐，《摇摇车》、《喵喵》，让各个年龄段的朋友都能用仪式感记录和分享自己的生活。欢迎在Tik Tok体验它们。

{{userData.name}}已认证

番茄的ai朗读和真人朗读怎样切换(番茄免费小说ai朗读原理)

视频删除最后几秒(怎么删除视频前几秒)

视频制作如何接单(视频剪辑制作接单)

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#