机器心脏报告
作者:泽南
《大战》中研究员“硬装AI”的故事。
AI的整个工作总是超出人类的预期。最近一个网络小说阅读APP因为一个bug上了热搜,b站上出现了很多搞笑视频,有的播放量上百万。
被广泛讨论的“番茄小说”是Tik Tok旗下的一款阅读应用。和其他很多类似的应用一样,它有听书的功能。AI算法生成的语音可以让你直接听任何文字小说,同时做其他事情。
番茄小说的区别在于,——比大多数app都“聪明”,它的语音合成AI更“聪明”:可以读出不同音色和音调的文字。如果字是“哈哈哈……”,AI不会平平淡淡的读,而是真的会笑;在朗读两个人的对话时,它可以自动将声音分成两种不同的语气,从而区分不同的角色。
但在某些小说中,如果作者写的文字给出过多的S,AI就会进入死循环,发出奇怪的噪音,或者文字中包含几段英文甚至希腊字母,那么AI就会读出完整的中式英语。
视频加载.
这让人有点紧张。毕竟在网络世界里,人们往往会在意这种特殊用法的描述。
语音合成有多难?
搜索之后,我们和这项技术的开发者聊了聊。
火山之声(字节跳动AI Lab智能语音团队)负责人马泽军表示:“番茄小说中的bug热搜真的超出了我们的预期,大家内部讨论了很久。“最近人们对语音合成技术的进步感到兴奋,但他们从未想到是从这个角度。」
马泽军表示,修复bug的技术早已开发出来。问题发生后,通过与业务方的沟通,很快推出了新机型,并修复了bug。老版本的股票音频正在被逐渐取代,为鬼畜区做贡献的网友们的快乐并没有持续多久。
事实上,在字节跳动内部,马泽军带领的团队与番茄小说的合作始于2019年。去年,火山语音对语音合成模型进行了大迭代,从早期的自回归结构到引入外部时间对齐机制的非自回归结构。与原模型相比,新模型在消除对齐错误和累积错误方面有了很大的改进,从而解决了发音不清和长句的问题。
为了解决“中式英语”问题,研究团队已经能够通过跨语言迁移(具体来说就是“当你的童年男神学会无缝切换语言”)让没有英语训练数据的音色模型产生标准的美式口音。
这些任务说起来容易,但对于研究人员来说,要想构建一个完美的语音合成AI,还有很多挑战需要克服。
在人工智能领域,语音技术是除计算机视觉(CV)和自然语言理解(NLP)之外的另一个重要领域。最早的研究可以追溯到1952年。一个典型的语音合成系统通常分为三个标准的技术模块:前端的文本分析,中间的声学模型和最终的声码器。
010-350000
要想让机器发出的声音接近真人,首先需要保证输出的内容不发错音,这就需要文本分析模型进行分析。为了读出优先顺序,声学模型需要根据文本分析得到的语言学特征预测发音速度、音高和停顿,然后用Mel谱特征输出。最后,声码器负责将Mel频谱转换成波形输出。它需要保证高质量的音质,避免金属声。
在番茄小说中,文本分析前端采用了在NLP领域广泛使用的Transformer架构模型BERT。通过神经网络加规则混合正则化模型(TN)和多任务前端模型,结合长时间的人工规则修正,不断提高前端句子级准确率,并通过蒸馏、量化等技术降低计算能力需求。声学模型采用基于LConv的并行Tacotron结构,声码器采用基于GAN的全神经网络架构。
真人朗读听起来很自然,因为人类对上下文的理解。为了让合成的语音听起来更好,在常规的TTS流程之上,火山语音团队还增加了更多的功能模块,实现了角色归属和情绪控制两大模块。Bert结构也用于角色归因,用于对两个任务建模:对话判断和回指消歧,类似的结构也用于预测情绪。
“小说文本中可能有很多人之间的对话,一个说话的人可能有多种情绪。通过音色和情绪的解耦,我们可以更好地控制合成语音的表现力,进而实现不同音色、不同情绪的灵活组合,这也是一大突破。”马泽军说。
组播是另一个有趣的尝试:算法模型先理解语境,获取每句话是旁白还是对话,是哪个角色说的,表达了什么样的情绪等相关信息,再与人的设定和情绪对应的模型合成,最终完成一本有声读物的解读。
语音合成的AI虽然有些地方发音不准,但大部分时候给人带来的体验还是不错的。在演示bug的视频下,有网友认为番茄小说的文字阅读听起来是同类app中最舒服的。
010-350000
除了为番茄小说提供AI阅读技术,语音还支持语音搜索的能力,可以帮助用户更快的找到自己感兴趣的小说。
“比如你可以对着手机说:找到《风起陇西》对应的原小说。我们可以让用户听得更好,找得更快,”马泽军说。
层出不穷的黑科技
番茄是Tik Tok在2019年初推出的免费阅读产品,现在已经成为中国最热门的在线阅读APP。人工智能阅读技术在其中发挥了重要作用。
语音学正计划将这些能力转移到更多的语言中。借助跨语言合成技术,不仅可以朗读音色准确的英语,还可以覆盖西班牙语、印尼语等,同时保留原有的小说风格。这极大地丰富了其国际单播音色矩阵,为不同国家的用户提供了更多选择。
除了情感合成和多角色阅读,火山语音学目前正在探索在AI文本阅读过程中加入背景音乐和音效的方向。“我们还在探索多角度声源定位,让你戴上耳机,空间音效就能演绎出脚步的移动,获得身临其境的体验,”马泽军说。
火山语音学的研究除了能让AI看小说,还涵盖了语音学的很多方面。在今年的国际语音学峰会ICASSP 2022上,字节跳动一项关于音乐翻唱检索的研究Bytecover2被大会接受,它可以在海量曲库中准确搜索出一首曲目的不同翻唱版本。
在上一代Bytecover研究中,火山语音学创造性地将ResNet-IBN模型和多任务学习的思想应用于封面特征识别,显著提高了封面特征的鲁棒性和可分辨性。Bytecover在国际音乐信息检索大赛MIREX中取得了历史最好成绩,准确率比第二名高出8%,大大刷新了历年来的封面识别曲目最好记录。mAP指数达到84%,是同年参赛的其他方案性能的14倍。
010-350000DYZC1是字节跳动提出的方法。
在Bytecover2上,作者利用主成分分析对全连接层(FC)进行初始化,构建PCA-FC模块对特征进行降维,降低了计算成本,检索速度提高了8倍。更重要的是,这项技术已经在大量的字节跳动产品中使用,在音乐分发、曲库整理、智能推荐等任务中发挥了重要作用。
AI研究最近的趋势是“大模型”。在计算机视觉和自然语言处理中,大规模预训练模型已经成为一个重要的研究方向,火山语音也在语音领域有所探索。提出了基于Swin transformer的音乐自我监控预训练方法S3T,能够有效挖掘音乐的时域和频域信息,在多个下游任务中取得了业界领先的成果。例如,与之前的自我监测方法相比,S3T在全行业音乐分类数据集上的准确率提高了12.5%,在特定任务上也超过了最优监督学习方法。
“面向全球市场,字节跳动需要面对大量的数据和广泛的需求,大规模的语音预训练模型是我们研究的重要方向,”马泽军说。“在最新的工作中,研究人员分别从算法和工程上优化了数百万小时语音数据的预训练,实现了一个拥有数百亿参数的大模型。」
未来火山之声还希望做千万小时的数据规模,完成一个千亿参数的大模型,达到支持100种语言的目标。
字节跳动的人工智能将给我们带来更多的惊喜。
开放领先的技术。
为番茄小说搭建AI语音技术的火山语音团队成立于2017年10月。目前,它有100名成员,并有R & amp海外的北京、上海、深圳、新加坡和波兰设有研发中心。
最近另一个关于火山之声的消息是,媒体报道的负责人离职了。马泽军表示,报道中提到的肖梅是AI Lab前语言学专家,主要负责语言学在语音合成技术中的应用。而不是AI实验室智能语音部门的负责人。
010-350000肖梅本人也驳斥了这一传闻。
长期以来,语音为字节跳动及ToB行业各业务线和火山引擎创新场景提供了全球领先的语音AI技术能力和优秀的全栈语音产品解决方案。在音频理解、创作、检索和生成、智能对话等领域不断进行场景创新和行业赋能,高效解决了语音通信、人机语音交互、音视频内容理解和创作等领域的诸多问题。
“我们不仅负责前沿算法的研究,还肩负着工程化的任务,面向公司整体业务,”马泽军说。“我们相信人工智能不仅可以在实验室实现技术突破,或者展示炫酷的效果,也希望它们能够走向实际应用场景。只有通过与用户的不断互动和迭代改进,才能达到这样的目标。」
不仅仅是火山语音技术在番茄小说中的应用,已经覆盖了Tik Tok、剑影等在字节跳动的核心产品和工具。voice提供的多语言视频字幕可以使用13种语言,为30多个国家提供服务。除了为娱乐产品提供服务,其语音技术还为火山发动机和飞行书籍提供功能。
在六一儿童节到来之际,火山之声旗下AI音乐人ByteMuse在Tik Tok打造了三首AI创作的儿童趣味配乐,《摇摇车》、《喵喵》,让各个年龄段的朋友都能用仪式感记录和分享自己的生活。欢迎在Tik Tok体验它们。