机心报道
作者:泽南
研究员大战“硬AI”的故事。
AI的工作永远出乎人类的意料。 最近,某网络小说的阅读APP因为有bug而很火,b网站上也出现了很多搞笑视频。 有些甚至有百万销量。
备受争议的“番茄小说”是嘀嘀打车旗下的读书APP,和其他许多同类APP一样具有听书功能。 AI算法生成的语音可以在直接收听任何文字版小说的同时做别的事情。
番茄小说的不同之处在于,——相对于比较多的APP,语音合成AI变得“更聪明”。 能够通过各种音色和语气读取文字,如果文字是“哈哈……”,AI不会坦然地读出来,而是真的会笑。 阅读两个人的对话,还可以自动将声音分成两个不同的音调,以区分不同的角色。
但是,在一些小说中,如果作者写的文字给s太多,AI就会进入死循环发出怪声,或者文字中有一些英语或希腊字母,AI就会读完整的中文英语。
正在加载视频.
虽然有点摸不着头脑,但在网络世界里,还是很容易在意这种特殊用法的描写。
语音合成有多难
AI打中后,我们和这项技术的开发者进行了交谈。
“番茄小说bug的热卖确实出乎意料,内部也讨论了很长时间,”火山语音(字节跳动AI Lab智能语音团队)的工作人员泽君说。 “最近,人们都在兴奋语音合成技术的进步,没想到从这个角度起火了。 ” ”
据马泽君介绍,修复bug的技术已经开发出来了。 问题发生后,经过与业务方的沟通,迅速上线了新模型,错误得到了修复。 老版的股票音频正在慢慢被取代,网友们在鬼畜区发布的喜悦并没有持续太久。
实际上,在字节跳动内部,马泽君率领的团队和西红柿小说的合作是从2019年开始的。 去年,火山语音对语音合成模型进行了大版本迭代,从初始自回归结构发展到引入外部时间长度对齐机制的非自回归结构。 与原模型相比,新模型在消除对齐错误和累积误差等方面有了很大的改善,解决了发声不清晰、超长句子不停的问题
为了解决“中国英语”的问题,研究小组通过语言间的迁移,即使是没有英语训练数据的音色模型也能发出标准的美国口音。 “小时候,男神可以在多种语言之间无缝切换”。
虽然这些工作很简单,但是对于研究者来说,构建完美的语音合成AI还需要克服很多挑战。
在人工智能领域,语音技术是计算机视觉( CV )和自然语言理解( NLP )之外的另一个重要领域,最初的研究可以追溯到1952年。 典型的语音合成系统( TTS )通常被分成三个标准技术模块,诸如文本分析前端、中间语音模型、最后语音编码器。
为了使机器发出的声音接近人类,首先需要避免弄错输出内容,这就需要文本分析模型。 为了读取优先级,声学模型需要根据文本分析得到的语言学特征预测发音的语速、音高和停顿,并通过Mel谱特征输出。 最后,声编码器负责将Mel频谱转换为波形输出,需要确保高质量的音质,以免产生金属声等。
番茄小说在文本分析前端采用NLP领域广泛使用的Transformer体系结构模型BERT,采用神经网络和规则相结合的正则化模型( TN )和多任务前端模型声学模型采用基于LConv的并行taco tron结构,声码器采用基于GAN的全神经网络架构。
人类朗读之所以听起来自然,是因为人类理解上下文的内容。 为了更好地合成语音,在常规TTS流程的基础上,火山语音团队增加了更多的功能模块,实现了角色归属、情感控制两个模块。 在角色归属方面同样采用bert结构,进行对话判定和消歧两个任务的建模,并采用同样的结构进行情感预测。
“小说的文字中可能会有多人对话,或者一个说话者可能存在多种感情。 通过理解音色和感情的结合,可以更好地控制合成语音的表现力,实现不同音色和不同感情的灵活组合也是一大突破。 ”马泽说。
AI多播是另一个有趣的尝试。 算法模型首先在上下文中进行理解,获得每个词是解说还是对话、哪个角色说的、表达的是什么样的情感等信息,通过与角色和情感相对应的模型进行合成,最终完成有声读物的演绎。
语音合成的AI虽然也有读法错误的地方,但往往带来了很好的体验。 在演示bug的视频下,也有网友认为西红柿小说的文本朗读听起来是同类APP中最舒服的。
火山语音除了为番茄小说提供AI阅读技术外,还支持语音检索能力,后者可以帮助用户更快地找到感兴趣的小说。
“例如,在手机上找一部支持《风起陇西》的原作小说,我们就能让用户听得更爽,找到得更快,”马泽说。
黑科技层出不穷
番茄小说是嘀嘀打车2019年初推出的免费阅读产品,目前已成为国内在线阅读APP领域的热点。 AI朗读技术在其中发挥了很大的作用。
火山语音试图将这些能力转移到更多的语言上,通过异语言合成技术,不仅能以准确的音色阅读英语,还能覆盖西班牙语、印度尼西亚语等,保留原有的小说风格。 这大大完善了旗下的国际单播音色矩阵,为不同国家的用户提供了更多选择。
除了情感合成和多角色朗读这两大特点外,火山语音目前正在寻找在AI文本阅读过程中融入背景音乐和声音的方向。 “我们还在探索多角度的声源定位。 戴上耳机时,空间的音频效果会演出脚步声的动作,让你获得身临其境的感觉。”马泽说。
除了让AI看小说外,火山语音的研究还涵盖了语音的多个方面。 在今年的国际语音技术峰会ICASSP 2022上,字节跳动了音乐翻盖检索相关研究的Bytecover2被大会接收,可以从大容量的曲库中正确检索出一首歌的不同翻盖版本。
在前几代的Bytecover研究中,火山语音创造性地将ResNet-IBN模型和多任务学习思路应用于覆盖特征识别任务中。 显著提高覆盖特征的鲁棒性和可区分性。 Bytecover在国际音乐信息检索大赛MIREX上取得历史最高成绩,正确率比第二名高8%,大幅刷新了翻盖识别课程的历史最高记录。 mAP指标达到84%,是同年参加该竞赛的其他程序性能的14倍。
DYZC1是为字节跳动提出的方法。
另一方面,在Bytecover2中,作者采用主成分分析( PCA )初始化全连接层( FC ),构造了PCA-FC模块对特征进行降维,减少了计算开销,使检索速度提高了8倍。 更重要的是,该技术目前已落地字节类大量产品,在音乐发布、曲库整理、智能推荐等任务中发挥着重要作用。
AI研究的最近趋势是“大模型”。 在计算机视觉和自然语言处理中,大规模预训练模型已经成为一个重要的研究方向,火山语音也在语音领域进行了探索。 提出了基于Swin transformer音乐自我监控预训练方法S3T可以有效挖掘音乐的时域和频域信息,在许多下游任务中取得了行业领先的效果。 例如,S3T在业界通用的音乐分类数据集上比以前的自我监视方法精度提高了12.5%,超过了特定任务下的最佳监视学习方法。
“面对全球市场,字节跳动需要面对大量数据和广泛的需求。 语音大规模预训练模式是我们研究的重要方向,”马泽说。 “在最新的工作中,研究人员分别从算法和工程上优化了数百万小时的语音数据预训练,实现了百亿参数规模的大模型。 ” ”
未来,火山语音希望进行千万小时的数据规模,完成千亿参数的大模型,实现支持100种语言的目标。
字节跳动的AI,会给我们带来更多的惊喜。
开放先进技术
为番茄小说搭建AI语音技术的火山语音团队成立于2017年10月,现有100名成员在北京、上海、深圳、海外新加坡和波兰设有研发中心。
最近关于火山语音的另一条新闻是媒体报道员辞职,马泽君说报道中提到的梅晓系前AI Lab语言学专家,主要负责语言学在语音合成技术方面的应用。 我不是AI Lab智能语音部门的负责人。
梅晓本人也对此散布了谣言。
长期以来,火山语音面向字节跳动内部各条业务线和火山引擎ToB行业以及创新场景,提供了全球领先的语音AI技术能力和卓越的全栈语音产品解决方案。 在语音理解、创作、搜索和生成、智能交互等领域不断进行场景创新和行业功能增强,有效解决了语音通信、交互语音、音视频内容理解和创作等领域的诸多问题。
“我们不仅负责尖端算法的研究,还负责工程化,面向公司的整体业务,”马泽说。 “我们认为,人工智能不仅希望在实验室实现技术突破,展示酷炫效果,还希望走向实用场景。 要实现这些目标,需要不断与用户互动,不断提高。 ” ”
它不仅涵盖了番茄小说火山语音技术的应用,还涵盖了嘀嘀打车、剪纸等字节跳动的核心内容产品和道具。 通过智能语音提供的多语言视频字幕功能可以使用13种语言服务于30多个国家和地区。 除了为娱乐产品提供服务外,其语音技术也为火山引擎和飞行成本提供能力。
儿童节,火山之声AI音乐人ByteMuse嘀嘀打车全新记录和分享《摇摇车》、《喵喵》、《sunny kitty》三首AI创作的儿童趣味音乐,大大小小的朋友更仪式地记录生活欢迎在嘀嗒体验。