编辑:瞌睡虫小咸鱼
【新智元简介】今年《鱿鱼游戏》火。随着网飞等流媒体的兴起,非英语作品越来越多。而字幕、配音行业人才匮乏,尤其是小语种的直译。因此,网飞和小型本地化供应商都在探索人工智能配音技术是否可以取代人工字幕。
一个时代终究走到了尽头。
11月22日,上海市第三中级人民法院公开开庭审理了人人影视字幕组侵权案,并当庭作出一审判决。
被告人梁永平犯侵犯著作权罪,判处有期徒刑三年六个月,并处罚金人民币一百五十万元。
违法所得予以追缴,为犯罪所扣押的个人财产予以没收。
前段时间韩国反乌托邦剧系列《鱿鱼游戏》(鱿鱼游戏)相当火爆,一个月播放量达到1.42亿,在90个国家和地区排名第一。
网飞还提供多达31种语言的字幕和13种语言的配音。
010-350000
但是韩裔美国喜剧演员Youngmi Mayer发现《鱿鱼游戏》的官方字幕太离谱了,文字根本没有任何意义。
例如,当一个女演员用韩语表达“你在看什么”时,网飞的英语字幕被翻译成“走开”。
010-350000
随着网飞等流媒体的兴起,《鱿鱼游戏》等非英语作品越来越多。
而字幕、配音行业人才匮乏,尤其是小语种的直译。
或者以《鱿鱼游戏》为例。如果要推广到西班牙市场,一般会先输出英文字幕,但在此基础上再翻译成法文。
也就是说,某些语言的字幕质量完全取决于英语的翻译,在这个转换过程中必然会丢失大量的信息细节。
010-350000
据统计,《鱿鱼游戏》的配音版比字幕版观众多。
因此,无论是像网飞这样的流媒体巨头还是一些小型本地化服务提供商,都在探索人工智能技术是否可以取代人工翻译。
那么,AI到底能不能做到呢?
这得从Deepfake Voice是什么说起。
低沉的假声音
或者克隆一个人的声音。一种常用的技术叫做Deepfake Voice,也称为语音克隆或合成语音。它的目的是使用AI生成一个人的声音。
目前这项技术已经发展到可以非常准确地在音调和相似度上再现人声的地步。
010-350000
什么是声音克隆?
声音克隆是一个过程,人们使用计算机生成真实个体的声音,人工智能(AI)创建特定和唯一的声音克隆。
为了克隆某人的声音,必须将训练数据输入到人工智能模型中。这些数据通常记录了目标人讲话的例子。
010-350000
人工智能可以使用这些数据来呈现真实的声音,例如,任何可以用单词键入的东西都可以生成语音。这个过程被称为文本到语音。
在以前的文语转换(TTS)系统中,训练数据是控制语音输出生成的关键部分。换句话说,你听到的声音应该是数据集中给出的声音。
010-350000
然而,随着最新AI技术的引入,目标声音的一些特征,如语音波形,可以用于进一步的分析和提取。
什么是合成声音?
合成音是一个术语,也叫Deepfake Voice。合成声音通常与声音克隆互换使用。
但简单来说,合成语音就是计算机生成的语音,也叫语音合成,一般是通过人工智能(AI)和深度学习来实现的。
合成声音主要有两种方式:文本到语音(TTS)和语音到语音(STS)。
010-350000
上面已经介绍了文本到语音转换(TTS)。目前,TTS软件已经被用于帮助视障人士阅读数字文本,它也被承载在语音助手等其他应用上。
语音到语音(STS)不使用文本,而是使用一段语音来修改其声音的特征,以创建另一段听起来真实的合成语音。
010-350000
以前语音合成不能产生假音。但是随着技术的发展,这种情况发生了改变。
人工智能是如何完成语音合成的?
传统的语音合成通常使用两种基本技术。这两种技术是拼接合成和共振峰合成。
拼接的方法是将录制声音的短样本拼接在一起,形成一个称为unit的链。然后,这些单元用于生成用户定义的声音模式。
共振峰合成是再现元音发音时最常用的技术。
010-350000
这些方法的缺点是时不时会发出一些人发不出来的声音。但是深度学习和人工智能的出现,让TTS技术达到了一个新的高度。
AI文语转换俗称神经文语转换,利用神经网络和机器学习技术从文本合成语音输出。
首先,语音引擎接受音频输入,并识别人声产生的声波。
010-350000
然后,这些信息被翻译成语言数据,这被称为自动语音识别(ASR)。在获得这些数据后,语音引擎必须分析这些数据,以理解它收集的单词的含义,这被称为自然语言处理(NLP)。
010-350000
找训练数据是合成声音的第一个基础工程。没有清晰的录音,就没有办法成功训练人工智能模型捕捉一个人说话的所有复杂细节。
录音过程可能需要几个小时到几个小时,语音解决方案团队将提供一个全面的短语列表,以捕捉一个人语音的所有特征。
010-350000
通常,这个列表不会超过4000个短语,但目标是围绕某人独特的声音捕捉尽可能多的数据。——捕获的数据越多,声音克隆就越精确。
接下来,AI将对语音数据进行建模。
用神经网络得到一组有序的音素,然后转换成一组谱图。频谱是信号频带频谱的直观表示。
010-350000
神经网络选择合适的频谱,其频带可以更准确地刻画人脑在理解语音时所使用的声学特征。然后,神经声码器将这些频谱图转换为语音波形,从而产生自然逼真的声音。
010-350000
中国版Deepfake Voice是不是尝鲜?
今年10月,GitHub上的一个项目抢购了13k颗星星。
用AI技术模拟声音生成任何语音内容只需要5秒钟,还支持中文。
010-350000
从上传的演示视频来看,声音模仿也很逼真。
《模仿鸟》的主要特点包括:
普通话有多种中文数据集支持和测试:Aidatatang _ 200ZH,Magic Data,AI Shell 3,biaobei,MozillaCommonVoice等。适用于pytorch,已在1.9.0版本中测试。GPU特斯拉T4和GTX 2060可以运行在Windows操作系统和Linux操作系统(也有社区运行在苹果系统M1版本的成功案例)。只要下载或者新的训练合成器(预训练编码器/声码器或者实时HiFi-GAN作为声码器的合成器)就会有很好的效果,并且提供一个Webserver查看训练结果进行远程调用。
010-350000
嘲讽鸟在知乎有专栏分享保姆教程和训练技巧,使用也很简单。
首先,安装PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt中所需的其余包
第二步,准备预训练模型,可以由作者提供,也可以由他人训练。
重要的数据处理操作是音频和Mel声谱图预处理:python pre.py datasets_root可以传入参数-dataset {dataset}支持aidatatang _ 200zh,magic data,ai shell 3。
010-350000
第三步,直接在浏览器中启动一个Web程序进行调试。
010-350000
或者启动一个更完善的工具箱软件。
010-350000
作者还附上了所有能学到的论文和原代码库。
010-350000
这个仓库的名字叫mock bird,是mock bird,嘲鸟,以模仿其他鸟类、昆虫和两栖动物的叫声而闻名。也是西方文学或影视作品中经常出现的一种鸟。这是生物学界对嘲鸟的俗称。
名著《杀死一只知更鸟》的英文名是《杀死一只嘲鸟》,其实是翻译错误。知更鸟的英文名是Robin。
当人工智能用于语音诈骗时,Deepfake语音带来的语音诈骗就是一个大问题。
2019年,犯罪分子克隆了一家英国能源公司首席执行官的声音,骗走了24万美元,因为这位假首席执行官的口音和语气听起来非常真实。这起事件是欧洲已知的第一起直接使用人工智能的网络犯罪。
010-350000
另一个事件发生在2020年。一位在阿联酋工作的银行经理接了一个电话。当时,他以为自己在和一家公司的主管说话。结果他陷入了彻头彻尾的语音骗局,错误地批准了3500万美元的转账。
随着技术的发展,Deepfake语音诈骗变得越来越复杂。很多人可能已经在社交媒体上遇到过Deepfake Voice的一些假声音。
010-350000
那么,如何防范Deepfake语音诈骗呢?
有两种方法。
第一种方法是创建一个检测器并分析声音,以确定它是否是使用deepfake技术制作的。可惜因为Deepfake语音技术的不断发展,检测器不可能总是正确的。
第二种方法相对更真实,主要是实现一种听者听不到,人也无法编辑的音频水印。音频水印本质上是对声音的创作、编辑和使用的记录。这样,人们就更容易知道一段声音是不是合成的。
参考资料:
https://www . axios . com/人工智能-语音-配音-合成-14 bfb3c 6-99d b-4406-920d-91b 37d 00 a 99 a . html
https://www.businesswire.com/news/home/20210514005132/en/veri tone-Launches-marvel . ai-a-Complete-End-to-End-Voice-as-Service-Solution-Create-and-money-Hyper-reality-Synthetic-Voice-Content-in-Commercial-Scale
https://www . veri tone . com/blog/combining-conversational-ai-and-synthetic-media/
https://www . veri tone . com/blog/everything-you-need-know-on-deep fake-voice/
https://www . veri tone . com/blog/how-ai-companies-are-charging-deep fake-voice-fraud/
https://www.veritone.com/blog/how-to-create-a-synthetic-voice/
特别感谢ifan
https://www.ifanr.com/1454818
合成语音/
特别感谢ifan
https://www.ifanr.com/1454818