大数据文摘出品方:蒋宝尚、魏子敏近日,《总统洋葱新闻》在Youtube和Reddit上引发争议。 视频中,特朗普一贯用懒散的声音播放了一组有趣的新闻——“数据雨”。
民主党携带了很多数据,冷却后变成液体,最后因降雨落下,给地球生态带来了很大的伤害。 要避免这种致命液体,你必须躲在房间里,不出门。
视频地址:
33559 www.YouTube.com/watchv=jzkltksheus虽然内容荒谬,但整个视频的语音效果非常真实,很多网友笑着说:“会不会马上接到特朗普的广告电话?” 再加上最近“假脸”技术兴起,与之相应的“假声”上线后,会生成无缝的假视频,充分制作出假戏,真伪难辨。
用变脸技术“出演”《射雕英雄传》的杨幂一键生成“伪声”
关于变音技术,江湖上确实流传着几种,但增加了机器学习和深度学习,该技术不再是简单的语音滤波器。 与“一键变脸”的deepfake软件一样,研究人员也开发出了便于不懂技术的同学直接使用的变声软件。 刚才听到的这个声音来自这样的网站Modulate.ai。 麻省理工学院科技评论的资深编辑Will Knight用它简单地变成了不同的声音。 创建这个网站的三个伙伴有来自麻省理工学院的两个,来自加州大学洛杉矶分校的一个。 对于游客,这个网站出现了一些适用的声音。 对于想定制名人声音的用户,必须通过官网联系。 网站显示,合成的语音经过神经网络训练,具有低延迟性和实时性。 文摘菌我试过了。 在网站提供的界面上录制声音,选择你想要的“性别”或“名人”,网站会立即生成你想要的声音。
网址: https://modulate.AI/此外,百度早在18年3月就宣布,百度开发的全新ai算法Deep Voice可以通过3.7秒的录音样本数据完美克隆人声。 Deep Voice是由百度AI研究院深度神经网络构建的高质量语音旋转( TTS )系统。 除了使用少量样本克隆声音外,系统还可以将女性声音变成男性,将英国声音变成美国。 语音传递的具体过程语音的直接转换很复杂。 因为一个人的“声音”不仅仅是声带定义的,声带只是声音的频率,具体还取决于口音和说话方式。 另外,音高还受到胸腔的物理特性等的影响。 这些影响在不同的层面上起作用,发音决定了单词和短语如何在几秒或几十秒内被识别。 开始语音合成时,技术人员主要考虑三个因素。 首先是生物学因素,人们很难自己改变这些因素。 二是构建语音识别的概念,语音识别是语言下明显表现出来的同一性。 有了这个定义,就可以很好地建立语音识别模型。 第三,构建独立于语境处理语音段的模型。 该模型的优点是比用神经网络处理的序列模型简单得多,能有效地减少语音处理时延。 总的来说,建立一个系统,在用另一个声音的频率分布替换一个说话者的声音的频率分布的同时,保持他们说话的其馀属性不变。 因此,自然地将系统分为1、语音识别2、语音转换两部分。 这两个部分最大的区别在于,是从语音转换为文本,还是从文本转换为语音? 如果这两个部分独立工作,整个系统就会失去“感情模仿”。 语音到文本的转换和文本到语音的转换是同一个极端的情况。 语音转换需要使用媒体。 由于系统只能提供语音,因此正在尝试在输出中再现输入的语句。 通过限制某时间段通过系统的信息量,系统学习识别功能( identity function ),这是系统的瓶颈。 语音到文本到语音的情况下,由于瓶颈是输入语音的文本表示,所以系统必须进行一般的学习才能从文本中产生可靠的语音。 从通过机器学习构建这样的系统的观点来看,当然会出现瓶颈。 机器学习,特别是深度学习,在被训练完成特定任务时表现得非常好。 但是瓶颈自动编码器没有接受语音转换的训练,他们接受了自动编码训练。 解决瓶颈的主要方法是调整信息瓶颈的带宽。 例如,在文本的中央,会丢失很多信息。 可以使用情感标签或其他符号对文本进行注释,但必须手动注释以重点关注监视数据。 具体步骤:首先,尝试用两个不同的损失函数训练说话者标识符( identifie )。 这意味着实际的音频将与扬声器配置文件匹配,并生成音频。 它还是一个扬声器配置文件,其实际音频与扬声器配置文件和实际音频相匹配。 使说话者的标识符“查找”说话者的身份。 否则,我们只能关注检测生成的语音。 实际上,我们发现只有两个损失函数中的第一个函数的训练起着相同的作用。 说话者标识符首先学会区分实际语音和生成的语音,随着生成器开始生成更高质量的输出,自然进化为使用说话者配置文件。 神经网络的输入层中对说话者识别符的大小设置了惩罚。 惩罚大小是一个可调参数,根据训练效果的进步是否显著,可以判断最佳参数。 对于真的和假的音频,我们最好的训练是迅速收敛0.55的交叉熵,在大多数训练中我们倾向于缓慢攀登0.6。 随后,继续改进系统的结构并直接优化语音转换目标,从而新的说话者标识符可以产生与目标语音完美匹配的合成语音,同时保持经常在瓶颈架构中丢失的表示性。
AI合成的大事件通过AI技术合成图像和视频由来已久并不新鲜,要说最有名的合成例子,可能如下。
他坦率地说,该技术是华盛顿大学SUPASORN SUWAJANAKORN等三人共同发明的,之所以选择奥巴马作为研究案例,是因为非常容易获得高清视频资源,不受版权限制。 因此,研究小组利用神经网络分析了数百万帧的视频,以确认奥巴马的表情是如何变化的。 因为开口需要脸部整体器官的协调,所以研究者不仅分析了口形的变化,还分析了嘴唇、牙齿、下巴周围的皱纹、脖子和衣领。
具体的操作步骤是研究人员收集语音剪辑(原始语音文件),使嘴型与新的语音文件剪辑相匹配,并与新的视频结婚。 国内科技公司在这一领域也各有千秋。 以导航语音而言,科大讯飞董事长刘庆峰在2023世界机器人大会上表示,高德地图导航上面的林志玲、郭德纲的声音都是合成的,其实不是本人的原声,而是他们的机器完成的合成,根本不是本人录制的。