现在人工智能合成的声音单调简单,但这只是技术成熟,即将大规模商业化的标志。
近年来,由于机器学习技术的进步,语音合成有了很大的提高。过去最逼真的合成声音是由人声演员录制的,他们的一整段讲话被切割成不同的单个单词,然后这些单个单词像“活字印刷”一样拼接在一起,形成新的句子。现在,神经网络可以根据目标语音的未分类数据进行训练,从而从零开始生成某人说话的原始音频,并且它可以更快、更容易、更真实地达到目标结果。其实做这些“合成音”也没什么特别的。许多初创公司已经在提供类似的服务。只要在谷歌或百度上搜索“AI语音合成”或“AI语音deepfakes”,就会发现这项技术的应用相当普遍。
目前,市场上提供这种服务的公司包括像like这样的初创公司。AI、贝贝科技和Respeecher(只专注于语音合成)以及科大讯飞、搜狗和威瑞通等上市公司。在所有的应用场景中,“合成”名人的声音可能在未来几年最为突出。毕竟品牌和大众对名人的声音有天然的需求,名人也希望通过合成和出租自己的声音来增加收入。今年早些时候,一家名为Veritone的公司推出了这样一项服务。该公司推出了一个名为漫威的新平台。AI,它将允许创作者、媒体人和其他人合成名人的声音,并根据他们的意愿授权。
“声音是名人、运动员和演员的巨大财富,也是他们品牌的一部分,”Veritone总裁瑞安斯蒂尔伯格说。“他们想接受这些工作,但他们没有足够的时间去录音室录制音频内容。”还有漫威。AI,任何人都可以创建自己声音的“合成版本”,并在他们认为合适的时候使用它。大明星睡觉的时候,他们的声音可能是在录广播节目,在看有声读物等等。斯蒂尔伯格说,这个平台甚至可以通过使用存档的录音来训练人工智能模型,以“复活”死者的声音。正如Steelberg解释的那样,其广告子公司Veritone One在播客方面投入巨大,每月与有影响力的人进行超过75000次“广告整合”。“主要是名人配音赞助和商业广告。这非常有效,但也非常昂贵和耗时。”他说。Veritone公司的另一个部门Veritone Licensing获得了一些主要档案的视频授权。包括哥伦比亚广播公司(CBS)和美国有线电视新闻网(CNN)等广播公司以及NCAA和美国网球公开赛(US Open)等体育组织拥有的档案。
斯蒂尔伯格说:“你看到电影中阿波罗登月的镜头,或者耐克广告中体育明星的内容,都是通过Veritone获得的。正是这种在授权和广告方面的经验,将使Veritone比纯粹专注于技术的人工智能创业公司更具优势。”这样的应用实际上正在出现。例如,电影明星布鲁斯威利斯(Bruce Willis)已经授权他的形象在俄罗斯移动广告中用作视觉深度假。这笔交易让他足不出户就能赚钱,而广告公司则得到了一个可塑性极强的演员(而且值得注意的是年轻版的威利斯直接来自他的《虎胆龙威》)。我们比较熟悉的案例是地图软件中的导航语音。在2018世界机器人大会上,科大讯飞董事长刘庆峰表示,用AI合成声音非常方便,导航用的林志玲和郭德纲的声音其实都是科大讯飞合成的。
显然,只要他们愿意授权,这些合成的视频和音频可以加快名人的“变现”能力。同时,语音合成技术已经被植入到音频编辑软件和其他工具中。在美国公司Descript开发的同名播客编辑软件中,“Overdub”功能允许播客创建一种人工智能合成的声音,以便制作人快速修改其音频。正如Description首席执行官安德鲁梅森(Andrew Mason)所说,“你不仅可以删除Description中的文字,让它删除音频,还可以输入文字,它会用你的声音生成音频。”
当然,Overdub产生的语音合成并不完美。他们的语调有一种奇怪的颤音,缺乏真实的情感和强调的能力。所以,能够随意合成声音,并不意味着人类的声音从此多余。其实你当然可以通过一点点的人工剪辑来提高音质,但是基于现有的自动化技术,他们还是达不到专业人士所能达到的变调范围。正如语音艺术家安迪亚温斯洛(Andia Winslow)所说,虽然人工智能语音可能对机械化语音工作(内部消息系统、自动公告等)有用。),在很多应用中,它们无法与人类抗衡。温斯洛说,“对于那些需要呼吸和活力的重要产品,他们不会走那条路,部分原因是这些品牌喜欢和他们雇佣的名人合作。”
但是这项技术对普通大众意味着什么呢?对于我们这些知名度不够高,无法从这项技术中受益,并且在专业上没有受到这项技术发展威胁的人来说,潜在的应用也是多种多样的。首先,在电子游戏中,角色创建屏幕上有一个额外的选项来创建合成声音,因此听起来像是玩家在谈论游戏中的所有对话。或者有一个app,可以让父母合成声音,让他们在孩子不在身边的时候给孩子读睡前故事。这个应用可以用现有的技术来完成。当然,AI合成语音也有潜在的危险。“与时俱进”的骗子早已利用语音合成行骗,其他恶意滥用也遍地开花。比如想象一下,一个高中生偷偷录下一个同学的声音,然后伪造这个人说老师坏话的音频。或者说,在企业中,一个员工合成公司高管的声音,然后随意“发号施令”。如果我们想到各种恶搞的视频图片,假色情,甚至是视觉deepfake造成的政治误传,就可以知道,对于AI合成语音的担心从来都不是多余的。但有一点是肯定的:在未来,如果他们愿意,任何人都可以创造自己的人工智能合成语音。只是这个游戏的规则还没制定出来。
暂无讨论,说说你的看法吧