XP熊昨天贴的阅读(264)评论(0)
很多人都熟悉字幕。美剧、日剧、韩剧、二次元动画圈都对字幕有很大的需求。数量更多、范围更广的电视观众已经习惯了录制节目中的字幕。如今,在火热的在线教育中,它也有着不可替代的作用。以字幕的形式帮助国内学习者克服语言障碍,是国外名校开班和国外MOOC在国内推广的必要条件。即使是国内老师录制的视频课程,字幕也能在一定程度上解决学习者因语速、口音、内容复杂而导致的理解困难问题。
但目前除了一些知名公开课有大公司和“字幕组”提供的字幕支持外,国内绝大多数录播课程都不提供字幕。在这个讲“体验”、“极致”的时代,公司想不出字幕是很自然的。做不到,买不起,是最大的原因。
在制作视频字幕,尤其是教育视频字幕时,能否用技术代替人力来提高效率,节约成本?一家名为OKVoice的语音技术提供商正试图给我们提供一套可用的解决方案。几天前,芥末对对采访了OKVoice的联合创始人马骥和市场总监向丹,听听他们如何看待这个问题。
给视频加字幕有多难?
由于国外动画、电视剧、电影的流行,很多国外剧都会有字幕组在4-8小时后将完成的字幕文件挂在网上免费下载。这样的雷锋式义务劳动宠坏了很多中国人,让他们觉得字幕是一件很简单的事情。其实这是一项非常耗时耗力的工作。
大致来说,字幕制作可以分为文字输出和时间轴制作两部分。文本输出是指视频和音频中的话语信息从声音到文本的转换。时间轴是决定屏幕上每个句子出现和消失的时间点。这两部分都需要大量的时间由人来完成,是机器无法替代的“手工作业”。在字幕组,一部40分钟到一个小时的剧,通常需要几个人一组,通过合理的分工合作,几个小时内就能完成。这种原始的、依赖人力的状况,在电视台这种不缺钱的地方,一直没有改变。从事节目制作的白老师告诉芥子堆,电视台的字幕制作规模更大,也都是员工手工完成。“一分钟的节目转化成文字稿通常需要十倍的时间,加上时间线制作的时间,整个字幕制作需要大量的时间。”
不仅是时间,巨大的人工消耗也大大增加了成本。OKVoice的马骥表示,目前在线教育一集录播节目的制作成本如果是1000元,那么为其制作字幕还需要另外200到300元。太贵了,这也是目前大部分教育课程视频没有字幕的原因。但无论是一般学生还是特殊用户(如听障人士),都有字幕需求。
语音技术能做什么?
目前语音识别技术在做的就是建立语音和文本两个平行的语料库,通过机器识别和算法匹配来实现文本和声音之间的转换。
据马骥介绍,整个行业的语音识别正确率在90%左右,当达到95%时,这项技术的实用性将大大提高。按照现在的技术,在一般领域要把正确率推到95%还有很长的路要走,但是在一些更专业的领域,通过调整算法和机器学习,把识别率提高到95%也不是不可能。
市场总监向丹表示,虽然OKVoice是一家成立仅一年的新公司,在体量和知名度上还比不上行业内的领先公司,但他们的核心技术团队之前已经有了五年的技术积累,在技术上可以达到行业顶尖水平,并取得了成果。与其他公司相比,OKVoice的优势在于可以针对客户的个性化需求提供定制服务。“不是90%的识别率,而是95%的定制和优化。”
目前基于语音技术开发的产品有语音助手、口语测评、语音输入等。但在字幕制作上还是一片空白。看到这一点,OKVoice推出了专门针对字幕制作的产品“字幕大师”。现阶段已经开启了自动对齐时间轴的功能。在分别导入视听文件和文本信息后,系统可以在非常快的时间内对齐时间轴。在为芥末堆演示的演示版中,“字幕大师”已经能够达到很高的识别率。未来OKVoice还将推出识别影音文件中的声音后直接输出字幕的功能,无需手动输入文字信息。这款产品的终极目标是能够处理国外片源,直接输出翻译后的字幕。
在OKVoice团队看来,对“字幕大师”这个产品需求最大的是在线教育领域。事实确实如此。目前,一对一互动、学习教育、德胜课程制作等在线教育和课程制作公司已经与OKVoice达成合作,使用“字幕大师”辅助课程视频的字幕制作。随着语音技术的发展和普及,未来,“字幕”这种既费钱又费时的苦差事将不再是负担。