一.文字输入
文字输入是语音识别最基本的应用,一般通过语音输入法进行。 在这方面做得很好的有IBM、微软、科大讯飞等,很多输入法都使用讯飞的语音识别引擎。 如果发音基准是95%的识别率的话,对于大量文字的输入是很有效的,即使是OCR难度高的材料也可以通过人工语音输入解决。
二.语音转换
将语音转换为文字后,看起来和语音输入一样,但在QQ和微信上,也可以直接将聊天发送的语音转换为文字。 但是,以前尝试将MP3的朗读文件转换为文本,还是很费工夫的。 现在这个问题很简单。 在语音识别引擎的支持下,许多软件可以实现语音文件的转换。 例如,利用Sogou输入软件的MP3旋转文字功能,可以将单田芳的评论MP3识别转换为文本文件。
三.会场速记
会议速记是对输入速度的一大考验。 由于正常的说话速度每分钟在200字以上,一般人的文字输入速度很难达到。 但是,如果会议发言的语音是标准的,环境噪声很小,机器能够识别并记录发言,自动转换为文字。 例如,在一些法庭的审判现场,有时通过语音识别分担书记官处的工作。
四.录音整理
多数情况下,记者在采访或采访时可以录音,回去后重听,避免遗漏或错误。 在整理这些录音时,可以使用语音识别的方法快速获取文字版的采访过程记录,提高工作效率。
五.语音检索
图书馆在找资料的时候,经常和检索打交道。 由于检索方式从最初的卡片检索变成了后来的电子检索,借用变得非常容易。 但支持语音搜索后,提高搜索效率将进一步提高。
六.字幕转换
在手机视频剪辑软件中,通过语音切换字幕的功能很受欢迎。 只要发音不好,视频的声音就可以很容易地转换成字幕。 也可以与快速查看、剪切等画面保持同步。 这个功能不仅实用,还可以大幅节约制作时间。 但计算机上的传统视频编辑软件很少具备这种智能操作功能。
七.聊天机器人
在机器人能够与人聊天的前提下,当然需要能够“听到”人在说什么的语音识别功能,另外,也需要“明白”人在说什么的意思识别功能。 微软的小冰、IBM的沃森助手等都有很高的智力水平。 当然,除了语音识别,重要的是基于人工智能、自然语言处理和大数据,实现人像聊天。
八.智能音箱
音箱本质上也是聊天机器人,但独立于计算机和手机软件,不再依赖计算机和手机,适应性强。 常见的天猫精灵、小爱、百度小度等,都是具有一定智能和应用特色的产品。
九.智能声控
用语音发出命令,让机器和设备执行,已经不是科幻场景,而是在智能家居、车载设备中得到充分的应用。 其前提也是首先活用语音识别。
十.人机交互
如果说简单的语音控件是单向应答,那么人机语音交互就是双向交流。 最常见的车辆导航是接受驾驶员的语音指令,根据目的地启用地图和导航,可以根据车辆定位的反馈向驾驶员发出指示。
以上只是语音识别诸多应用场景的一部分,我们认为随着语音识别技术的进步,将会出现更多的应用方向。
[全文刊登于《中国信息技术教育》杂志2021年第23号( 12月下刊),文章标题为《语音识别技术的奇妙应用语音识别的应用领域》,作者:金琦]