文本转语音技术(如何实现文字转语音)

至于语音转文字,想到的人大多会出现在聊天软件中。除此之外,语音转文本还有很多应用场景。对此,本文将以国内市场为支点,以全球市场为目标,探索语音转录产品的多种可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。

不同于以往从国内市场角度的分析,本文将以国内市场为支点,以全球市场为目标,探索语音转录产品的多种可能性。

本文提到的语音转写,重点是面向C端用户的具有语音转文字功能的产品,不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景中的泛语音转写。

一、名词解释语音转写:使用将音视频信息转换为文本信息的服务。

实时转录,即流式上传-同步采集,可实时识别无限时长的音频流为字符,返回带有时间戳的字符流;一般用于直播、实时字幕、实时会议记录;还可以配合机器翻译实现非实时转录的同传功能,即录制的音频文件异步上传-获取,非实时语音转录将长音频数据转换为文本数据,可用于影视字幕制作、会议采访记录转录、智能客服录音、质检等场景。ASR(自动语音识别)是指将人的语音转换成文本的技术。

NLP: Natural Language Processing,NLP)是利用计算机对自然语言文本进行理解和处理,并提取文本语义的过程。

二、如何介绍清楚音标作者的安排如下:

音标的基本定义和概念通俗易懂,帮助读者和作者同频;注音的前背景是其发展的前提;注音的市场规模决定了它是否值得研究;语音转录的产业链,可以帮助我们从合作的角度看自己关注的位置;语音转录的竞争格局,这里是重点。我们可以从竞争的角度直观感受到行业玩家对语音转录的用户-场景-需求和商业模式。此外,作者不仅将纵向比较国内不同的语音转录产品,还将横向比较国内外语音转录产品的差异。最后,希望通过详细拆解PLG明星产品Notta这个行业经典案例来带来启发。注音的发展趋势,这里主要是通过展示相关的创业公司来说明其可能的发展路径;音标综合评价总结了作者对音标行业的认知。

3.音标发展的前提条件。这件事的成功主要取决于三点,因为注音包括三个步骤:

进入更多,说明场景更多,市场需求更多;转码更快,说明成本更低,使用没有障碍;输出更准确,说明结果需要更少的修改和处理,结果更令人满意。这三点有什么变化:

1.输入:无纸化程度极高提高,大部分数据以数字形式存储。从理论上讲,010到31013人与人之间的信息传递需要数字化,主要是以非结构化数据的形式:

比如会议发言的内容是很多人之间的相互信息传递,需要沉淀成会议纪要;比如老师讲课的内容是一个人对很多人的信息传递,需要沉淀成学习笔记;比如面试对话的内容是一个人和另一个人之间的信息传递,需要沉淀成一个记录的文档;这些沉淀下来的信息一定不能写成载体,而要以文字的形式存储起来:

手写手稿的保管成本太高。你总是会丢更多的纸,对吗?时间纸越长越碎。要记的东西太多了,所以要准备各种大小的纸以备不时之需。传输

这是电子信息技术带来的结构性变化。

2.转码:ASR的性能提升,将转录的实时响应带到简单的无纸化。它只能诞生速记员和打字员,相比之下能快速输出文字信息的人。这个工作又脏又累又贵,重复性和可替代性很强。简直就是人工智能的最佳目标。

输入本身就很麻烦。1小时的音频,人写需要2小时,语音转录只需要5分钟。

3.输出:其他语音技术的提高带来了结果的可靠性。为什么还要说别的?因为这些主要是基于语音转文字技术进行优化的结果。

语音分离是一种区分不同人声音的技术,可以通过声音识别某人的身份。一旦检测到一个人的语音,系统会为说话人创建一个声纹档案,从而区分同一个人的所有其他声音;多语言识别,区分混合语言环境,识别多人对话;降噪,过滤嘈杂的说话环境,区分哪个是关键人物说话,哪个是环境声音;语言降噪,毕竟人说话不像写字那么认真,期间有大量的口语词,语气词,甚至重叠。需要对文本进行精简和提炼,以增强可读性,这属于NLP范畴。……

四。配音行业发展的过程并不是一帆风顺的,配音行业经历了四个发展阶段。

第一阶段,从1990年到2010年,主要是人工服务,即人工实现记录和写入服务。这期间的产品形式是以专业人工服务或外包的方式服务客户。

第二阶段,2010-2015年,转录进入互联网。在这个阶段,引入了机器服务来帮助转录。这项服务的产品形态主要是通过网页和客户端小工具来实现的。

第三阶段从2015年到2023年,转录将成为移动的。在这个阶段,将引入人工智能和ASR技术,以实现更高的语音识别和语义理解精度。这种产品形态更加多样化,会借助APP、网页、智能硬件等方式进行开发。

第四个阶段是2023年到现在,也是现在这个阶段。转录已经进入人机耦合阶段,这是人工智能和人工服务融合的时刻。产品形态还是APP、网页、硬件等形式。但机器和人工进一步融合。

这是从技术角度去理解行业的发展。其实它的应用形式远不止这些。

动词(verb的缩写)产业规模语音转录产业的盘子有多大?

先看一组行业数据。根据艾瑞咨询报告咨询,2023年中国智能语音写作市场规模约为10亿元,预计2026年市场规模将达到38亿元。如果你想估算全球市场,把这个数据乘以5就可以得到大概的结果。

从产品形态来看,智能转录产品主要包括Saas产品和本地化部署解决方案。

这个市场的特点是基数不大,10亿量级,但增速可观,增量会很多,因为过去是大语种、大企业的需求,未来会蔓延到更多小语种、方言、小企业、传统企业,甚至国企。(国有企业是此类Saas服务的主要客户)

下图是2023年中国智能语音产品成熟度曲线。可以看出,语音转录技术已经逐渐进入成熟稳定期。

总之,ASR是语音转写的核心,从技术发展曲线来看是语音技术最成熟的技术。

ASR的精度每年都在提高。

不及物动词市场特点1。供给需求,以需求驱动语音到文字,本质上是提供一种软件服务,解决信息沉淀的效率问题。

当转录仍然是一项人工服务时,该行业由供应驱动,因为转录员有限且昂贵。当机器取代了人工抄写,已经成为一个成熟的行业,行业变成了需求驱动。因为它是需求驱动的,它的来源

看得见的趋势是,线上会议的比例会越来越高。即使进入后疫情时代,企业也逐渐适应线上会议。随着未来跨区域团队协作场景的增加,会有更多的团队善用线上会议。

网络课越来越多。网络课不仅指初高中的网络课,还包括职业教育的网络课。现在成年人都在上各种技能课程,比如公务员课程,还有考研课程。

2.进入门槛不高,同质化明显。ASR技术已经非常成熟,各个厂商都可以不同程度的提供稳定的API和SDK供市场使用。所以行业准入门槛不高,很多玩家都可以加入进来,提供类似的服务。

在国内市场,你去百度搜索语音转文字,会有几十个提供类似服务的网站。

国外市场更是浩如烟海。在谷歌搜索音频转文本,会出现十几个同质化的网站。

有些区别只是在一些细节上,比如区分说话人,专门的词库,不同的价格策略。

可以说,单纯的语音转文字功能,按字数或转写时长付费,实在玩不出新花样。

3.市场是多元的,赢家很难通吃。受前两点影响,这个市场是需求驱动的,总会有新的进入者。

如果用户没有翻译文本的需求,就不会使用。毕竟他每次用都是要钱的。

这种模式在中国市场面临一个问题。国内用户不喜欢这种“按次付费”的方式,所以会想尽办法找一些免费试用的替代品。

所以,一个赢家很难垄断整个市场。简而言之,这是一个开放竞争的市场,各种新兴企业都在试图围绕语音到文本的转换提供更多的附加值。

下图是国内提供直接语音转文字工具的长尾厂商部分名单(不完全统计,不包括输入法、微信、剪贴等具备语音转文字功能的产品。):

如果你觉得过分,不妨再看看美国市场。这还是不完全统计:

相信读者能直观感受到这个行业的“体量”。

七。商业模式语音转录的商业模式比较清晰。有三种:卖软件服务,卖硬件,卖定制。

1.软件服务在线API——厂商提供的接口数据在服务器端进行,特点是灵活性强,效率高,按使用次数或时长收费。离线SDK——厂商提供核心算法模块,数据在客户端处理,开放兼容软件开发。私有云——厂商为私有云平台提供定制服务,可以满足客户的定制需求,安全性强。

2.硬件厂商提供语音采集等终端硬件,可以有效采集语音数据,实现语音采集、播放、编辑、存储一体化。

3.综合解决方案厂商为场景和行业提供定制化解决方案,开发智能媒体解决方案,满足不同行业的个性化需求。

八、产业链从技术源头到消费末端,产业链上下游。

1.上游主要是一些大的科技公司,是整个AI行业最底层的服务商。阿里云、腾讯云、百度开放平台、讯飞开放平台都是不错的基础平台。

语音识别和自然语言处理是智能语音转录的关键技术。为了解决浪费项目之间缺乏共享等问题,基于AI平台的开放式NLP方案应运而生。

2.中游主要是AI技术的提供商,根据各自的业务特点分为四类:

(1)热门智能语音厂商

比如专门提供智能语音服务的讯飞,听到听凌云的语言。

(2)独特的人工智能公司

智胜,碧池,上塘,易图。

(3)互联网巨头

阿里云,百度云,腾讯云,华为云。

(4)边际制造商

搜狗(最初计算,但现在没有收购),雨燕,金舟,等等。

3.下游这才是真正被消费者使用的场景。

(1)多人讨论

为了e

在产品形态上,讯飞听说过这类直接提供转录服务的产品,也有输入法、微信、舒菲大事记等嵌入语音转录的产品。

九。竞争格局1。国内竞争这里只分析转录本产品面向C端市场的竞争格局。

典型的语音转录代表产品:讯飞听到了。

讯飞听觉是科大讯飞的产品和服务,专注于语音转录。得益于讯飞在语音领域的深耕,讯飞Hear凭借高精度的转录能力占据中高端市场。如果你点开它的网站,可以看到机器快速转录和人工精确转录两种服务的配合,符合转录高标准的严肃商务场景。

我之前说过,优秀的语音转录能力的定义就是要快速准确。一个小时的音频不用说,最快五分钟就能制作出来,绝对比人类速记员高50倍。这方面机器水平达到了97.5%,支持多种语言和方言,加上很多专业词汇。

唯一不太亲民的就是:贵。

两个半小时转录费50元,如果不是特别需要,或者急用,一般不容易买到。

竞品很多,这些产品的商业模式都比较清晰,主要是满足用户转向文字的需求。

用户为文本转换的效果付费,所以他们看重的是文本转换的准确性,这在某些方面当然是无法兼顾的,比如“数据孤岛”的问题。文本转换后,用户需要将其导出为其他格式。至于如何使用这些文本转换数据结果,那就要看用户的实际使用情况了,并不需要任何用户来保管。

这种模式在中国市场并不受欢迎。国内用户并不都接受这种“按次付费”的方式,所以会尽量找一些免费试用的替代品或者会员制的付费软件。

所以这类产品的优质用户多为有稳定需求和支付能力的创作者和企业用户。

听说讯飞作为行业内的头部厂商,肯定不想做“用完就走”的产品。前面说过,需要转录服务的场景有会议、讲座、上课、采访、字幕创作等等。

会议频率高,用户量大,付费能力强,一定是企业用户的会议场景。因此,讯飞听说选择切入“在线会议”市场,希望通过会议转写,打造——次会议预约、——次会议纪要转写的全链路场景,让转写结果不再是数据孤岛,而是以会议纪要的形式成为企业办公的基础设施。

说完了以文转文为核心的广义产品,下面是第二款以在线会议为核心,附带语音转文的产品。

代表:腾讯会、飞书、钉钉闪。

钉钉提供会议实时转录和音视频转录功能,帮助员工沉淀工作信息,快速定位关键信息,有助于决策和制定计划。对于转录结果,不仅做非常细致的分割,还支持编辑和高亮的功能。

除了基本的转录和编辑功能,飞妙计还提供了关键词提取功能,帮助员工快速捕捉和定位相关术语,以调查整个内容。

协同产品有天然的优势,因为企业协同办公是一个稳定的流量入口。文字转换会议只是一个附加值,重点是文字转换会议后的团队协作,会议纪要转换成团队的具体决策和知识,在团队内部共享。

另一方面,讯飞听说从语音转录拓展到线上会议。是因为它觊觎在线会议的市场份额吗?

2.海外竞争不,我们把目光投向海外。

国外的转录市场比中国发展的早,最成熟的当然是美国。如果说科大讯飞的海外同行是Nuance,讯飞听说海外同行是Otter,而不是siri和Alexa。

这是一款基于人工智能和深度学习的语音识别产品。总部位于加利福尼亚州洛斯阿尔托斯,也是一家人工智能驱动的协作笔记和生产力增强应用程序提供商。

2023年,Otter.ai获得日本移动运营商NTT Docomo 1000万美元融资,并宣布加强与Zoom的合作关系,推出Zoom会议实时字幕,疫情期间实现指数级增长(营收同比增长10倍)。

Otter.ai提供了一个人工智能驱动的协作笔记和生产力增强应用程序,可用于Zoom和Google Meet等视频会议平台,以及电话和其他语音通信。

Otter Voice会议笔记应用程序使用专有的人工智能实时生成安全、可共享和可搜索的丰富笔记。这些笔记结合了音频、转录、发言者身份、嵌入的照片和关键短语。该应用程序在230多个国家使用,记录了超过1亿次会议,覆盖30亿分钟。

奥特的做法反映了国内外市场的巨大差异。

Google Meet,ZOOM和微软Teams,国外三大在线办公巨头。

大部分新的会议产品都围绕这三家公司来提供额外的服务作为基础设施。

水獭也不例外。

最后一款产品Notta的推出,拓宽了语音转录市场的思路,原因有二:

凭借差异化的经验,成功在海外激烈的配音红海市场获得一席之地。在海外市场找到了高价值市场,盈利能力相当可观。语音转写作为一项成熟的技术,门槛并不高。行业头部厂商和普通厂商的转录精度相差百分之几,对于很多用户来说已经足够了,所以他们之间的替代性比较强。

一个普通的配音新手,想要获得一些份额,有几种方法:

SEO,让一些小白用户第一次接触这个产品。这些用户习惯了,大概率不会离开;低价策略,在具备基本的语音转文字能力后,依靠免费获得一部分低价值用户,因为这些用户是头部厂商的付费漏斗留下的,这些用户几乎没有付费意愿。利用你是免费的,但你不可能永远免费。当你恢复收费的时候,也是白嫖用户离开你的时刻;提供转录之外的附加价值,可以打破“数据孤岛”,用户为附加价值付费。诺塔选择了第三个。

X.这里的典型案例是中国企业走向日本市场的语音转文本产品Notta。

这款产品依然以语音转文本为主,但在文本转换后提供了更多的附加值,为用户的工作学习场景打造了完整的闭环体验:

多场景输入——多语言转文字3354编辑校对——笔记输出3354分类管理3354导出

1.多场景输入用户输入音频文件的方式有多种场景:

直接获取音频文件3354音频导入并记录当前环境下的声音——环境实时转录并记录当前屏幕上的声音——Chrome浏览器插件并在会议期间记录在线会议3354 Notta Bot会议实时转录音频导入和实时记录是通用功能。这里重点介绍了Chrome插件和Nottabot。

(1)Notta插件

对外挂的需求主要来源于网站在线视频中大量有用的素材。如果你想把网络视频转换成文本,你需要用户找到提取音频和视频的方法。要么是用户用手机在电脑前录制然后导入转录,要么是懂点技术的用户可以提取网站的音视频源文件。这无疑是010到31040用户的门槛和成本。

Chrome插件可以很好的解决这个问题。插件本身是高度定制的。用户可以在播放在线音视频时打开插件进行录制,播放后即可获得完整的转录文件,消除了导入门槛,大大提高了效率。

(2)Notta Bot

Notta Bot是一个会议录音功能。用户可以使用Notta Bot参加一些webinars中的常规会议和不需要发言的公开会议,并在业余时间复习音频和文本。Notta Bot可以记录公司的定期会议和客户会议,并将其推送到concept进行保留。目前Notta Bot已经支持Zoom/Google Meet/微软团队,还可以同步自己的日历,实现自动考勤。

2.多语言文本到文本Notta面向海外市场,因此需要满足大量不同地区的语言要求。所以语言支持也是Notta的优势。Notta整合了Google、AMI、微软、Spirits等引擎服务商,支持中文(简体、繁体、粤语)、英语、日语等数十种语言。还包含各种口音,如印度英语、澳大利亚英语等。根据不同的语言,系统会有所不同。

3.编辑和校对。首先,与整段显示讯飞听到的转录结果偏向于阅读不同,Notta将转录的文本切割成非常精细的片段,直接在每一段/每一句后附上原声切片。如果用户需要编辑和校对文本。

例如,如果相关术语的同义词可能会引起歧义,那么如果进行精细切割,则相对容易进行第二次检查,这使得用户在Notta上完成编辑,而不是转录后立即导出。

4.笔记输出对于转录结果,用户可以添加图片将文本笔记变成富文本笔记。再者,通过标注笔记、添加注释,帮助用户从原文中提取关键信息,形成决策和计划(默认标签为Key Poiont、To-do、Project),非常适合实际的工作和学习场景。

5.分类管理不同于“跑路”的语音转录工具。Notta努力让用户留在产品里。如果用户对转录文件有长期需求,那么文件的分类管理是个大问题。毕竟如果他们每次都要导出到本地,遇到多设备办公或者协作的时候就不方便了。因此,Notta承担了笔记内容的存储空间,支持转录文档的构建和归档,从语音转录工具转变为文档办公平台。

6.Notta在导出、转写、编辑后导出文本时也有很好的兼容性。

Notta不仅支持实时录制和转录,还支持主流音频和视频格式的导入和转录。从网上下载的音视频文件可以直接导入Notta获得转录文本,无需格式转换,可以导出各种格式的文本文件,如PDF、DOCX、SRT等格式。

诺塔的创始人也是原摩拜单车的联合创始人,几个合伙人也有不错的创业经历,所以在红海市场的注音中也很值得品鉴。

诺塔一开始就确定了“PLG订阅付费”的盈利模式,因为经验证这种模式最适合海外SaaS产品的自我成长。Notta前期也在中国市场上架了,但是发现中国市场的订阅付费很糟糕。简单地说,它主要是在白嫖,所以它因各种原因被暂时推迟。(诺塔作为创业公司,避免重复做轮子,整合了Google、AMI、微软、Spirits等众多引擎服务商。这是白嫖站不住脚的)

诺塔的海外投放自然是针对发达国家的,因为发达国家确实有很高的付费意愿,这支撑了很多SaaS公司。在比较多个地区的投放效果时,发现日本的投入产出效果最好。

诺塔经历了从单一工具,到口碑传播和商业化,再到服务企业客户的全过程。有三个主要阶段:

(1)第一阶段

Notta最早是作为一款移动工具APP,先是在APP Store上,然后在Google Play上。2023年7月,整个移动端的下载量突然一天增加了2万,冲到了日本效率榜的Top3。

当时团队以为被黑了,导致大量下载。大概过了两三天才发现诺塔被日本电视台的一个早间新闻节目报道了。一个年轻的日本动画配音演员分享了几个日本人生活中需要的效率app,于是在日本小火了一把。之后Notta在苹果市场表现非常好,用户搜索一些关键词就能看到这款应用。诺塔发现,日本市场在用户增长率、营收和付费意愿方面都相当不错。

直到2023年5月才上了企业版。随着功能逐渐丰满,企业级客户开始付费。诺塔发现,在只有App的时候,传统媒体的PR效果非常好。诺塔现阶段也尝试过国内的安卓市场,后来发现付费还是不行。

在推出网页版SaaS产品后,用户开始在社交媒体上自发讨论Notta,评价Notta给他们的生活带来了便利。甚至有用户表示“诺塔应该获得诺贝尔和平奖”。产品的口碑建立起来了,也符合公司的预期。——必须品牌化,让用户可以一直搜索到好的评价和内容,通过“洗脑”式的好评来影响用户的最终决定。

(2)第二阶段

本地化。这个时候团队发现60%的流量来自于搜索引擎,所以营销力度主要集中在SEO(搜索引擎优化)上。

本地内容同学和兼职写手,一周基本能产出20篇以上与产品、场景或效率相关的文章。通过这些文章,关键词在搜索引擎中不断优化,本质是内容营销。当SEO的月环比或周环比增速放缓时,考虑匹配购买量。

(3)第三阶段

PLG的模式,自下而上的效果,最终帮助产品进入企业级客户。当时基于用户需求,做了跨平台自动参与功能,也给产品带来了一波爆炸。典型的企业客户是日本的八千代工程(工业和汽车零部件供应商)。

这个大单的由来是一个员工先买了一个账户。先是公司有个营销顾问,在使用过程中觉得很有用,然后团队里有几个人开始用。之后他们觉得每买一个会员都要找公司报销很麻烦,就推给了我们公司数字业务推广部的领导。经过几次远程会议,该公司帮助1000多名员工购买了一年的Notta 500账户,这是Notta的第一个大客户。

从后见之明的角度来看,日本市场的出色表现有三个原因:

(1)日本市场老龄化趋势下,劳动力是极其稀缺的资源。

在日本,有这样一个故事。有150个工作,但只有100人申请。因此,日本企业对人的效率的关注度持续上升。日本经济产业省(相当于国家人力资源部)提出了一项建议,以使日本公司能够以数字化的方式拥抱未来。希望AI带来的自动化工作模式来来去去提高人,正好Notta符合这个场景,所以整体导入比较顺利。

(2)日本严肃的职场文化

日本员工只要开会,一般都会写一份特别详细的会议纪要,或者有专门的岗位来做这种事情。Notta这个产品正好符合日本本土文化,所以进口过程会比较顺利。

(3)相对于中文和英文,日语说到底是个小市场,竞争并不激烈。

早期的独角兽公司或者美国的一些SaaS公司早期并不重视日本市场,这也给了诺达一个很好的进入机会。像Otter这样的AI公司在北美发展很快,目前营收几千万美元。但是Otter从来不是日本的引擎,这就给了Notta一个窗口,让团队在日本快速铺开市场覆盖。到目前为止,Notta在移动端的效率榜已经进入前10,每个月在Notta网页上看到近100万UV。

因为是发达市场,提供如此丰富的功能,诺塔的客单价和竞争对手相比绝对是第一梯队。

Notta实行的是订阅制。对于免费用户,Notta每月会赠送120分钟的转录时间。付费用户不仅可以无限时长,还可以使用各种附加功能,如更多导入格式、文字校对、隐藏时间戳等。

平均下来,年费比月租费便宜(下图为年费换算),月租费100人民币左右,相当于在讯飞的听证会上传输6个小时的文件,所以看起来整体性价比较高。

目前Notta在日本似乎是软件领域的传统市场,也在走语音转写的轨道,并不特别。在不到三年的时间里,诺塔已经实现了30万美元的月收入,在ARR的帮助下已经达到了360万美元。

由于出海的产品会面临强大的本地运营问题,Notta团队选择以PLG模式为最发达的美国市场重新开发会议效率产品Airgram,并拿下产品猎聘头条,顺势拿下千万美元A轮融资。

从诺塔团队的思路可以看出,语音转录产品想要在超级红海市场脱颖而出,遵循几个逻辑:

小工具尽快找到核心价值用户,或者国外常说的ICP(理想客户档案),让客户推动产品前进。诺塔从一开始就非常重视利润闭环,而不是提供同质的免费低价服务,因为那样只会吸引低价值的白嫖党;不要重复造轮子,关注自己的核心业务,利用好三方的工具和能力,快速通过产品,尽快投入市场验证;我们非常重视内容营销。为了在海外真正永久的获取优质用户,我们需要给我们的产品讲一个感人的故事。由此可见,普通公司与海外一流SaaS公司的差距是明显的。

XI。语音转录的发展趋势既然谈发展趋势,就不局限于C端应用市场,而是放眼全球各个领域。

1.从大语种到小语种,中国和美国的互联网发展最快,其次是东南亚和印度。这些地区经济发展紧跟中国,互联网普及率越来越高,基础设施越来越完善,必然会产生很多新的需求。这些市场都是新的需求,但其实在中国和美国已经被验证了很多次。所以要实施“复制给他们”的策略,在语音转写方面,东南亚和印度这些地区是很不错的。印度虽然是一个完全的主权国家,但实际的社会团结远不如中国。

印度语言的特点是语言种类繁多,每种语言的人口很不均衡。其中,以印地语为母语的人最多,而英语最受欢迎。

印度有个称号叫“语言博物馆”,可见其语言条件的多样性。一般来说,北印度人主要讲印欧语系印度雅利安语支的各种语言,如印地语、乌尔都语;南方的印第安人说达尔文语系下的多种语言,如泰米尔语和泰卢固语。南北之间、东西之间有明显的差异。

准确地说,根据2001年的人口普查结果,印度有1635种语言被用作母语,人口超过100万的国家单独使用29种语言。在众多本土语言中,以印地语为母语的人约占印度总人口的40%。这些人集中在北印度,而母语为其他语言的人只占不到10%。然而在南印度,英语和南印度的母语更受欢迎。印地语的基本板块显然是恒河流域的中上游。

因此,在互联网高速发展的印度,被称为印度硅谷的加尔各答催生了各种与智能语音相关的初创企业,以及其他外国公司针对印度市场的语音本地化产品。

东南亚由11个国家组成,人口约6亿。除了新加坡这样的发达国家,大部分都是发展中国家。它们不仅民族语言种类繁多,而且有国界之分,市场经济把它们深深地捆绑在一起,所以它们也是新兴的语言市场。

(1)法诺实验室

中国初创公司Fano Labs成立于2015年,专注于语音识别(ASR)和自然语言处理(NLP)等前沿人工智能技术的研究、开发和应用。目前,该公司的语音识别解决方案支持普通话、英语、泰语、印尼语等多种语言,以及四川话、粤语等多种方言。其主要业务是为金融合规和客户服务场景提供语音识别技术服务。

Fanlabs的核心能力是多语言环境识别,即混合语言情况下的语音识别。例如,在香港企业中,中文、粤语和英语混合使用是很常见的,而印度企业则面临着印地语和英语混合使用的问题。即使在新加坡,虽然大部分企业都讲英语,但在日常交流中也有部分华人和马来语混杂在一起。随着多语言混合的趋势越来越明显,传统的语言分析技术已经疲惫不堪。Fano Labs的语言分析技术可以自动检测录音中的不同语言,即使同一说话人在多种语言中切换,也能准确识别。(值得一提的是,香港有一个得天独厚的优势,就是这个国际大都市聚集了世界各地的人。我们可以很容易地在香港找到其他国家的母语人士,通过他们的反馈,我们可以更好地打磨我们的技术,并以香港为跳板,驶向其他国家。)

(2)沃卡尔

在过去的十年里,印度的互联网市场和相关业务专注于服务习惯使用英语的用户。但下一代互联网用户渴望非英语内容、无需打字的交流和购物。

事实上,大多数印度互联网用户习惯于用印地语浏览网页,预计这一数字将在两年内达到5亿。谷歌的统计数据还可以为印度下一代互联网用户的行为变化提供一些线索:

印度的语音搜索量同比增长了270%,而95%的视频内容消费都是当地语言。预计未来几年,印度互联网用户数量将超过6.5亿,新增用户将全部来自印度二三线城市和农村地区。

Vokal有超过50万个应用程序下载,人们可以用印地语提问和回答问题。现在Vokal已经推出了10多种新的语言选项。Radhakrishna说,“你必须进行各种尝试,不断改进你的商业模式。随着市场的不断发展,以英语为中心的受众并不能代表整个市场的用户。”

虽然互联网在发展,但是新网民的行为和以前不一样了。他们通过互联网下载和分享更多的内容,但他们无法用自己的语言提出公共问题并获得答案。与此同时,不仅仅是本地企业在争取这些新的互联网用户。中国的初创公司,尤其是那些提供本地语言选项和专注于视频内容的初创公司,正在被用户所选择。

笔者认为,归根结底,印度整个国家的识字率不高,一些低线城市的人口不擅长打字,更不擅长英语。所以用自己的语言进行语音搜索而不是打字搜索是非常符合当地实际情况的,也就是语音产品的本地化给了Vokal这样的公司很大的成长空间。

当然,这也会带来一个疑问。为什么谷歌这样的巨头这么早就进入印度市场,却没有深入这个领域?还是那句话,不是做不到,而是巨头看不上。培训小语种模特无论是资金还是时间都不便宜。更何况早期印度智能手机普及率不高,很多基础设施跟不上。所以制作这些小语种真的是投入大产出小。

2.从简单的语音转录到全链路,无论是美国的Notta、Airgram、Otter还是一系列具有语音转录功能的产品,都是围绕着企业的线上会议作为立足点展开的。之前有会议预约和创建,中间有会议机器人,然后是会议纪要的汇总和同步。目的是提高企业的人效,减少会议造成的不必要的人力资源浪费。每年,美国企业

这种想法不难理解。企业会议的目的是同步信息,结果是形成具体决策,最终指导团队行动。

把会议转换成文本的好处是会议的音视频是线性数据,用户只能根据时间行快进快退得到信息,但是文本转换后就变成了可查看的信息。用户可以快速捕捉文本中的关键信息,不需要操作时间行,更不用再听原话了。

文本转移后,提取关键信息,是团队的决策依据和知识库。这些不应该存储在决策者的大脑中或本地设备中,而是应该与整个团队共享,以便团队可以参与讨论和决策执行。

同样,对于学生来说,语音转文字可以很好地在课后对老师的讲课内容进行总结和提炼,并通过添加更多的内容来进一步丰富。单纯的抄写手稿价值很低,只有方便的编辑和摘录,才能让学生把产品当成学习的助手,而不是一次性的抄写工具。

3.从音标结果中提取线索。这既是对注音能力的要求,也是结合语义分析提取有效信息的要求,多用于销售管理、客户管理和商务交谈中。

比如销售与客户沟通时,沟通数据会自动同步,系统会对数据进行分析,让更多的销售受益于聊天数据,从而更好地指导销售行为。

比如公司的业务人员到外面去会谈后,会谈的内容会完全同步到团队,让整个团队包括负责人都可以接触到第一手的业务数据,根据业务人员提供的信息做出更科学的决策。

比如企业会议,最后的成果就是会议纪要,翻译文字只是第一步。更重要的是,会议的关键内容是从文本中提取出来的,否则,还需要与会者的二次加工。

至于医疗场景,因为医疗是一个严肃的话题,一旦技术转录错误,就会造成很大的灾难,所以还有很长的路要走。

十二。行业总结语音转录行业的衡量标准在上一篇文章中已经明确。它不仅快速准确,而且便于存储、检索和使用,最终目的是影响决策。

因此,行业上游玩家作为基础设施的建设者,努力提升算法性能,收集更多数据,帮助语音转文字等技术不断完善,突破临界值。

行业中游玩家试图嵌入更多的企业、组织、机构,帮助他们提升数字化水平,沉淀更多的信息知识。

下游玩家,离消费端最近,进入门槛低,参与者多。有很多竞争对手都在努力避免同质化。只有找到用户实际场景中的核心痛点,提高效率,创造更多的附加值,才能获得更高的利润。

需要配音的场景很多,流程也很不一样,这就让很多新人有了发挥的空间,比如:

为小语种市场提供专业的语音转录;针对某个市场的本地化产品设计和运营,仍然可以依靠高客单价建立商业闭环;通过语音转录将服务拓展到全链路,打通巨人的基础服务,打破数据孤岛;从语音转文字结果中提取更多关键信息和线索,帮助用户决策。语音转文字作为一个成熟的行业,仅靠技术比拼很难拉开差距,更重要的是比拼产品体验和运营策略。

本文由@WIPO原创发布。每个人都是产品经理。未经许可,禁止复制。

来自Unsplash的图像,基于CC0协议。

此观点仅代表作者本人,大家都是产品经理。平台只提供信息存储空间服务。

其他教程

阿联酋造山引雨是否可行(阿联酋造山引雨是否可行ppt)

2023-1-15 0:09:43

其他教程

声优所有人都可以学吗(日本声优怎么训练)

2023-1-15 0:11:48

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索