机心原创
机心编辑部
“xx先生,请在今天的会议上做会议记录。 ” ”
听了这句话,瞬间精神起来了吗?
对任何兼职人员来说,做会议记录几乎都是“加班”般的存在。 这意味着你必须集中精力在整个会议上,但即便如此,也很难全部记录下来。 你可能需要下班后听录音补充一下。 毕竟,这个会议可追溯性的高低几乎都取决于你的记录质量。
都快2022了,为什么我们还因为这么简单的事情耽误时间呢? 让AI帮忙记录不好吗?
答案当然是“香”。 特别是在将AI嵌入常用的办公平台之后。
想象一下在线会议结束后马上接收卡片形式的信息。
打开这张卡片,整个会议都被录下来了,视频旁边有完整的文字记录,这让我很惊讶。 视频将被播放到哪里,哪里的文字将被高亮显示。 点击任意文字,视频和音频也会跳转到对应的位置,音、画、字三者同步,不用自己拖到进度条,不是很方便吗?
这就是今年“2021未来组织大会”上正式发布的新功能——钉闪记,是钉会议合作新产品“钉闪会”的一部分。
钉钉闪光灯有很多非常实用的小功能,比如自动翻译、自动生成会议关键词、文字搜索、发言者筛选、上传视频并改变文字添加字幕等。
我想很多人都在钉钉聊天框里体验过自动翻译对话。 这个功能的第一感觉是快翻啊。 在输入框中输入后会立即显示翻译结果,还可以设置“接收消息并实时翻译”。 连翻译键都不需要自己点,难怪很多人会把它放在钉钉的“真香”系列里。 有了以往的成功经验,钉钉此次在会议场景中增加了自动翻译,支持11种外语,外语听力一般,但不知道能拯救多少经常和国际客户开会的同学。
自动生成会议关键字、文字检索、发言者的筛选,对节约时间非常有用,特别是在会议时间长的情况下。 毕竟工作很忙,谁也没有时间把议事录全部看完。 钉钉总裁叶军还表示,闪记下一步还将尝试智能提取段落大意、自动提取会议行动点等功能,以节约时间。
将上传的视频转换成文字并加上字幕是一个有点意外的小功能。 不仅是会议,平时也可以制作公司内部培训的视频和产品的demo。 你也可以用它来成为up主。 这是真正合适的新生产力工具。
值得一提的是,钉钉副总经理、合作平台业务负责人傅徐军在发布会上表示,从立项到开发,再到上线,钉钉闪存记录只用了两个月左右。 之后,他宣布将扩展到在线场景。
为什么一个产品的上线能这么快? 傅莹说,“闪记是钉钉和阿里巴巴达摩院合作开发的新产品,我们看到的多语言和语音翻译能力来自达摩院强大的技术支持。 ” ”
以用于闪存的语音识别为例。 正如我刚才说的,钉钉的语音转写结果可以“马上”出来。 这不同于必须等待的语音转写产品。 后者多使用离线系统,虽然在精度方面有利,但缺点也很明显,延迟高。 因此,近年来,低延迟的在线系统备受瞩目,但精度不及离线系统。 为了综合两者的优势,在降低延迟的同时,以提高准确率,阿里达医院和钉扎技术团队采用了新一代的流传输和离线端对端模型方案( UNIVERSAL ASR ),实现闪存记录
通用ASR体系结构概述。 图片来源: https://arxiv.org/pdf/2010.14099.pdf
另外,闪存笔记本首次上线了新一代端到端热字定制技术,在端到端模型中增加了对附加文本建模的Contextual LSTM模块。 由此,模型具有修改和扩展特定文本的能力。 与传统的热字技术相比,该技术的热字丢失率降低了60%,定制场景的热字识别效果显著提高,可设置的热字数达到数千个。
例如在声纹识别中,技术人员针对会议场景的多角色分离任务,提出了几种核心算法创新技术。
首先,将仅基于频域信息的传统声纹模型扩展为频域和时空信息的三维说话人识别模型。 通过对空间信号信息声纹神经网络的有效建模,大大提高了系统在多人会议中的性能,特别是提高了说话人开始时间的跟踪、定位等能力。
图片来源: https://arxiv.org/pdf/2107.09321.pdf
其次,对于长期困扰说话人识别研究者的与短时文本无关的任务,研究者也进行了显著的优化。 他们提出了基于contrastive loss的双胞胎网络结构phonetically-awarecouplednetwork ( pacnet ),通过有效地同时对声学信息和内容信息进行建模,使得短音频文本内容
第三,针对多人同时说话、计算机语音背景噪声等强噪声环境下的说话人识别技术,技术人员提出了一种新的算法——CAM (声纹识别上下文矩阵)。 该算法受摄像机聚焦技术的启发,可以在噪声较大的环境中“模糊”消除背景噪声,增强待识别目标说话人的语音,在强噪声环境下大大提高了识别精度。
最后,是区分角色的关键技术模块,技术人员实现了基于全局信息的算法构想,有效结合了传统聚类算法和端到端诊断,解决了会议中的发言人数、发言人变更、重复
在企业人工智能服务方向上,钉钉其实是一个特殊的模板。
首先,钉钉内并不执着于特别娴熟的尖端AI技术,几乎很难找到AI领域的最新突破,反而是行业比较成熟的技术。
但是,为什么要从AI的角度看钉子呢? 由于AI翻译、语音速记、实时字幕、会话机器人、多模态等多种AI技术落地,在很多方面涉及语音AI、视觉AI、决策智能、智能计算。
这与钉钉的定位有关,是用户每天使用的终端,不允许有不稳定的因素,但存在AI发展不足的落地场景。
可以说,钉钉真正擅长的是在这些成熟的技术上找到应用方向,进行AI技术的产品化,将AI转化为普通人触手可及的生产力工具。
例如,在教学场景中,钉钉推出了“教师版钉钉”,具有数学智能评分、语文朗读练习、英语口语评测等功能,通过简单的AI大大节省了教师节的时间。
资料来源: https://edu.Sina.com.cn/l/2021-01-14/doc-ikftssan 6101246.shtml
例如,在工厂中,钉钉内的群聊机器人与制造业生产系统集成,将生产现场出现的问题及时推送到群聊或人的聊天中。 如果故障工单没有在一定时间内解决,钉钉机器人会将信息发送给更多高一楼的负责人。 这样层层推脱,把责任交给别人,大大提高工厂的生产效率和解决问题的速度,让员工一筹莫展。
通过钉钉子这个界面,我们发现AI在提高人类生产力方面也包含着巨大的潜力,即使是现阶段的AI (弱人工智能)。 只要寻找正确的方向。
为什么钉钉重视用AI提高生产力? 钉钉总裁叶军认为,钉钉这样的新生产力工具是企业数字化转型的有力支撑,企业走向“两个数字化”——组织数字化和业务数字化,通过两个数字化的相互融合和促进,组织内人才事业、生产供销研、组织
其中,组织数字化首先要关注员工的数字化能力,让每个员工都拥有一种新的生产力工具,这也是钉闪会等协同产品的最终使命。
阿里达莫院提供的AI技术能力为这一愿景提供了有力保障。
除了开放自身能力外,钉钉也将科技能力作为阿里巴巴开放窗口的重中之重。 通过钉钉用户界面,用户可以根据需要调用AlibabaCloud (阿里巴巴云)、达摩院各种技术组件、云产品和资源,其中包括各种AI能力。
在AI反复出现的能力支撑下,可以预见会有越来越多的场景出现,AI进入各行各业,进入田间地头,成为真正新的生产力工具,而不是空中楼阁。 这是一件幸事。