6月1日消息,今天,阿里云正式公布了人工智能加持下的会议记录AI助手通义听悟。
通义听悟的诞生,离不开阿里的通义千问大模型,但同时,阿里达摩院推出的自研语音识别基础模型Paraformer,以及说话人识别基础模型CAM++,也至关重要。
据悉,Paraformer是目前业界首个应用落地的非自回归端到端语音识别模型,在推理效率上,最高可较传统模型提升10倍之高,且准确度方面在多个权威数据集上位列榜首。
在通义听悟中,该模型的主要功劳,就是让AI能够“听清楚”会议中人们都说了什么。
根据此前达摩院Paraformer开发团队发布的论文提供的信息,该模型采用单轮非自回归模型,解决了自回归端到端模型Transformer存在的计算并行度低,无法高效结合GPU进行推理的问题。
同时,Paraformer通过创新的预测器设计,实现对目标文字个数及对应声学隐变量的高准确度预测,并引入机器翻译领域的浏览语言模型思路,显著增强了模型对上下文语义的建模。
如果说Paraformer模型解决的是通义听悟“听清楚”的问题,那么CAM++说话人识别基础模型,就解决了通义听悟分辨“谁在说话”的问题。
在1953年,Colin Cherry提出了语音领域著名的“鸡尾酒会问题”,该问题用于讨论在酒会等嘈杂环境下,准确区分出不同说话人信号的问题。
显然,通义听悟面对的会议、课堂等主要应用场景,就是典型的“鸡尾酒会问题”场景。
为了解决这一问题,达摩院在CAM++说话人识别基础模型中,采用了基于密集型连接的时延网络(D-TDNN),每一层的输入均由前面所有层的输出拼接而成。
这种层级特征复用和时延网络的一维卷积,可以显著提高网络的计算效率。
据悉,CAM++在行业主流的中英文测试集VoxCeleb和CN-Celeb上,均刷新了最优准确率,并且在计算效率和推理速度上有着明显优势。
不难看出,通义听悟之所以能够成为新一代的“音视频会议神器”,除了通义千问大模型作为负责思考理解“大脑”外,充当“耳朵”的Paraformer与CAM++,也至关重要。
可以说,在阿里达摩院于人工智能领域的大量研究与技术积累下,通义听悟的诞生并非空中楼阁,而是基础扎实,相当“水到渠成”的一件事。
同理,在此之后,我们也可以期待更多与之类似的,基于达摩院自研AI技术诞生的人工智能应用工具。