阿里云会议神器通义听悟如何炼成？达摩院自研AI模型立功-麦子文章

6月1日消息，今天，阿里云正式公布了人工智能加持下的会议记录AI助手通义听悟。

通义听悟的诞生，离不开阿里的通义千问大模型，但同时，阿里达摩院推出的自研语音识别基础模型Paraformer，以及说话人识别基础模型CAM++，也至关重要。

据悉，Paraformer是目前业界首个应用落地的非自回归端到端语音识别模型，在推理效率上，最高可较传统模型提升10倍之高，且准确度方面在多个权威数据集上位列榜首。

在通义听悟中，该模型的主要功劳，就是让AI能够“听清楚”会议中人们都说了什么。

根据此前达摩院Paraformer开发团队发布的论文提供的信息，该模型采用单轮非自回归模型，解决了自回归端到端模型Transformer存在的计算并行度低，无法高效结合GPU进行推理的问题。

同时，Paraformer通过创新的预测器设计，实现对目标文字个数及对应声学隐变量的高准确度预测，并引入机器翻译领域的浏览语言模型思路，显著增强了模型对上下文语义的建模。

如果说Paraformer模型解决的是通义听悟“听清楚”的问题，那么CAM++说话人识别基础模型，就解决了通义听悟分辨“谁在说话”的问题。

在1953年，Colin Cherry提出了语音领域著名的“鸡尾酒会问题”，该问题用于讨论在酒会等嘈杂环境下，准确区分出不同说话人信号的问题。

显然，通义听悟面对的会议、课堂等主要应用场景，就是典型的“鸡尾酒会问题”场景。

为了解决这一问题，达摩院在CAM++说话人识别基础模型中，采用了基于密集型连接的时延网络（D-TDNN），每一层的输入均由前面所有层的输出拼接而成。

这种层级特征复用和时延网络的一维卷积，可以显著提高网络的计算效率。

据悉，CAM++在行业主流的中英文测试集VoxCeleb和CN-Celeb上，均刷新了最优准确率，并且在计算效率和推理速度上有着明显优势。

不难看出，通义听悟之所以能够成为新一代的“音视频会议神器”，除了通义千问大模型作为负责思考理解“大脑”外，充当“耳朵”的Paraformer与CAM++，也至关重要。

可以说，在阿里达摩院于人工智能领域的大量研究与技术积累下，通义听悟的诞生并非空中楼阁，而是基础扎实，相当“水到渠成”的一件事。

同理，在此之后，我们也可以期待更多与之类似的，基于达摩院自研AI技术诞生的人工智能应用工具。