OpenAI语音转录工具被曝严重幻觉：转录100小时，一半儿在瞎扯-麦子文章

声明:本文来自于微信公众号量子位，作者:西风，授权站长之家转载发布。

OpenAI的AI语音转写工具，那个号称近乎“人类水平”的Whisper，被曝幻觉严重——

100多小时转录，被工程师发现约一半都在瞎扯。

更严重的是，美联社还爆料有医疗机构利用Whisper来转录医生与患者的会诊，瞬间引发大量网友关注。

据悉，明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具。

而且他们已经转录了大概700万次医疗就诊。

网友纷纷表示这就有点吓人了。

值得一提的是，OpenAI之前早就警告过，该工具不应在“高风险领域”中使用。

针对最新爆料，有OpenAI发言人回应，OpenAI会在模型更新中加入相应的反馈机制。

OpenAI被督促赶紧解决此问题

Whisper是OpenAI老早前推出的开源自动语音识别（ASR）系统，于2022年9月发布。

它采用简单的端到端方式，基于编码器-解码器Transformer架构。输入音频将被分成30秒的块，转化为梅尔倒谱（音频特征提取方式之一，log-Mel spectrogram），然后传入编码器。

经过68万小时的多语言和多任务监督网络数据的训练，Whisper可以进行多语言转录。

Whisper推出后得到广泛应用，如今GitHub已揽获70.2k标星:

据悉，它还被集成在ChatGPT的一些版本中，同时也是Oracle和微软云计算平台的一项内置服务，而这些平台为全球数千家公司提供服务。

此外，仅在上个月，HuggingFace上的一个最新版本Whisper就被下载了超420万次。HuggingFace社区的机器学习工程师Sanchit Gandhi表示，Whisper是最受欢迎的开源语音识别模型。

而现在，据美联社报道，很多研究人员和工程师反映，在工作中他们经常遇到Whisper产生的幻觉。

例如，密歇根大学的一位研究员在尝试改进模型之前，发现其检查的每10份音频转录中有8份出现了幻觉。

一位机器学习工程师指出，在他分析的超过100小时Whisper转录中，大约一半出现了幻觉。

还有一位开发者表示，在他使用Whisper创建的26，000份转录中，几乎每一份都发现了幻觉。

……

这种问题甚至存在于录制良好的短音频样本中。

在最近的一项研究中，计算机科学家们在审查的超过13000个清晰音频片段中发现了187个幻觉。

工程师和研究人员表示，他们从未见过其它任何AI驱动的转录工具像Whisper这样频繁地产生幻觉。

Whisper幻觉严重的原因目前尚未可知，但有软件开发者表示，这些虚构内容往往发生在停顿、有背景声音或音乐播放时。

之前，OpenAI就有提醒:

不要在决策情境中使用Whisper，准确性上的缺陷可能导致结果出现明显偏差。

然鹅，美联社表示，这一警告并未阻止一些医院或医疗中心使用Whisper等语音转文字模型——

包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内，已经有超30000名临床医生和40个医疗系统已经开始使用由Nabla公司基于Whisper开发的工具。

Nabla CTO Martin Raison称，该工具针对医疗语言对模型进行了微调，用于转录和总结患者的交流。

目前，该工具已被用于转录约700万次医疗就诊。

在得知Whisper可能会产生幻觉后，Nabla表示正在解决此问题，不过:

由于“数据安全原因”，Nabla的工具会删除原始音频，无法将Nabla生成的AI文本与原始录音进行比较。

此外，据了解，Whisper还被用来为聋人和听力障碍者创建字幕。

Whisper幻觉严重问题被发现后，有人敦促OpenAI赶紧解决此问题。

今年2月离开OpenAI的研究员William Saunders也开麦了:

如果公司愿意优先考虑，这似乎是可以解决的。如果你把它放出去，人们过于自信于它的功能，并将其集成到所有这些其他系统中，那就成了问题。

有OpenAI发言人回应称，公司持续研究如何减少幻觉现象，并感谢研究人员的发现，同时补充道OpenAI会在模型更新中融入相应反馈机制。

参考链接:

[1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14

[2]https://x.com/AP/status/1850150400424345858