划重点:
🔍 OpenAI CEO Sam Altman 强调高质量数据对训练 AI 模型的重要性。
🔍 OpenAI 目前已经积累足够数据来训练 GPT-4之后的下一代 AI 模型。
🔍 公司正在探索如何用更少的数据让 AI 系统学到更多。
OpenAI 的首席执行官 Sam Altman 在一次采访中强调了使用高质量数据来训练人工智能模型的重要性。他表示,无论是人类生成的数据还是合成数据,高质量数据对 AI 系统至关重要。
Altman 在 AI for Good Global Summit 的一次采访中提到了 AI 系统对高质量数据的需求。他认为,无论是来自人类还是合成生成的低质量数据都会成为问题。Altman 表示:“我认为你需要的是高质量数据。有低质量的合成数据,也有低质量的人类数据。”
目前,OpenAI 已经拥有足够的数据来训练 GPT-4之后的下一代模型,Altman 表示。公司正在尝试生成大量合成数据,以探索不同的 AI 训练方法。然而,关键问题在于 AI 系统如何能够用更少的数据学到更多,而不仅仅是产生大量合成数据进行训练。
Altman 认为,如果训练模型的最佳方式是 “生成类似于一千万亿标记的合成数据并将其反馈回去”,那将是 “非常奇怪的”。对于 Altman 来说,高效地从数据中学习是关键,他将核心问题描述为 “如何用更少的数据学到更多?” 他警告称,OpenAI 和其他公司仍需找到最适合训练日益强大的 AI 系统的数据和方法。
科学支持 Altman 的观点,表明更好的数据会带来更好的 AI 性能。这也符合 OpenAI 最近斥资数亿美元从主要出版商那里获得训练数据的战略。在这个快速发展的领域,寻找适合训练 AI 系统的最佳数据和技术仍需要做出许多科学进展。