AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X-麦子文章

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、InstantX图像生成黑科技！可精确控制 FLUX 生成图片时每个区域的内容

在AI绘画领域，InstantX推出的Regional-Prompting-FLUX技术实现了前所未有的高精准度，让创作者们能够精细控制图片内容，开拓了全新的创作可能。该技术突破性在于强大的区域控制能力，兼容性强，操作简单直观，具有极强的扩展性。FLUX为AI绘画带来了更自由、更灵活、更高效的创作平台。

【AiBase提要:】

⚙️ FLUX技术实现了高精准度，让创作者精细控制图片内容，开拓创作可能。

🎨 FLUX具有强大的区域控制能力，可实现不同风格区域的完美融合。

💡 FLUX在处理速度、兼容性和操作简便性方面表现优异，为图像生成带来新的可能性。

详情链接:https://github.com/instantX-research/Regional-Prompting-FLUX

2、超快速文本转语音模型Lightning：超低延迟， 100毫秒生成10秒音频

最新推出的AI文本转语音模型Lightning在100毫秒内生成10秒音频，大幅降低语音机器人开发成本，提高可及性。支持多种语言口音，定价极具成本效益。

【AiBase提要:】

🚀 速度与效率。Lightning模型在100毫秒内生成10秒音频，实现实时语音合成，满足快速响应需求。

💰 低成本高效率。每分钟仅需0.02美元，显著降低语音机器人开发者的运营费用。

📱 多功能应用。除语音机器人外，还可用于有声书和社交媒体配音，方便开发者和非开发者使用。

详情链接:https://smallest.ai/blog/lightning-fast-text-to-speech

3、黑神话悟空也能用AI生成了？GameGen-X 颠覆游戏开发，传统游戏瑟瑟发抖！

GameGen-X 模型由香港科技大学、中国科学技术大学等机构研究人员发布，是专为生成和互动控制开放世界游戏视频而设计的扩散变换器模型。该模型能自动生成开放世界游戏视频，模拟游戏引擎功能，实现角色互动和场景内容控制，为游戏开发带来新可能性。虽然仍处于初级阶段，但展示了生成模型作为传统渲染技术辅助工具的潜力。

【AiBase提要:】

⚙️ GameGen-X 模型可生成开放世界游戏视频，模拟游戏引擎功能，实现角色互动和场景内容控制。

💡 GameGen-X 训练使用大型开放世界游戏视频数据集 OGameData，通过两阶段训练实现高质量游戏内容生成和互动可控性。

🎮 GameGen-X 表现出色，提供优秀的环境和角色控制能力，为未来游戏开发带来新可能性。

详情链接:https://gamegen-x.github.io/

4、AI新框架HelloMeme：超逼真实现不同图片之间的表情迁移

HelloMeme框架通过独特的网络结构和Animatediff模块，实现了视频生成的流畅性与画质的双重提升。框架支持ARKit Face Blendshapes，使用户能够灵活控制角色面部表情，丰富视频内容的表现。采用热插拔适配器设计，确保与SD1.5基础上的其他模型兼容，为创作提供更大的灵活性。

【AiBase提要:】

🌐 HelloMeme通过独特的网络结构和Animatediff模块，实现了视频生成的流畅性与画质的双重提升。

🎭 框架支持ARKit Face Blendshapes，使用户能够灵活控制角色面部表情，丰富视频内容的表现。

⚙️ 采用热插拔适配器设计，确保与SD1.5基础上的其他模型兼容，为创作提供更大的灵活性。

详情链接:https://songkey.github.io/hellomeme/

5、OuteTTS-0.1-350M: 一种新颖的文本转语音合成方法

Oute AI 最近发布了一种名为 OuteTTS-0.1-350M 的文本转语音合成方法，采用纯语言建模，简化了 TTS 方法，具有零样本语音克隆功能，适用于广泛的应用领域。该方法基于 LLaMa 架构，使用 WavTokenizer 生成音频标记，性能可与更大、更复杂的 TTS 系统相媲美，具有高效率和可访问性。

【AiBase提要:】

⚙️ OuteTTS-0.1-350M 利用纯语言建模，无需外部适配器，提供简化的 TTS 方法。

🔊 OuteTTS-0.1-350M 使用 WavTokenizer 直接生成音频标记，流程更高效。

💡 OuteTTS-0.1-350M 具有零样本语音克隆功能，与 llama.cpp 兼容，适用于实时应用。

详情链接:https://www.outeai.com/blog/OuteTTS-0.1-350M

6、CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

生成式AI发展迅猛，但全面评估其性能一直是难题。近期，卡耐基梅隆大学和Meta合作推出VQAScore评测方案，利用视觉问答模型评分，准确性超越传统方法。新评测基准GenAI-Bench推动文生图模型发展，提供更全面、具有挑战性的评测。VQAScore存在局限性，但随着VQA模型进步，性能将提升。

【AiBase提要:】

🔍 VQAScore评测方案利用视觉问答模型给文生图模型打分，准确性超越传统方法。

🚀 GenAI-Bench评测基准推动文生图模型发展，提供更全面、具有挑战性的评测。

💡 VQAScore存在局限性，但随着VQA模型进步，性能将进一步提升。

详情链接:https://linzhiqiu.github.io/papers/vqascore/

7、中国团队推世界最大多模态数据集“Infinity-MM”和顶尖微型AI模型“Aquila-VL-2B”

近日，中国研究团队成功创建了“Infinity-MM”数据集，同时训练出了性能卓越的小型新模型“Aquila-VL-2B”。这一举措标志着开放源代码模型在AI研究中逐渐赶超传统闭源系统的趋势，尤其在合成训练数据的利用方面展现出良好前景。

【AiBase提要:】

🌐 数据集“Infinity-MM”包含1000万条图像描述和2440万条视觉指令数据。

💡 新模型Aquila-VL-2B在多个基准测试中表现优异，打破了同类模型的记录。

📈 合成数据的使用显著提升了模型性能，研究团队决定向社区开放数据集和模型。

详情链接:https://arxiv.org/abs/2410.18558

8、AI浪潮下受益者！英伟达超越苹果，成为全球市值最高公司

在近期的股市交易中，英伟达凭借其在人工智能领域的强劲表现，超越了苹果公司，成为全球市值最高的公司。这一变化标志着英伟达自2022年底以来实现了惊人的850%的增长，显示出强劲的市场表现。英伟达在人工智能热潮中的重要地位得到再次验证。

【AiBase提要:】

🌟 英伟达市值达3.43万亿美元，超越苹果成为全球市值最高公司。

📈 自2022年底以来，英伟达股价增长850%，显示出强劲的市场表现。

🤖 苹果也在人工智能领域发力，但英伟达仍是顶尖大型语言模型的关键支持者。

9、微软推出 Magnetic-One 系统：多智能体协同完成日常任务

微软最新发布的 Magnetic-One 系统是一款多智能体框架，旨在提升个人和企业的工作效率。该系统允许一个 AI 模型驱动多个助手智能体，协同完成复杂的多步骤任务。微软使用了 OpenAI 的 GPT-4o 进行开发，但系统与大型语言模型无关，推荐使用强大的推理模型作为指挥者智能体。

【AiBase提要:】

🌟 Magnetic-One 系统: 微软推出的多智能体框架，旨在提升生产力并自动化日常任务。

🤖 多种智能体角色: 包括指挥者、网页浏览、文件浏览、代码编写等多种智能体协同工作。

📈 开源共享: Magnetic-One 为开发者提供开源框架，促进智能体的灵活应用与评估。

详情链接:https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/