AI日报:GPT-4o新版本上线;面壁智能开源手机版“GPT-4V”;华为推3D数字人新框架​EmoTalk3D;阿里上线奥运时刻海报工作流

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开发者狂喜!GPT-4o新版本上线,API 更快更便宜

OpenAI 近期推出了全新的结构化输出功能,旨在使模型生成的输出严格遵循开发者提供的 JSON 模式,提升输出的可靠性和匹配度。这一功能的推出为开发者构建可靠应用程序提供了重要基础,简化了开发过程,帮助开发者更轻松地创建出色的应用。

【AiBase提要:】

🌟 结构化输出功能使模型输出更可靠,遵循开发者提供的 JSON 模式。

🔍 新模型 gpt-4o-2024-08-06在复杂 JSON 模式的评估中获得完美100% 分数。

🔧 Python 和 Node SDK 已更新,支持结构化输出,简化开发者的工作流程。

详情链接:https://openai.com/index/introducing-structured-outputs-in-the-api/

2、面壁智能开源 MiniCPM-V2.6可以在手机上跑的“GPT-4V”

MiniCPM-V2.6是一款端侧多模态人工智能模型,仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA成绩,与GPT-4V水平全面对标。该模型在端侧实现了单图、多图和视频理解等核心能力的全面超越,具有极高的像素密度和运行效率,支持多种语言和推理框架。

【AiBase提要:】

🚀 MiniCPM-V2.6取得了20B以下单图、多图、视频理解三项SOTA成绩,与GPT-4V水平全面对标

💡 模型具有极高的像素密度和运行效率,在端侧设备上实现了极高的运行效率

🌐 MiniCPM-V2.6支持多种语言和推理框架,通过OCR能力实现了从单图到多图及视频的流畅拓展

详情链接:https://github.com/OpenBMB/MiniCPM-V HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6llama.cpp、ollama、vllm

3、华为、复旦联手打造3D数字人新框架EmoTalk3D:喜怒哀乐表情逼真丰富

研究团队从南京大学、复旦大学和华为诺亚方舟实验室联手打造了EmoTalk3D框架,解决了多视角一致性和情感表现力不足的难题。他们提出了合成可控情感数字人的新方法,构建了从语音到几何再到外观的映射框架,并建立了EmoTalk3D数据集。

【AiBase提要:】

💥 提出合成可控情感数字人的新方法。

🎯 构建“从语音到几何再到外观”的映射框架。

👀 建立EmoTalk3D数据集并准备开放。

详情链接:https://nju-3dv.github.io/projects/EmoTalk3D/

4、阿里云PAI Artlab新增奥运高光时刻海报工作流

阿里云PAI Artlab的ComfyUI新增了一个奥运高光时刻海报的工作流,用户只需三步即可生成个性化的奥运主题海报。用户需要先在阿里云官网注册并完成实名认证,然后访问PAI ArtLab平台,领取免费资源,并通过ComfyUI加载奥运流程来解锁更多海报设计。

【AiBase提要:】

🌟 用户只需三步即可生成个性化的奥运主题海报。

🚀 需要上传图片数据、加载并微调AI模型,调整生成内容的Prompt,保存工作流并生成json文件。

💡 其他用户可以通过生成的json文件快速生成海报,实现共享与交流。

产品入口:https://x.sm.cn/5hd9PfM

详情点此查看:https://www.aibase.com/zh/news/10857

5、腾讯元宝AI助手上线长文精读 支持最长近50万字输入

腾讯元宝AI助手推出了长文精读功能,用户上传专业内容后可进入深度阅读模式,提供核心内容概览、模块化解析和总结性图表,帮助用户快速理解关键信息。利用腾讯混元大模型处理能力,支持最长近50万字输入,生成图文并茂的内容。用户可评估论文质量、查看专业图表和在离线状态下回看精读内容。腾讯混元大模型已全面开源,展现卓越的多模态理解能力。

【AiBase提要:】

📚 长文精读功能提供深度阅读模式,核心内容概览、模块化解析和总结性图表。

🔍 利用腾讯混元大模型处理能力,支持最长近50万字输入,生成图文并茂的内容。

💡 用户可评估论文质量、查看专业图表和在离线状态下回看精读内容。

6、月之暗面 Kimi 开放平台:上下文缓存 Cache 存储费用降价50%

Kimi 开放平台宣布上下文缓存存储费用降价50%,为用户提供更经济实惠的服务。上下文缓存是高效的数据管理技术,能够提高系统效率和节省时间资源。

【AiBase提要:】

🔑 上下文缓存存储费用降价50%,从10元/1M tokens/min降至5元/1M tokens/min。

⏳ 上下文缓存是一种高效的数据管理技术,能够预先存储可能被频繁请求的大量数据,提高系统效率。

💡 上下文缓存特别适合频繁请求、重复引用大量初始上下文的场景,可降低长文本模型费用并提高效率。

7、Figure公司发布超强实体ChatGPT机器人Figure02

Figure公司最新推出的Figure02机器人标志着AI技术的重大突破,预示着人机交互进入全新时代。该机器人在硬件和软件上进行了全面革新,具有灵活手部操作、强大对话视觉能力和3倍计算推理能力。

【AiBase提要:】

🤖 Figure02机器人是AI技术重大突破,预示人机交互新时代。

🔊 语音对话功能、先进视觉系统、革命性手部设计是其核心特点。

💡 Figure02集成OpenAI大模型,结合语音指令和视觉信息进行深度推理。

8、AI设计加持义乌制造:AI设计穿戴甲火到巴黎奥运

这篇文章介绍了一款由AI设计、义乌生产的穿戴甲在巴黎街头引发热议的故事,展示了义乌制造业注入新活力的场景。通过AI技术设计的穿戴甲产品在巴黎引起轰动,证明了义乌的创新实力和市场敏锐度。

【AiBase提要:】

🔥 AI设计穿戴甲在巴黎引发热议,成为时尚界新宠,为义乌制造注入活力。

💡 LumiNail是一款傻瓜式AI穿戴甲设计产品,简单yet强大,提高设计效率,注入创意活力。

🚀 义乌商家开始尝试AI辅助生产,超过1万户商户使用AI技术优化经营,开辟新发展方向。

9、上海人工智能实验室推出书生·浦语系列模型新版本InternLM2.5

上海人工智能实验室在2024年7月4日的WAIC科学前沿主论坛上推出了书生·浦语系列模型的新版本InternLM2.5,该版本在复杂场景下的推理能力得到全面增强,支持超长上下文和自主进行互联网搜索整合信息。模型参数版本包括1.8B、7B和20B,适应不同应用场景和开发者需求。

【AiBase提要:】

⚙️ InternLM2.5发布三种参数版本的模型,包括1.8B、7B和20B,满足不同应用场景需求。

🔍 InternLM2.5在多个数据合成技术上进行迭代,显著提升模型的推理能力,特别在数学评测集MATH上的准确率达到64.7%。

🛠️ InternLM2.5实现了与下游推理和微调框架的无缝对接,包括XTuner微调框架、LMDeploy推理框架和其他社区框架。

详情链接:https://internlm.intern-ai.org.cn

10、以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

aiOla公司推出的Whisper Medusa开源语音识别模型在处理速度上取得了重大突破,比OpenAI的Whisper模型快50%,引起了业界广泛关注。这一创新将为语音识别技术的发展带来深远影响,为人工智能在语音识别领域的应用开辟新的可能性。

【AiBase提要:】

⚙️ Whisper Medusa的核心创新在于引入了多头注意力机制,使模型能够每次预测十个tokens,显著提高了语音预测速度和生成运行时间。

🔍 Whisper Medusa在提高速度的同时并未牺牲性能,主干系统建立在Whisper的基础上,保证了模型的准确性和稳定性。

🎓 aiOla采用弱监督的机器学习方法训练Whisper Medusa,进一步提高了模型的学习效率和准确性。

详情链接:https://github.com/aiola-lab/whisper-medusa

11、新流量密码?AI视频翻车意外走红:一段诡异画面引发2000万次观看

AI生成的内容已经渗透到我们的生活中,但最近一段AI翻车视频却成为网络热点,吸引了近2000万次观看,揭示了人们对AI技术的复杂态度。这段视频展示了AI图像生成技术的失控一面,引发了网友们的强烈反应。公众对AI技术的态度正在发生微妙的变化,需要保持幽默感和开放心态。

【AiBase提要:】

🤖 AI视频翻车成网络热点,吸引2000万次观看。

😱 视频展示AI失控画面,引发强烈反应。

😄 公众态度对AI发生微妙变化,需保持幽默感和开放心态。

12、摩尔线程AI创作平台摩笔马良全新升级

摩笔马良全新升级,提供更高效、个性化的图像生成体验,强化对中文和中国文化的理解,实现精准创意人像生成。用户操作简单,上传照片、输入描述、生成图片,快速实现个性化创意人像。新增20多种预置风格满足多样化创意需求,AI算法和交互体验显著提升,图像生成高速高分辨率。界面优化简化操作流程,提升交互直观性和便捷性,为个人用户和专业人士带来前所未有的创意体验。

【AiBase提要:】

🎨 提供更高效、个性化的图像生成体验,强化对中文和中国文化的理解,实现精准创意人像生成。

🖼️ 新增20多种预置风格,满足用户多样化创意需求。

🚀 AI算法和交互体验显著提升,图像生成高速高分辨率。

13、Reddit将测试AI驱动的搜索结果页面

Reddit的创始人兼首席执行官Steve Huffman透露,Reddit将推出AI驱动的搜索结果页面,提供AI生成的内容摘要。这一举措旨在帮助用户更轻松地找到感兴趣的内容,并推荐相关社区,进一步深入了解内容和探索更多Reddit社区。

【AiBase提要:】

🌟 Reddit将推出AI驱动的搜索结果页面,提供AI生成的内容摘要。

🤖 Reddit与OpenAI合作,利用其大型语言模型构建新功能。

📈 Reddit每周活跃用户达3.423亿,收入超出市场预期。

14、亚马逊升级AI图像生成器Titan Image Generator v2,支持参考图像来“引导”生成作品

亚马逊推出了升级版Titan Image Generator v2,为用户带来多项新功能,包括图像调节、配色方案控制、背景去除等。该模型还支持用户通过参考图像和文本提示来生成符合用户布局和结构要求的图像。AWS提供赔偿政策保护版权,Andy Jassy对生成AI技术充满信心。

【AiBase提要:】

🎨 用户可以通过图像调节功能精确控制创作内容,提供参考图像和文本提示后生成符合用户布局和结构要求的图像。

🌈 用户可以控制生成图像的配色方案,只需提供十六进制颜色代码即可。

🔍 背景去除功能得到显著提升,用户可以轻松从包含多个对象的图像中移除背景,确保主要对象清晰展现

详情链接:https://top.aibase.com/tool/amazon-titan-text-premier

返回顶部