AI日报：谷歌Gemini将发五个新功能；百度推文小言AI数字人社交APP；OpenAI草莓计划揭秘；亚马逊上线Rufus AI购物助手-麦子文章

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、谷歌Gemini即将发布五个新功能：Imagen3、定制GPT等

谷歌即将推出Gemini产品系列的新功能，包括Imagen3、Gemini定制GPT等，备受期待。这些新功能将为用户带来更加个性化和便捷的体验，展示了谷歌在人工智能领域的持续创新和发展。

【AiBase提要:】

🔍 谷歌Gemini即将发布新功能，包括Imagen3、Gemini定制GPT等，为用户带来更加个性化和便捷的体验。

🔍 预计Gemini还将推出个性化回应、预定提示、录音和Google Photos集成等功能，进一步丰富用户体验。

🔍 谷歌正在加紧招募iOS版Gemini的Beta测试人员，iOS更新或将很快面世，展示了Gemini持续发展的势头。

2、百度推出文小言AI数字人社交APP

百度最近推出了名为"文小言"的AI数字人社交APP，利用先进的文心大模型技术，用户可以与仿真的数字人进行实时沟通、互动，建立情感联系，带来更真实、自然的交互体验。用户可以在应用中找到喜欢的数字人聊天对象，了解其信息并进行多种方式的互动。

【AiBase提要:】

🤖 用户可以与AI虚拟角色实时沟通、互动，建立情感联系，提升交互体验。

📱 每个AI数字人提供独特的聊天服务，可成为用户的百科全书、生活小助手，甚至心灵导师。

💬 数字人在回复时展示语音、文字，并通过肢体语言增强真实感。

3、OpenAI草莓计划揭秘：Q*推理能力大爆发，未来触手可及！

我对OpenAI草莓计划感到兴奋和好奇。这个项目以草莓的身份重新登场，据说能让AI提前规划任务、自主上网搜集信息，甚至进行深入研究。草莓模型的设计理念颇具创新，让AI具备前所未有的推理能力。OpenAI的秘密研发过程和高度保密让人更加期待未来的成果。

【AiBase提要:】

🍓 草莓计划能让AI提前规划任务、自主上网搜集信息，进行深入研究。

🔍 STaR技术通过迭代使用少量推理示例和大量无推理数据，让AI自我提升。

🚀 OpenAI希望草莓能够执行长时间任务，提升AI模型的推理能力。

论文地址:https://arxiv.org/pdf/2203.14465

4、Magic Insert：一键拖放即可让人物完美融入新背景

在数字创作的神奇世界里，Magic Insert技术的魅力在于可以轻松将主题从一张图片拖放到另一张风格迥异的背景图中，实现完美融合。这项技术结合了风格感知个性化和对象插入，展现出灵活性和多样性，为图像生成领域带来新挑战。

【AiBase提要:】

🔮 Magic Insert技术结合了风格感知个性化和对象插入，实现主题在不同背景中的完美融合。

🌟 技术亮点包括使用LoRA和文本标记微调模型、Bootstrapped Domain Adaptation技术实现真实对象插入，以及灵活性选择风格化程度和主题细节忠实度。

💡 研究人员展示了Magic Insert在多种风格主题和背景上的实验结果，证明其有效性和用户偏好。

详情链接:https://magicinsert.github.io/demo.html

5、快看漫画：正在训练二次元领域垂直大模型

快看漫画正致力于探索基于开源大模型进行微调，训练二次元领域的垂直大模型，以提升作品搜索转化率和活力，推动漫画行业的创新发展。通过应用大语言模型（LLM）和检索增强生成技术(RAG)，快看漫画构建了内部知识库，采用微调大模型+RAG增强策略，提高了搜索回答响应速度和排序指标。

【AiBase提要:】

🔍 利用大模型进行微调，提升作品搜索转化率和活力

🤖 应用大语言模型（LLM）和检索增强生成技术(RAG)，构建内部知识库

🎨 推动漫画行业创新发展，提升用户体验和内容产能

6、个性化服务升级！亚马逊悄悄上线Rufus AI购物助手

亚马逊最新推出的Rufus AI购物助手为用户带来个性化购物体验，通过智能问答服务帮助用户节省时间、做出明智选择，展现出色的购物问题解决能力。

【AiBase提要:】

🛒 Rufus AI购物助手上线，提供个性化购物体验，节省用户时间。

🤖 智能问答服务，详尽回答用户关于产品的各种问题，包括推荐、比较、订单追踪。

🌟 Rufus展现潜力，有望成为亚马逊智能购物领域的王牌，引领零售创新。

7、谷歌 Eureka AI模型提前曝光卓越的文本写作能力引关注

谷歌即将推出名为“Eureka”的新型AI模型，备受关注。Eureka在自然语言生成方面表现出色，被认为是谷歌在AI领域的重大突破。预计在7月15日将发布初步公告，7月18日有望正式发布。除了Eureka，谷歌还在开发其他新工具，如Google Gemini，引起行业极大兴趣。

【AiBase提要:】

✨ Eureka模型在自然语言生成方面表现出色，超越其他模型。

🔑 Eureka展示了改进的指令遵循能力，对用户定义参数遵守异常。

💡 Eureka在广泛的AI驱动任务中具有提高性能的潜力。

8、3D视觉重建技术DUSt3R:轻松基于2D图片生成3D模型

DUSt3R是一项创新技术，能在没有相机信息的情况下创建3D模型，极大地简化了从2D图片到3D模型的转换过程。它采用智能的处理方式，提供高效的重建任务处理，表现卓越，在多种视觉任务中取得最佳成绩。

【AiBase提要:】

🌟 创新技术: DUSt3R能在没有相机信息的情况下创建3D模型，简化了复杂的相机参数需求。

📷 高效处理: DUSt3R统一处理多张图片的重建任务，智能高效。

🚀 卓越表现: DUSt3R在多种视觉任务中表现出色，取得最佳成绩。

详情链接:https://top.aibase.com/tool/dust3r

9、OpenDiLoCo：分布式AI训练的开源解决方案，低通信成本，全球覆盖！

在AI大爆炸时代，OpenDiLoCo开源框架实现了DiLoCo训练方法，通过低通信成本实现全球分布式训练，保持高计算利用率。

【AiBase提要:】

🌐 全球分布式训练: OpenDiLoCo实现了全球范围内的模型训练，跨越两大洲、三个国家，保持高计算利用率。

⚙️ 动态资源管理: 训练过程中可动态调整计算资源，新设备可随时加入或退出训练。

🔗 容错与点对点通信: 使用Hivemind库实现容错训练，点对点通信方式进行训练，提高效率和稳定性。

详情链接:https://arxiv.org/pdf/2407.07852

10、微软MIT开创推理新纪元：6700万参数模型，与GPT-4一较高下

在这篇论文中，研究人员介绍了一种突破性的机器学习训练策略，通过改进逻辑推理能力和利用因果关系构建训练集，成功训练出了一个小型Transformer模型，与GPT-4相媲美。这项研究为AI学习因果推理打开了新的可能性，让AI能够更好地理解和解释世界。

【AiBase提要:】

🔍 独特的训练方法: 采用新颖训练方法，提升大型模型的逻辑推理能力。

🧠 逻辑推理的改进: 显著提升模型的逻辑推理能力，解决了先前挑战。

🔗 利用因果关系构建训练集: 利用因果关系模型构建训练数据集，帮助模型理解数据背后的因果逻辑。

详情链接:https://arxiv.org/pdf/2407.07612v1

11、美国金融监管机构敦促调查OpenAI的保密协议问题

本文报道了一群举报人揭露OpenAI公司的保密协议存在问题，要求美国金融监管机构展开调查。举报人指称OpenAI可能限制员工的举报权利，引发公众担忧。格拉斯利表示OpenAI的政策限制了举报人的权利，呼吁SEC对其不当行为进行调查。

【AiBase提要:】

⭐️ 举报人揭露OpenAI公司保密协议问题，要求SEC展开调查

⭐️ OpenAI被指违反SEC规定，剥夺员工举报权利

⭐️ 根据举报信，OpenAI被要求生产所有保密协议，避免侵犯员工权利，举报人要求SEC对OpenAI的不当行为进行调查