AI日报：Claude新增PDF文件处理功能；Runway推出高级摄像机控制；支持视频转视频的开源神器ComfyUI-MochiEdit-麦子文章

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Claude3.5Sonnet模型增加PDF文件处理功能

Anthropic公司最新推出的Claude3.5Sonnet模型增加了PDF文件处理功能，用户可以通过该模型分析PDF文档中的文本和视觉元素，包括图像、图表和表格等，适用于多种场景。

【AiBase提要:】

📄 Claude3.5Sonnet模型新增PDF文件处理功能，支持文本和图像分析。

🖼️ 处理过程包括提取文本、转换页面为图像和综合分析三个步骤。

💰 处理费用根据文档长度和内容密度不同，用户需遵循文件大小和页数限制。

2、OpenAI完整版o1模型曝光:能力超强可处理20万个token

我对最新曝光的OpenAI o1模型进行了点评。该模型被称为OpenAI最强大的模型，具备处理大量文本和分析图像的能力，特别适合高级推理和创造性任务。预计完整版将在今年晚些时候推出，引起了人工智能领域的广泛关注。用户们对o1模型的体验充满期待。

【AiBase提要:】

🌟 o1模型短暂开放，能处理约20万字和分析图像。

🚀 OpenAI称其为“最强大的模型”，适合高级推理和创造性任务。

📅 完整版尚未发布，预计将于今年晚些时候推出。

3、告别随机生成!Runway推出高级摄像机控制像导演一样掌控镜头

Runway最新推出的高级摄像机控制功能让用户像导演一样掌控虚拟场景中的镜头移动，为AI视频创作带来前所未有的灵活性和掌控力。用户可以实现水平移动、环绕拍摄、位置探索、循环拍摄等多种效果，极大拓展了创作潜力。这一功能改变了用户对数码相机工作的看法，实现无缝过渡和增强场景构图。

【AiBase提要:】

🎥 用户可以像导演一样精准控制虚拟场景中的镜头移动，实现多种效果，包括水平移动、环绕拍摄等。

🔍 结合速度变化的循环拍摄功能，用户可以生成吸睛的视觉循环或过渡，极大拓展了创作潜力。

📽️ 高级摄像机控制功能让用户精确控制场景和主题的呈现方式，将观众带入一个栩栩如生、看似3D的世界。

详情链接:https://top.aibase.com/tool/runway

4、付费用户仅60+，月入却达3万!开源AI聊天工具LobeChat盈利模式大揭秘

LobeChat团队在开源AI聊天工具LobeChat的云服务公测中取得初步成绩，月收入突破3万元人民币，但面临付费转化率低的挑战。团队计划通过差异化功能和调整订阅模式解决问题，同时承诺解决产品设计中的挑战。盈利空间有限，将关注MRR指标确保可持续发展。

【AiBase提要:】

📈 LobeChat云服务一个月月收入突破3万元人民币，付费用户数达60+，展现商业化希望。

🔍 付费转化率低，仅不到1%，可能因市场竞争激烈和功能差距。

💡 LobeChat团队计划推出差异化功能和调整订阅模式，关注MRR指标确保可持续发展。

详情链接:https://lobechat.com/welcome

5、Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力

阿里巴巴通义实验室最新研究表明，现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力，通过IC-LoRA的加持，模型变得更智能，只需少量样本即可学会新技能。研究人员设计了简单有效的流程，唤醒Diffusion模型的“上下文学习”能力，大大降低了AI模型的训练成本，让更多人参与AI创作。IC-LoRA的出现是AI图像生成领域的里程碑式进步，让每个人都能成为艺术家。

【AiBase提要:】

🔍 现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力

🧠 IC-LoRA加持使模型变得更智能，只需少量样本即可学会新技能

💡 设计简单有效的流程唤醒Diffusion模型的“上下文学习”能力

详情链接:https://ali-vilab.github.io/In-Context-LoRA-Page/

6、颠覆视频编辑!开源神器ComfyUI-MochiEdit 支持视频转视频，局部编辑

我想象过像操控文字一样编辑视频的情景，现在这个想法已经成为现实。ComfyUI-MochiEdit是一款基于ComfyUI和Genmo Mochi的开源视频编辑工具，它提供了一种全新的视频编辑思路:将视频转换为噪声，再通过目标提示重新采样噪声，生成全新视频。这种方法实现了局部编辑和视频转视频功能，让用户可以轻松修改视频的部分而无需处理整个视频。

【AiBase提要:】

⚙️ 视频转噪声再重采样，实现局部编辑和视频转视频功能

🎨 可将输入视频转换为具有特定风格或内容的新视频

🔧 用户可通过调整节点参数控制最终视频效果

详情链接:https://github.com/logtd/ComfyUI-MochiEdit?tab=readme-ov-file#mochi-unsampler

7、AI热潮推动!Python超越JavaScript，成GitHub最受欢迎编程语言

Python在GitHub开发者平台成功超越JavaScript，主要源自生成式人工智能热潮。GitHub指出AI并未降低开源项目代码质量，反而促进了AI项目贡献增长。开发者越来越多地将AI模型集成到工具链中，关注小型高效模型和AI代理自动化。2024年最受关注的开源AI项目是“ollama/ollama”，展示了AI领域的快速发展。

【AiBase提要:】

🌟 Python成功超越JavaScript，成为GitHub最受欢迎编程语言，受益于生成式人工智能热潮。

📈 生成式AI项目贡献增长59%，总数增加98%，推动了AI领域的发展。

🤖 GitHub表示AI并未降低开源项目代码质量，开发者对小型高效模型和AI代理自动化表现出浓厚兴趣。

8、Meta最新黑科技:Sparsh赋予机器人“人类级”触觉，灵巧操作不再是梦!

Meta FAIR 实验室近日发布了名为“Sparsh”的人工多模态指尖触觉感知技术，为机器人赋予近似人类的触觉感知能力，将在机器人操控领域带来革命性变化。该技术采用自监督学习，利用46万+触觉图像进行预训练，支持多种视觉触觉传感器，显著提升机器人在触觉感知任务上的性能。发布的Sparsh模型标志着AI触觉感知领域的重大突破，未来有望改变机器人与物理世界交互方式。

【AiBase提要:】

🤖 Sparsh模型采用自监督学习，预训练使用46万+触觉图像，无需人工标注数据，学习通用触觉表征。

👆 Sparsh模型支持多种视觉触觉传感器，如DIGIT、GelSight2017和GelSight Mini，提升机器人在触觉感知任务上的性能。

🌟 Sparsh模型在TacBench基准测试平台上表现出色，在力估计、滑动检测等任务中即使使用1%标注数据也能取得满意结果。

详情链接:

https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/464969941_1107633400780143_7479102347328147009_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=y8Ui1HEw3BQQ7kNvgFe-ePu&_nc_zt=14&_nc_ht=scontent-sjc3-1.xx&_nc_gid=AeaFsuZziasVwPfMQsEoZqu&oh=00_AYAMqxGq0ATCySDxZWB0ZT8BgSkogYmj13c9f3ytVtkmSg&oe=672DEEE4

9、全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

在当今科技的浪潮中，对话式人工智能（AI）已经成为我们生活中的重要组成部分。Standard Intelligence Lab推出的Hertz-Dev开源音频模型，实现了超低延迟的实时对话AI，为人与机器之间的互动带来新的希望。

【AiBase提要:】

🌟 Hertz-Dev是一个开源的8.5亿参数音频模型，理论延迟仅为80毫秒，实际延迟为120毫秒，极大提升了实时对话体验。

💡 独立开发者和研究人员可以轻松使用先进的实时对话AI技术，无需庞大硬件支持，降低了门槛。

🚀 Hertz-Dev的广泛应用将推动人工智能在客户支持、智能家居等领域发展，让人与机器的互动更为自然。

详情链接:https://github.com/Standard-Intelligence/hertz-dev

10、前小鹏高管创办 AI 陪伴机器人公司，成功融资千万元!

作为前小鹏机器人产品设计负责人的孙兆治创办的上海珞博智能科技有限公司成功完成千万元级人民币的天使轮融资。公司专注于AI陪伴机器人领域，产品定位为“AI潮玩”，将兼顾桌面和可穿戴场景，具备多项创新特性。

【AiBase提要:】

🚀 珞博智能完成千万元级人民币的天使轮融资，主要来自行业投资者。

💡 公司成立于2024年1月，首款产品定位为“AI潮玩”，已完成前三轮原型机设计开发。

🔑 创始人孙兆治具有丰富的用户体验设计和工业设计背景，公司目标市场明确，面向年轻女性用户的情感陪伴需求。