张一鸣姗姗来迟，却更迟了-麦子文章

声明：本文来自于微信公众号字母榜，作者：马舒叶，授权站长之家转载发布。

进入9月，视频大模型成为了大厂的AI新赛点。而这一次，张一鸣再次姗姗来迟。

距离阿里通义千问文生视频上线5天，距离6月份快手发布可灵，时间已经过去3个月，9月24日，字节终于推出了自己的豆包·视频生成模型。

而值得关注的是，一向看重投资回报率（ROI）、偏实用主义的张一鸣，一开始就为豆包视频大模型定了“商业化”的调。

在活动现场，火山引擎总裁谭待表示，豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐MV、微电影和短剧等。

图注:输入“一个戴着圣诞帽的小女孩抱着布偶猫”生成效果

图源:字母榜

同时谭待也强调，在豆包视频大模型发布前，就已经在抖音不少短剧项目“露脸”。而上个月，昆仑万维发布 AI 短剧生成平台SkyReels，7月，美图秀秀发布AI 短片生成工具MOKI。

“现在已经有上百家短剧出海企业成为AI大模型用户。”某头部AI 工具服务商亦表示，对于大模型厂商如字节而言，用AI打下高昂的影视制作成本，AI加持下，短剧、MV将成为类似网文、短视频一样有更多用户参与的内容产品，在他看来，“晚来的字节，下的是商业化的棋。”

事实上，当Sora“平地一声雷”炸圈，能否推出视频大模型，成为了2024年衡量大模型厂商技术是否先进的“新标准”。

在这场齐追Sora的追逐战里，“不紧不慢”的字节，拖到9月底才在豆包大模型Pro升级的当口，为视频大模型“留了一个版面”。

当字母榜打开即梦AI，注意到应用豆包视频大模型后，C端用户能够在即梦AI内体验视频生成。

最长12秒“中规中矩”的生成时长，对齐可灵的生成效果，“不算惊艳，但迟了几个月，也没被先发的视频大模型甩出技术差距。”作为首批内测豆包视频大模型的AI从业者，张洋告诉字母榜，尽管国内视频大模型扎堆更新，但字节姗姗来迟的底气，或许正在于此前AI视频生成的效果，都并未能让用户“惊艳”。

而国产模型追Sora的同时，OpenAI却已经通过GPT-o1的推出，为基座大模型展示了强化学习的新路径，OpenAI或即将迎来估值超万亿的新时代，大模型厂商们，也将面临新的赛点。

剪映此前推出的即梦AI只支持3秒的视频时长;加载豆包大模型后，即梦AI内可以生成3-12秒的视频。

相比之下，可灵1.0版本，在未开通会员的情况下，只能体验5秒的视频生成，而字节的即梦AI通过每天登录发放66积分的形式，支持用户的免费试用。

不过，不像豆包大模型凭借低于行业98%的价格，开始卷起“大模型零元购”，引发热议，豆包大模型似乎不符合字节一贯“闷声干大事”的传统，显得有些粗糙。

输入“一个小女孩怀抱着布偶猫”的关键词，在豆包视频大模型发布前的内测版，第一次，AI似乎将布偶猫理解成了玩偶，生成的视频是怀抱着假猫，视频内的人脸也略显僵硬。

而等9月25日再次生成后，布偶猫又变成了田园猫，第三次生成时，才AI大模型才准确完成了指令。张洋告诉字母榜，作为首批内测的AI从业者，豆包视频大模型的使用效果并不算惊艳。

不过，豆包视频大模型可以切换3D动画、2D动画、国画、黑白、厚涂等不同风格，还可以选择随机运镜，或者自定义推近、拉远等运镜形式，相比起只提供16:9、9:16、1:1三种画面比例的可灵，豆包显然更加适配不同的画面比例，包括3:4、2:3、4:3、3:2等更多的比例选择。

在张洋看来，在用户的互动的体验上，豆包确实提供了更多的选择。不过，虽然豆包视频大模型可以实现一个prompt内的多镜头切换，但“整体画面的衔接仍有些不流畅，人物的表情有些失真。”

不过，张一鸣这次也毫不意外地将“实用主义”刻在了豆包视频大模型的基因里。

豆包视频大模型一经发布，便面向企业市场开启邀测，同时火山引擎总裁谭待更表示，豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐MV、微电影和短剧等。

不同于其他“拿着锤子找钉子”的AI创企，不论是字节还是快手，“本身有内容有平台，钉子在手，做视频大模型天然有着更多的应用场景。”张洋表示，

7月24日，可灵AI官方微信发文透露，目前申请权限的用户数已突破100万，并在同一天上线付费会员体系，包含黄金、铂金、钻石3个会员类别，年度会员价格从500多元到5000多元不等。对于姗姗来迟的字节而言，或许能在技术上与可灵不分上下，但在商业化路径上，已经开启C端付费的可灵，似乎再次快了一步。

5月，面对“OpenAI 在谷歌发布I/O的前一天发布GPT-4o”的问题，谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言，“当我们正处于AI的拐点上时，我看到的是机会，所以如果把这个时间线拉长，那么某一天发生的某一件事就都无关紧要了。”

如同被OpenAI时时抢跑的谷歌，晚来的字节，手握钉子，似乎打的还是后来居上的主意。

根据QuestMobile数据显示，截止到7月份，AI APP月活用户规模已突破6630万。其中，豆包、文小言、Kimi、星野、通义位居top5，月活用户规模分别为3042万、1008万、625万、466万、424万。

尽管豆包APP的发布时间明显晚于阿里的通义千问、更晚于百度的文心一言、Kimi，但豆包的月活用户规模已经大于其他四家APP用户活跃数的总和。

因此，在AI视频生成领域，面对国内技术突破迟滞的现状，字节也似乎有着晚来的底气。

不管是先出圈的可灵，还是姗姗来迟的字节豆包视频大模型，7月、9月扎堆推出视频大模型的厂商们，似乎谁都没能追赶上Sora。

从快手的《山海奇镜之劈波斩浪》，到字节的《三星堆:未来启示录》，用AI做短剧成为了头部厂商AI视频生成效果的“炼金石”。

显然，相比起需要真实人物出现并互动的传统短剧，神话、科幻等类型的短剧，更适合现阶段的AI大模型。

“现在的AI生成水平不稳定，大场景的炸弹爆炸、烟火升空等等的效果已经真假难辨，但也需要调试人员先生图，再进行1-2个小时的调整，”张洋告诉字母榜，现在的AI大模型生成的视频，更细节的人物表情和动作生成，仍然存在表情不自然，动作幅度小、表现形式机械的问题。

而AI短剧平台 Reel.AI 朱江也在采访中直言，“非动漫短剧预计要在今年下半年才能达到可消费水平。

李彦宏曾表示，“所谓领先12个月或落后18个月并不重要，每个公司都处在完全竞争的市场内，你不管做什么都有很多竞争对手。”

手握亿级用户规模的抖音APP，字节的从容不难解释。甚至如今还未发布视频大模型的腾讯，也手握着微信这一最大的社交APP，对于“手握钉子”的张一鸣和马化腾，他们似乎有着更多的选择。

“现在用哪家的视频大模型，都在抽卡。”

“生成10次里大概有1次能真的达到商用标准，但调试10次的过程，或许还不如人工更有效率。”试用过市面上的几家视频大模型后，影视从业者单杉直言，现在的大模型在生成效果上，没有达到用户的期望。

“输入生成一段布偶猫的视频，结果要不就是理解成玩具猫，要不就是田园猫，当用户2-3次试用无法得到稳定且超出预期的结果，就很难真正地完成用户留存”。在单杉眼里，这或许也能解释为何发布已超半年，Sora却迟迟没有公测。

年初便曾有报道称，OpenAI CEO奥特曼将投入7万亿美元与台积电合作建设晶圆厂，意在跳过英伟达自研芯片，而9月，OpenAI被爆出台积电正在为其“Sore视频模型”开发一款定制A16埃米级工艺芯片，目的在于提升其视频生成能力。

而这款A16的芯片，密度提升1.10倍，在相同工作电压下，速度提升了8%—10%;在相同速度下，功耗却降低了15%—20%。用“更低的价格和能耗，推进更快的AI视频生成”，显然是OpenAI押后Sora公测的重要原因。

想要实现更好的AI视频生成效果，更大的算力成本的支出，更低的价格和能耗，这也成为了国内视频大模型最终能否“跑出来”的关键因素。

而近日，字节又被爆出计划与台积电就AI芯片开展合作，尽管字节随后回应称报道不实，并表示在芯片领域的探索更多集中于推荐和广告的业务优化。但在字节招聘网页输入“芯片”等关键词，包含AI芯片架构、芯片SIL测试工程师在内，已经有200多个相关岗位。

但对于张一鸣乃至国内的大模型头部厂商而言，摆在他们面前的挑战或许更为棘手。

9月19日，在2024云栖大会上，月之暗面创始人杨植麟表示，GPT-o1的推出的主要意义在于提升了 AI上限。“提升10%的生产力，还是说10倍GDP，这里面最重要的问题，就是能不能通过强化学习去进一步scaling。”

在GPT-o1时代，当如今的豆包、通义千问、文心、Kimi的即时聊天，从思考10秒、20秒生成答案，到能够调用各种工具，去执行分钟级别甚至天级别的任务，国内用户已熟知的AI即时聊天产品形态将迎来巨大的改变，“AI更像人，或者一位助理”，这似乎成为了月之暗面们下一次追赶OpenAI的新赛程。

当新的竞争时刻再次到来，国内大模型厂商的基座大模型彼时未见“新水花”，但对于张一鸣们而言，则又一次面临抉择。

是将大把的“人、钱、算力”继续投向文生视频这样的功能场景做迭代，还是学习OpenAI，引进强化迭代路线?对于不缺钱的字节来说，当然可以“两个都要”。

而当“强化学习”带来的想象空间足够大、足够诱人，新的发令枪打响，没能起早的字节，这一次能冲在前头吗?

（文中张洋、单杉为化名）