OpenAI首个文生视频模型Sora发布！可生成60秒一镜到底视频做视频的都要失业了吗-麦子文章

2月17日消息，一句话就能生成长达1分钟的高清视频，OpenAI实现了。

日前，打造ChatGPT的开放人工智能公司OpenAI发布了首个文生视频模型Sora。

该模型可以根据用户输入的指令，生成长达1分钟的高清视频，也能通过现有的静态图像生成视频，还能对现有视频进行扩展、填充缺失内容。

据介绍，该模型能生成包含多个角色，以及特定类型运动的复杂场景，能精确生成物体和背景的细节。

在官网上已经更新了48个视频实例中，Sora能够准确呈现视频细节，还能深刻理解物体在现实世界中的存在状态，并生成具有丰富情感的角色。

比如，在一段视频中，镜头从俯视白雪覆盖的东京，慢慢推进到两个行人在街道上手牵手行走，街旁的樱花树和摊位的画面均细致呈现。

当然，目前的Sora模型依然存在缺陷，比如它可能难以精准模拟复杂场景的物理状况，也能无法理解一些特定的因果和时间联系等。

举个例子，视频中的人物可能会咬一口饼干，但饼干上可能看不到明显的咬痕。

在处理空间细节，比如分辨左右时，Sora也可能会出现混淆；在精确描述一段时间内发生的事件，如特定的摄影机移动轨迹时，也可能显得力不从心。

目前，该模型仅向有限数量的创作者提供访问权限。

Sora发布后，不少分析认为，这将对于广告业、电影预告片、短视频行业带来巨大的颠覆，不少视频从业者或将失业。

不过，也有业内人士认为，短期内较难带来颠覆性影响。

据报道，前百度产品委员会主席宋健表示：Sora确实很牛，但如果认为三年后就没人拍视频了，抖音Tiktok会被很快颠覆，那还是为时过早。

360集团创始人周鸿祎也表示，今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但速度不一定那么快。

“AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。很多人谈到Sora对影视工业的打击，我倒不觉得是这样，因为机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败TikTok，更可能成为TikTok的创作工具。”

周鸿祎认为，大语言模型的厉害之处在于，能完整地理解这个世界的知识。而此前所有的文生图、文生视频都是在2D平面上对图形元素进行操作，并没有适用物理定律。

“这次很多人从技术上、从产品体验上分析Sora，强调它能输出60秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象。最重要的是Sora的技术思路完全不一样。Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。”

周鸿祎预测，Sora的出现，或意味着AGI（通用人工智能）实现将从10年缩短到1年。