OpenAI发布首个文本生成视频模型Sora：开启AI视频生成新纪元

Alice

Feb 19, 2024 - 14:12

Feb 23, 2024 - 11:07

0 154

图片来源：抖音

OpenAI于2024年2月16日发布了首个文本生成视频模型Sora，这是一个具有划时代意义的里程碑。这可能是近半年最具颠覆性的技术革命，因为它能创造出真正意义上的视频，而非Runway或者SDV之类，只能生成数秒、小范围运动轨迹的AI视频技术。Sora的发布标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃，为内容创作领域的专业难度降低，开启了AI视频生成新纪元。

Sora是一个通用的视觉数据模型，能够根据用户输入的文本描述生成高保真视频，最长可达一分钟。它继承了Dall•E-3的画质和遵循指令能力，可以根据用户的文本提示快速制作高保真视频，还能获取现有的静态图像并从中生成视频。该模型能够理解复杂场景中不同元素之间的物理属性及其关系，从而深度模拟真实物理世界，生成具有多个角色、包含特定运动的复杂场景。

Sora是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时仍保持一致。

OpenAI是由萨姆•奥尔特曼、埃隆•马斯克等人于2015年12月11日创立的一家人工智能公司。自成立以来，OpenAI一直在大模型领域进行深入探索。2022年11月，OpenAI推出了聊天机器人ChatGPT，该产品展现出了人工智能对比过去在文字理解力和逻辑能力上的超越。推出后仅两个月，用户活跃量便达到上亿规模。ChatGPT的推出对人工智能生成内容（AIGC）具有里程碑意义，引领了AIGC领域的全新变革。

Sora的发布是OpenAI在大模型领域探索的最新成果。Sora建立在过去对Dall•E和GPT模型的研究基础之上，继承了Dall•E-3的画质和遵循指令能力，可以通过用户的文本提示生成真实和想象的场景，生成的单个视频时长为1分钟以内，能创建有众多人物和背景、包含特定运动的复杂场景。

Sora的发布也引发了行业的广泛关注。2023年至2024年初，Meta、谷歌等科技企业陆续发布类似文本生成视频的AI模型。视觉算法在泛化性、可提示性、生成质量和稳定性等方面的突破已推动技术拐点到来以及爆款应用出现，3D资产生成、视频生成等领域受益于扩散算法成熟。

然而，Sora的发布也带来了一些挑战。Sora的局限性在于，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，在文本描述为“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的视频画面中，狼的数量会变化，一些狼会凭空出现或消失。该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

尽管如此，Sora的发布无疑是人工智能领域的一大进步。Sora的问世标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃，为实现通用人工智能（AGI）的目标迈出了重要一步。

Sora作为OpenAI推出的新型生成视频模型，受到了社会各界的广泛关注和高度评价。《麻省理工科技评论》对Sora的评价极高，认为它是一个令人惊叹的新型生成视频模型，将成为2024年值得关注的科技发展趋势之一。该杂志还指出，文本到视频生成是一个热门的研究方向，Sora的出现无疑为这一领域的发展注入了新的活力。

OpenAI的科学家蒂姆•布鲁克斯对Sora的评价也十分积极。他认为，建立能够理解视频的模型，并理解我们世界中所有这些非常复杂的交互，对于未来所有的人工智能系统而言，是非常重要的一步。这表明，Sora的出现不仅是OpenAI的一次重要突破，也对整个人工智能领域的发展产生了深远影响。

360创始人周鸿祎对Sora的诞生也表示了极大的兴趣。他认为，Sora的出现可能意味着实现通用人工智能（AGI）的时间可能从10年缩短至一两年。他指出，OpenAI利用其大语言模型的优势，使Sora实现了对现实世界的理解和模拟，这样生成的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。

中国社会科学院法学研究所副研究员唐林垚从公布的视频来看，认为Sora相较于其他视频类生成式AI，在画面清晰度、内容流畅度、表意深度和精彩程度方面都有大幅提升。这些评价都显示出Sora在人工智能领域的重要地位和巨大潜力。