首页 > Ai资讯 > Ai产品

Sora是什么？这篇综合指南为你说清楚！

小编于2024-02-19发布在Ai产品

Sora是什么?

1、Sora介绍：

Sora是由美国人工智能 (ai) 研究组织 OpenAI 开发的文字转视频模型。它可以根据描述性提示生成视频，并及时向前或向后扩展现有视频。截至 2024 年 2 月，它尚未发布和向公众开放。

Sora 代表了 Ai技术的重大飞跃，无论您是希望简化制作流程的电影制作人，还是希望将想法变为现实的内容创作者，Sora 都能为视觉叙事提供强大的工具集。

在 Sora 之前已经创建了其他几个文本到视频生成模型，包括 Meta 的 Make-A-Video、Runway 的 Gen-2 和谷歌的 Lumiere，其中最后一个是截至 2024 年 2 月，也仍处于研究阶段。Sora 背后的公司 OpenAI 发布了 DALL·E 3，其 DALL-E 文本到图像模型的第三个，将于 2023 年 9 月推出。

开发 Sora 的团队以日语中天空的意思来命名它，象征着它“无限的创造潜力”。 2024 年 2 月 15 日，OpenAI 首次预览了 Sora，发布了多段其制作的高清视频片段，其中包括一辆 SUV 行驶在山路上、旁边有一个“短毛怪”的动画一根蜡烛、两个人在雪地里走过东京，以及加州淘金热的虚假历史镜头，并表示它能够生成长达一分钟的视频。该公司随后分享了一份技术报告，其中重点介绍了用于训练模型的方法。 OpenAI 首席执行官 Sam Altman 还发布了一系列推文，用 Sora 生成的提示视频回应 Twitter 用户的提示，更多视频可以看下这个OpenAI Sora官方视频合集。

2、Sora什么时候可以用？

由于担心Sora可能被滥用，OpenAI表示目前没有计划向公众发布该模型，而是给予小部分研究人员有限的访问权限，以理解模型的潜在危害。Sora生成的视频带有C2PA元数据标签，以表示它们是由人工智能模型生成的。

OpenAI 表示，它计划向公众开放 Sora，但不会很快，什么时候可以用，它没有具体说明。该公司向一个小型“红队”提供了有限的访问权限，其中包括错误信息和偏见方面的专家，以对模型进行对抗性测试。该公司还与一小群创意专业人士（包括视频制作者和艺术家）分享了 Sora，以寻求有关其在创意领域实用性的反馈。

3、Sora的工作原理：

Sora 的核心是作为"数据驱动的物理引擎”运行，仔细分析文本输入以了解物理世界并渲染栩栩如生的视频。通过利用复杂的算法和深度学习技术，Sora 可以生成具有多个角色、动态运动和详细背景的复杂场景。

Sora 背后的技术是对 DALL-E 3 背后技术的改编。根据 OpenAI 的说法，Sora 是一个扩散变压器——一种以一个 Transformer 作为降噪器的去噪潜在扩散模型。通过对 3D“补丁”进行去噪，在潜在空间中生成视频，然后通过视频解压缩器转换为标准空间。重新字幕用于通过使用视频转文本模型在视频上创建详细的字幕来增强训练数据。

4、Sora的主要特点：