Tora

阿里巴巴推出的AI视频生成框架，基于轨迹导向的扩散变换器（DiT）技术，能够将文本、视觉和轨迹条件融合，生成高质量且符合物理世界的动态视频。

#Ai工具箱 #Ai视频生成

访问Tora

Tora简介

阿里Tora视频是阿里巴巴推出的ai视频生成框架，基于轨迹导向的扩散变换器（DiT）技术，能够将文本、视觉和轨迹条件融合，生成高质量且符合物理世界的动态视频。

Tora主要功能特点：

轨迹导向的视频生成：Tora能够根据给定的轨迹生成视频，保持运动的一致性和准确性。轨迹提取器（Trajectory Extractor, TE）将输入的轨迹转换成层次化的时空运动块，这些运动块与视频内容的潜在空间相匹配。

多模态输入整合：Tora支持文本、图像和轨迹条件的同时输入，实现多维度的视频内容控制。这意味着用户可以通过文字描述、图片或物体移动的路线来生成视频。

高分辨率视频输出：Tora能够在720p的高分辨率下生成长达204帧的视频，保证视频质量。这使得生成的视频不仅画面清晰，而且运动流畅。

物理世界动态模拟：Tora生成的视频运动效果贴近现实世界的物理动态，如重力和动力学原理。通过时空扩散变换器（Spatial-Temporal DiT），Tora能够处理视频数据，使模型理解和生成具有连贯运动的视频。

灵活的内容创作：Tora支持不同时长、宽高比和分辨率的视频生成，满足多样化的创作需求。无论是短视频还是长视频，无论是标准宽高比还是自定义宽高比，Tora都能适应。

运动引导融合器（Motion-guidance Fuser, MGF）：该组件负责将轨迹提取器生成的时空运动块整合到DiT模型中，确保生成的视频内容遵循预定的轨迹和动态。MGF通过自适应归一化层将运动补丁整合到DiT块中，精确控制视频内容的动态。

两阶段训练策略：为了让Tora更好地理解和生成运动，通过一个两阶段的训练过程来学习。首先使用密集光流进行训练，然后使用稀疏轨迹进行微调，提高模型对运动控制的灵活性和准确性。

数据预处理：在训练之前，Tora需要对视频数据进行一些处理，比如根据场景检测将长视频分割成短片段，然后根据美学评分和运动分割结果选择适合训练的视频片段。

Tora主要功能模块

轨迹提取器（Trajectory Extractor, TE）：将输入的轨迹转换成层次化的时空运动块，这些运动块与视频内容的潜在空间相匹配。

时空扩散变换器（Spatial-Temporal DiT）：结合空间和时间的自注意力机制，处理视频数据，使模型能够理解和生成具有连贯运动的视频。

运动引导融合器（Motion-guidance Fuser, MGF）：负责将轨迹提取器生成的时空运动块整合到DiT模型中，确保生成的视频内容遵循预定的轨迹和动态。

Tora应用场景：

影视制作：在影视制作中，Tora可以用于生成电影、电视剧或短片中的特效场景，通过轨迹控制生成复杂的动态画面，减少实际拍摄成本和时间。

动画创作：根据脚本自动生成动画序列，为动画师提供初步的动态草图，加速创作过程。

虚拟现实（VR）和增强现实（AR）：生成与用户互动的动态环境，为VR和AR应用提供逼真的视觉效果。

游戏开发：快速生成游戏环境和角色动画，提高游戏设计的效率。

Tora访问方法：

Tora项目官网：https://ali-videoai.github.io/tora_video/

Tora GitHub仓库：https://github.com/ali-videoai/Tora

Tora arXiv技术论文：https://arxiv.org/pdf/2407.21705

总的来说，Tora生成的视频质量非常高，能够生成10到60秒的高分辨率视频，并且在不同分辨率和纵横比下表现出色。Tora的视频不仅流畅，而且能够细致地模拟物理世界的运动。Tora的轨迹控制功能也得到了用户的高度评价。