微软MineWorld:基于《我的世界》的实时开源交互式世界模型

MineWorld是什么?

MineWorld是微软于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理、可行动的动态环境。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.jpg

MineWorld技术特点

  • 视觉-动作自回归 Transformer:MineWorld 利用视觉-动作自回归 Transformer 驱动模型,将游戏场景和动作转化为离散的 token ID,然后通过下一个 token 预测进行训练。

  • 并行解码算法:开发了一种新颖的并行解码算法,可同时预测每帧中的空间冗余 token,让不同规模的模型每秒生成 4 至 7 帧,实现与游戏玩家的实时互动。

  • 输入与输出:模型以游戏场景的初始图像和用户选择的动作作为输入,生成相应的下一个场景。

  • 评估指标:提出了新的评估指标,不仅可以评估视觉质量,还可以评估生成新场景时的动作跟随能力。

MineWorld应用

  • 具身智能研究:为具身智能研究提供了一个复杂且动态的虚拟测试平台。

  • 强化学习训练:可用于强化学习的训练,帮助智能体在模拟环境中学习和适应。

  • 交互式 ai 代理测试:为交互式 AI 代理的测试提供了一个实时的、可交互的环境。

MineWorld使用方式

  • Web Demo:用户可以通过运行特定命令启动网页游戏,通过本地或公共 URL 访问。用户可以选择初始帧、控制相机移动,并执行游戏动作,如跳跃、移动等。

  • 本地运行:用户也可以在本地运行模型,以复现论文中的评估结果。

微软MineWorld:基于《我的世界》的实时开源交互式世界模型.webp

MineWorld适用范围与限制

适用范围:MineWorld 专门针对《我的世界》游戏领域训练,仅适用于生成与游戏相关的场景。

限制:

  • 无法生成其他视频领域的结果(如互联网视频)。

  • 生成的视频分辨率有限,可能导致细节信息丢失。

  • 模型可能继承训练数据中的偏差、错误或遗漏。

  • 需要进一步测试和验证,才能考虑在商业或现实场景中应用。

MineWorld安装使用

1. 环境配置:

  • 克隆仓库:

git clone https://github.com/microsoft/mineworld.git
cd mineworld
  • 创建并激活 Conda 环境:

conda create -n mineworld python=3.10
conda activate mineworld
pip3 install -r requirements.txt
  • 推荐使用高性能 GPU(如 A100 或 H100)进行推理。

2. 下载预训练模型:

  • 下载预训练模型和相关配置文件,放置在 checkpoints 文件夹中。

  • 数据结构如下:

├── checkpoints
│   ├── 300M_16f.ckpt
│   ├── 700M_16f.ckpt
│   ├── 700M_32f.ckpt
│   ├── 1200M_16f.ckpt
│   └── 1200M_32f.ckpt
│   └── vae
│       ├── config.json
│       └── vae.ckpt
├── validation
│   └── validation.zip
└── gradio_scene
├── scene.mp4
└── scene.jsonl

3. 运行 Web Demo:

  • 使用以下命令启动 Web Demo:

python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
  • 访问本地或公共 URL,通过网页进行交互。

  • 可以选择初始帧、控制相机移动,并执行游戏动作(如跳跃、移动等)。

4. 本地推理:

  • 使用以下命令进行本地推理:

python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
  • 计算评估指标:

bash scripts/setup_metrics.sh
bash scripts/compute_metrics.sh

github:https://github.com/microsoft/MineWorld

收藏
最新工具
SearchAny
SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具,整合谷歌、...

支付宝百宝箱Tbox
支付宝百宝箱Tbox

一个零代码AI应用开发平台,用户可以通过自然语言就可以快速创建A...

Vanna AI
Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换...

Awesome GPT-4o Images
Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模...

OPPO小布助手网页版
OPPO小布助手网页版

网址是xiaobu.coloros.com ,融合满血版Deep...

OldPicRestore
OldPicRestore

一个免费的老照片修复工具,可修复老照片中的损坏、模糊和褪色问题,...

HaiSnap
HaiSnap

一个适合小白用户快速开发简单应用的零代码开发平台。用户只需描述需...

OpenCut
OpenCut

一款智能音视频剪辑工具,具备去水印、视频转GIF、音频提取、人声...

Singify
Singify

一款FineShare推出的在线AI音乐与歌曲生成器,可将文本、...

iFable AI
iFable AI

一个结合了冒险棋盘游戏、《龙与地下城》和视觉小说叙事元素的角色扮...