微软MineWorld:基于《我的世界》的实时开源交互式世界模型
MineWorld是什么?
MineWorld是微软于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理、可行动的动态环境。
MineWorld技术特点
视觉-动作自回归 Transformer:MineWorld 利用视觉-动作自回归 Transformer 驱动模型,将游戏场景和动作转化为离散的 token ID,然后通过下一个 token 预测进行训练。
并行解码算法:开发了一种新颖的并行解码算法,可同时预测每帧中的空间冗余 token,让不同规模的模型每秒生成 4 至 7 帧,实现与游戏玩家的实时互动。
输入与输出:模型以游戏场景的初始图像和用户选择的动作作为输入,生成相应的下一个场景。
评估指标:提出了新的评估指标,不仅可以评估视觉质量,还可以评估生成新场景时的动作跟随能力。
MineWorld应用
具身智能研究:为具身智能研究提供了一个复杂且动态的虚拟测试平台。
强化学习训练:可用于强化学习的训练,帮助智能体在模拟环境中学习和适应。
交互式 ai 代理测试:为交互式 AI 代理的测试提供了一个实时的、可交互的环境。
MineWorld使用方式
Web Demo:用户可以通过运行特定命令启动网页游戏,通过本地或公共 URL 访问。用户可以选择初始帧、控制相机移动,并执行游戏动作,如跳跃、移动等。
本地运行:用户也可以在本地运行模型,以复现论文中的评估结果。
MineWorld适用范围与限制
适用范围:MineWorld 专门针对《我的世界》游戏领域训练,仅适用于生成与游戏相关的场景。
限制:
无法生成其他视频领域的结果(如互联网视频)。
生成的视频分辨率有限,可能导致细节信息丢失。
模型可能继承训练数据中的偏差、错误或遗漏。
需要进一步测试和验证,才能考虑在商业或现实场景中应用。
MineWorld安装使用
1. 环境配置:
克隆仓库:
git clone https://github.com/microsoft/mineworld.git cd mineworld
创建并激活 Conda 环境:
conda create -n mineworld python=3.10 conda activate mineworld pip3 install -r requirements.txt
推荐使用高性能 GPU(如 A100 或 H100)进行推理。
2. 下载预训练模型:
下载预训练模型和相关配置文件,放置在 checkpoints 文件夹中。
数据结构如下:
├── checkpoints │ ├── 300M_16f.ckpt │ ├── 700M_16f.ckpt │ ├── 700M_32f.ckpt │ ├── 1200M_16f.ckpt │ └── 1200M_32f.ckpt │ └── vae │ ├── config.json │ └── vae.ckpt ├── validation │ └── validation.zip └── gradio_scene ├── scene.mp4 └── scene.jsonl
3. 运行 Web Demo:
使用以下命令启动 Web Demo:
python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
访问本地或公共 URL,通过网页进行交互。
可以选择初始帧、控制相机移动,并执行游戏动作(如跳跃、移动等)。
4. 本地推理:
使用以下命令进行本地推理:
python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
计算评估指标:
bash scripts/setup_metrics.sh bash scripts/compute_metrics.sh
github:https://github.com/microsoft/MineWorld