Embodied-Reasoner:浙江大学和阿里巴巴达摩院等机构联合提出的一个开源的多模态具身模型

Embodied-Reasoner是什么?

Embodied-Reasoner是由中科院软件所、浙江大学和阿里巴巴达摩院等机构联合提出的一个开源的多模态具身模型,它可以将深度推理能力扩展到具身交互任务中。能够处理复杂的具身任务,例如在 ai2-THOR 模拟器中搜索隐藏物体、操纵和运输物品等。

Embodied-Reasoner:浙江大学和阿里巴巴达摩院等机构联合提出的一个开源的多模态具身模型.jpg

Embodied-Reasoner核心特点

  • 深度推理能力:具备分析、空间推理、反思、规划等多种推理能力。

  • 多模态交互处理能力:能够处理长序列的图像-文本交互上下文。

  • 环境交互能力:可以自主观察环境、探索房间并找到隐藏物体。

  • 开源模型和数据集:

  • 提供 7B 和 2B 两种大小的开源模型。

  • 数据集包含 9.3k 交互式的观察-推理-行动轨迹,涵盖 64K 图像和 8M 思考标记。

Embodied-Reasoner技术亮点

  • 任务和轨迹引擎:自动合成连贯的“观察-思考-行动”轨迹,覆盖 107 种多样化的室内场景,如厨房和客厅,涉及 2,100 个交互对象和 2,600 个容器。

  • 长链思考与多样化思考模式:包括分析、空间推理、反思、规划和验证等,这些连贯的图像-文本交错轨迹增强了其空间和时间推理能力。

  • 迭代训练流程:结合模仿学习、自我探索调整和自我修正调整的三阶段迭代训练流程。

  • 交互式评估框架:包含 809 个测试用例,覆盖 12 种新颖场景,评估模型在指令理解、关键动作和最终状态方面的表现。

Embodied-Reasoner:浙江大学和阿里巴巴达摩院等机构联合提出的一个开源的多模态具身模型.webp

Embodied-Reasoner性能表现

  • 成功率(Success Rate):衡量任务是否成功完成。

  • 搜索效率(Search Efficiency):评估任务效率,步骤越多效率越低。

  • 任务完整性(Task Completeness):计算预测动作中属于关键动作的比例。

Embodied-Reasoner应用案例

  • 模拟器实验:Embodied-Reasoner 展现出自发的思考行为,例如分析环境状态、反思遗漏细节、基于最新观察进行推理以及回忆线索进行高效规划。相比之下,缺乏思考能力的通用 VLM 在长时域交互任务中表现不佳,容易忘记任务或重复搜索。

  • 真实世界实验:在真实环境中,Embodied-Reasoner 能够排除干扰,最终找到目标物体并完成任务,而 OpenAI 的 o3-mini 模型则无法制定合理计划。

Embodied-Reasoner使用指南

训练

1. 安装依赖:

conda create -n llama-factory python=3.11
conda activate llama-factory
git clone -b embodied-reasoner https://github.com/iGangao/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install wandb accelerate deepspeed importlib-metadata

2. 数据准备:参考 data/README.md 文件了解数据集文件的格式。

3. 运行训练脚本:运行训练脚本。

评估

1. 安装依赖:

conda create -n embodied-reasoner python=3.9
conda activate embodied-reasoner
pip install -r requirements.txt

2. 运行评估脚本:运行评估脚本。

数据引擎

  • TaskGenerate.py:合成任务模板和对应的关键动作。

  • o1StyleGenerate.pyo1StyleGenerate_ordered.py:分别为 10 种不同子任务类型合成轨迹,后者用于合成更复杂的顺序对象转移任务。

相关链接

GitHub项目主页:https://github.com/zwq2018/embodied_reasoner

Hugging Face 数据集:https://huggingface.co/datasets/embodied_reasoner

Arxiv 论文:https://arxiv.org/abs/2503.21696

收藏
最新工具
WordPress AI网站生成器
WordPress AI网站生成器

用户只需输入想法,AI 就能瞬间生成一个包含文本、布局和图片的功...

小鸽子助手
小鸽子助手

一款集成于WPS/Word的智能写作插件,融合DeepSeek等...

Awesome MCP ZH
Awesome MCP ZH

一个专为中文用户打造的 MCP资源合集! 包括有 MCP 的基础...

Awesome Chinese LLM
Awesome Chinese LLM

整理了开源的中文大语言模型(LLM),主要关注规模较小、可私有化...

Offerin AI
Offerin AI

一款基于GPT-4的AI面试笔试助手,支持实时语音识别、极速回答...

Giblify AI
Giblify AI

一个可将照片和视频转换为吉卜力风格的在线工具。它精准还原吉卜力动...

Doodlify
Doodlify

一个可将普通照片转化为涂鸦艺术插图的工具,适用于肖像、宠物、风景...

ChatPDFLocal
ChatPDFLocal

一款专为Mac用户设计的本地PDF阅读和处理工具,它结合了原生 ...

RSSFlow Reader
RSSFlow Reader

一款智能的RSS阅读器浏览器扩展,具有AI驱动的RSS摘要和多维...

OfficeAI助手
OfficeAI助手

OfficeAI助手是什么?OfficeAI助手是一款免费的智能...