Ai应用
Ai资讯
AI生图
AI生视频
AI生PPT
AI数字人系统

首页 > Ai资讯 > Ai产品

MM_StoryAgent：上海交大和阿里开源的一款AI多模态故事生成系统

映技派于2025-03-11发布在Ai产品

MM-StoryAgent是什么？

MM-StoryAgent是上海交大和阿里开源的一款ai多模态故事生成系统，采用多智能体范式，能生成沉浸式的有声故事书视频。它融合了文本、图像、音频等多种元素，借助大型语言模型和一些专业工具，自动生成包含文字、图像以及多声道音频（旁白、音效、背景音乐）的故事视频，可用于儿童故事快速创作。

MM_StoryAgent：上海交大和阿里开源的一款AI多模态故事生成系统.webp

MM-StoryAgent功能特点

创作高质量故事：依据输入的故事设定，通过多智能体、多阶段的流程创作故事。采用自上而下构思草稿、自下而上生成素材的方式，解决手动干预、场景编排和叙事一致等问题。
生成多模态内容：结合文本、图像、语音、音乐等模态生成沉浸式故事视频。将任务分解后分配给不同的专业“智能体”，如负责故事设计、故事板生成、视频创建等，模拟专业制作流程。
支持定制化工作流：提供可靠且可定制的工作流程，用户能通过配置文件等方式自定义智能体行为，定义自己的专业工具来提升各组件生成质量。
增强角色一致性：生成过程中注重角色和主题的一致性。采用定制化的图像转视频方法和新的故事板生成流程，保证镜头间主体一致。
自动化且灵活：利用大型语言模型和专业工具，能将简单提示自动转换为多模态数字故事，无需参考视频就能生成连贯内容。
便于评估优化：提供故事主题列表和评估标准，方便用户评估生成故事的质量并进行改进。

MM-StoryAgent核心技术

多智能体框架运作机制：通过多阶段写作流程和多智能体协作创作故事，整合视觉、听觉和叙事元素，带来全方位感官体验。
定制图像转视频方法：引入LoRA-BE这种定制的图像转视频方法，增强镜头内时间一致性，提升视频视觉质量。

MM-StoryAgent核心技术.webp

MM-StoryAgent使用方法

获取源代码：访问MM_StoryAgent的GitHub仓库（见下面链接），下载源代码。
安装依赖项：按照项目文档说明，安装Python库等必要的软件包。
配置环境：设置开发环境，确保依赖项正确安装，可能需要配置一些环境变量。
准备输入数据：准备好故事设定、角色描述、场景信息等数据用于故事创作。
运行生成过程：使用提供的脚本或命令行工具启动生成流程，可通过指定输入数据和参数定制故事。
查看评估结果：生成的视频形式的故事输出后，查看并评估质量和效果，按需调整。
优化迭代：根据评估结果调整输入数据或参数，重新运行生成流程优化故事内容和表现力。

GitHub仓库：https://github.com/X-PLUG/MM_StoryAgent

收藏

VideoPainter：腾讯等开源的支持任意长度视频修复编辑工具，支持通过文字指令实现视频编辑

上一篇

VideoPainter：腾讯等开源的支持任意长度视频修复编辑工具，支持通过文字指令实现视频编辑

OpenManus-RL：一个提升LLM智能体的推理与决策能力开源项目

下一篇

OpenManus-RL：一个提升LLM智能体的推理与决策能力开源项目

相关文章

卷姬：OpenBMB开源社区推出的AI Agent代

卷姬：OpenBMB开源社区推出的AI Agent代

2025-04-24

Cooragent：一个开源的AI智能体协作社区，一

Cooragent：一个开源的AI智能体协作社区，一

2025-04-23

Langgraph-Mcp-Agents：一个集成M

Langgraph-Mcp-Agents：一个集成M

2025-04-22

LocAgent：一款开源的辅助代码定位的程序员工具

LocAgent：一款开源的辅助代码定位的程序员工具

2025-04-11

Genspark Super Agent：Gensp

Genspark Super Agent：Gensp

2025-04-03

AutoAgent：通过自然语言描述需求，就可快速创

AutoAgent：通过自然语言描述需求，就可快速创

2025-03-30

最新文章

最新工具

Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞

一个需求秒变软件的全流程自动化智能开发平台，码上飞是L4级无人软...

Simular AI

一款专为Mac用户设计的本地AI智能助手，它能通过自然语言处理执...

FotoForensics

一个由Hacker Factor提供的在线图像篡改检测工具，主要...

PixPin

一款功能强大、完全免费的截图、贴图工具，具备高效截图、图片标注、...

OceanDoc

一款提供免费 AI PPT生成和写作辅助的工具，能将文本快速生成...

有道Clear

全球首款100%基于CPU驱动的实时声伴分离插件，提供实时音轨分...

BoomCut爆剪辑

小影科技旗下的 AI 内容创意产品与服务平台，提供一站式视频本地...

案牍AI

一款专为法律领域设计的智能工具，基于大型语言模型（LLM）技术，...

Keble.AI

一个融合AI与数据的平台，能生成亚马逊产品分析报告，还可借助最新...

人生若只如初见

用户登录