MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统

MM-StoryAgent是什么?

MM-StoryAgent是上海交大和阿里开源的一款ai多模态故事生成系统,采用多智能体范式,能生成沉浸式的有声故事书视频。它融合了文本、图像、音频等多种元素,借助大型语言模型和一些专业工具,自动生成包含文字、图像以及多声道音频(旁白、音效、背景音乐)的故事视频,可用于儿童故事快速创作。

MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统.webp

MM-StoryAgent功能特点

  • 创作高质量故事:依据输入的故事设定,通过多智能体、多阶段的流程创作故事。采用自上而下构思草稿、自下而上生成素材的方式,解决手动干预、场景编排和叙事一致等问题。

  • 生成多模态内容:结合文本、图像、语音、音乐等模态生成沉浸式故事视频。将任务分解后分配给不同的专业“智能体”,如负责故事设计、故事板生成、视频创建等,模拟专业制作流程。

  • 支持定制化工作流:提供可靠且可定制的工作流程,用户能通过配置文件等方式自定义智能体行为,定义自己的专业工具来提升各组件生成质量。

  • 增强角色一致性:生成过程中注重角色和主题的一致性。采用定制化的图像转视频方法和新的故事板生成流程,保证镜头间主体一致。

  • 自动化且灵活:利用大型语言模型和专业工具,能将简单提示自动转换为多模态数字故事,无需参考视频就能生成连贯内容。

  • 便于评估优化:提供故事主题列表和评估标准,方便用户评估生成故事的质量并进行改进。

MM-StoryAgent核心技术

  • 多智能体框架运作机制:通过多阶段写作流程和多智能体协作创作故事,整合视觉、听觉和叙事元素,带来全方位感官体验。

  • 定制图像转视频方法:引入LoRA-BE这种定制的图像转视频方法,增强镜头内时间一致性,提升视频视觉质量。

MM-StoryAgent核心技术.webp

MM-StoryAgent使用方法

  1. 获取源代码:访问MM_StoryAgent的GitHub仓库(见下面链接),下载源代码。

  2. 安装依赖项:按照项目文档说明,安装Python库等必要的软件包。

  3. 配置环境:设置开发环境,确保依赖项正确安装,可能需要配置一些环境变量。

  4. 准备输入数据:准备好故事设定、角色描述、场景信息等数据用于故事创作。

  5. 运行生成过程:使用提供的脚本或命令行工具启动生成流程,可通过指定输入数据和参数定制故事。

  6. 查看评估结果:生成的视频形式的故事输出后,查看并评估质量和效果,按需调整。

  7. 优化迭代:根据评估结果调整输入数据或参数,重新运行生成流程优化故事内容和表现力 。

GitHub仓库:https://github.com/X-PLUG/MM_StoryAgent

收藏
最新工具
Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...

FotoForensics
FotoForensics

一个由Hacker Factor提供的在线图像篡改检测工具,主要...

PixPin
PixPin

一款功能强大、完全免费的截图、贴图工具,具备高效截图、图片标注、...

OceanDoc
OceanDoc

一款提供免费 AI PPT生成和写作辅助的工具,能将文本快速生成...

有道Clear
有道Clear

全球首款100%基于CPU驱动的实时声伴分离插件,提供实时音轨分...

BoomCut爆剪辑
BoomCut爆剪辑

小影科技旗下的 AI 内容创意产品与服务平台,提供一站式视频本地...

案牍AI
案牍AI

一款专为法律领域设计的智能工具,基于大型语言模型(LLM)技术,...

Keble.AI
Keble.AI

一个融合AI与数据的平台,能生成亚马逊产品分析报告,还可借助最新...