MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统
MM-StoryAgent是什么?
MM-StoryAgent是上海交大和阿里开源的一款ai多模态故事生成系统,采用多智能体范式,能生成沉浸式的有声故事书视频。它融合了文本、图像、音频等多种元素,借助大型语言模型和一些专业工具,自动生成包含文字、图像以及多声道音频(旁白、音效、背景音乐)的故事视频,可用于儿童故事快速创作。
MM-StoryAgent功能特点
创作高质量故事:依据输入的故事设定,通过多智能体、多阶段的流程创作故事。采用自上而下构思草稿、自下而上生成素材的方式,解决手动干预、场景编排和叙事一致等问题。
生成多模态内容:结合文本、图像、语音、音乐等模态生成沉浸式故事视频。将任务分解后分配给不同的专业“智能体”,如负责故事设计、故事板生成、视频创建等,模拟专业制作流程。
支持定制化工作流:提供可靠且可定制的工作流程,用户能通过配置文件等方式自定义智能体行为,定义自己的专业工具来提升各组件生成质量。
增强角色一致性:生成过程中注重角色和主题的一致性。采用定制化的图像转视频方法和新的故事板生成流程,保证镜头间主体一致。
自动化且灵活:利用大型语言模型和专业工具,能将简单提示自动转换为多模态数字故事,无需参考视频就能生成连贯内容。
便于评估优化:提供故事主题列表和评估标准,方便用户评估生成故事的质量并进行改进。
MM-StoryAgent核心技术
多智能体框架运作机制:通过多阶段写作流程和多智能体协作创作故事,整合视觉、听觉和叙事元素,带来全方位感官体验。
定制图像转视频方法:引入LoRA-BE这种定制的图像转视频方法,增强镜头内时间一致性,提升视频视觉质量。
MM-StoryAgent使用方法
获取源代码:访问MM_StoryAgent的GitHub仓库(见下面链接),下载源代码。
安装依赖项:按照项目文档说明,安装Python库等必要的软件包。
配置环境:设置开发环境,确保依赖项正确安装,可能需要配置一些环境变量。
准备输入数据:准备好故事设定、角色描述、场景信息等数据用于故事创作。
运行生成过程:使用提供的脚本或命令行工具启动生成流程,可通过指定输入数据和参数定制故事。
查看评估结果:生成的视频形式的故事输出后,查看并评估质量和效果,按需调整。
优化迭代:根据评估结果调整输入数据或参数,重新运行生成流程优化故事内容和表现力 。
GitHub仓库:https://github.com/X-PLUG/MM_StoryAgent