UNO:字节跳动开发的一个多主体条件图像生成模型

UNO是什么?

UNO是由字节跳动研究团队开发的多主体条件图像生成模型,通过扩散变换器的上下文生成能力,生成高一致性的多主体配对数据。

UNO核心特点

  • 多图像条件生成:支持单主体和多主体驱动的图像生成,能够根据一张或多张参考图像生成新的图像。

  • 渐进式跨模态对齐:通过逐步对齐不同模态(如文本和图像)来提高生成一致性,分为两个阶段。第一阶段使用单主体上下文生成数据来微调预训练的文本到图像模型,使其成为一个主体到图像模型;第二阶段继续在生成的多主体数据对上进行训练。

  • 通用旋转位置嵌入:支持多种分辨率和长宽比的图像生成,能够有效缓解在扩展视觉主体控制时出现的属性混淆问题。

UNO核心特点.webp

UNO关键机制:

  • 渐进式跨模态对齐(Progressive Cross-Modal Alignment):分为两个阶段。第一阶段使用单主体上下文生成的数据微调预训练的文本到图像模型,使其成为一个主体到图像模型;第二阶段继续在生成的多主体数据对上进行训练。

  • 通用旋转位置嵌入(Universal Rotary Position Embedding,UnoPE):能够有效缓解在扩展视觉主体控制时出现的属性混淆问题,支持多种分辨率和长宽比的图像生成。

UNO工作原理

UNO利用扩散变换器的上下文生成能力,生成高一致性的多主体配对数据。它从一个文本到图像模型迭代训练而来,通过其独特的渐进式跨模态对齐和通用旋转位置嵌入等机制,实现了在单主体和多主体驱动生成中既能保持高一致性又能确保可控性。

UNO工作原理.jpg

UNO应用场景

  • 单主体生成:根据一张参考图像生成图像,例如可以根据一张时钟的图片生成一个时钟在海滩上的图像。

  • 多主体生成:根据多张参考图像生成图像,比如将一个玩偶的图片和水晶球的图片作为参考,生成玩偶在水晶球中的图像。

  • 上下文生成:通过上下文提示生成高一致性的图像,比如给出“一个带有红色太阳伞的海滩上的时钟”这样的提示,结合时钟的参考图像,生成符合描述的图像。

UNO使用方法

环境配置:

  • 创建虚拟环境并安装依赖:

python -m venv uno_env
source uno_env/bin/activate
pip install -r requirements.txt
  • 下载模型权重:自动下载(运行推理脚本时代码自动下载),或手动使用huggingface-cli下载权重到指定目录。

推理示例:运行以下命令生成图像:

python inference.py --prompt "A clock on the beach is under a red sun umbrella" --image_paths "assets/clock.png" --width 704 --height 704

训练:运行训练脚本:

accelerate launch train.py

相关链接

项目主页:https://bytedance.github.io/UNO

GitHub仓库:https://github.com/bytedance/UNO 

arXiv论文:https://arxiv.org/abs/2504.02160

演示:https://huggingface.co/spaces/bytedance-research/UNO-FLUX

收藏
最新工具
SearchAny
SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具,整合谷歌、...

支付宝百宝箱Tbox
支付宝百宝箱Tbox

一个零代码AI应用开发平台,用户可以通过自然语言就可以快速创建A...

Vanna AI
Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换...

Awesome GPT-4o Images
Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模...

OPPO小布助手网页版
OPPO小布助手网页版

网址是xiaobu.coloros.com ,融合满血版Deep...

OldPicRestore
OldPicRestore

一个免费的老照片修复工具,可修复老照片中的损坏、模糊和褪色问题,...

HaiSnap
HaiSnap

一个适合小白用户快速开发简单应用的零代码开发平台。用户只需描述需...

OpenCut
OpenCut

一款智能音视频剪辑工具,具备去水印、视频转GIF、音频提取、人声...

Singify
Singify

一款FineShare推出的在线AI音乐与歌曲生成器,可将文本、...

iFable AI
iFable AI

一个结合了冒险棋盘游戏、《龙与地下城》和视觉小说叙事元素的角色扮...