Leffa:Meta AI开源的用于可控人物图像生成的工具,适用于虚拟试穿。
Leffa是什么?
Leffa,全称为Learning Flow Fields in Attention,是由Meta ai开发并开源的一款图像生成技术。Leffa 是一个统一框架,通过学习注意力中的流场(flow fields),引导目标查询在训练期间正确关注参考图像中的关键区域。 该方法通过在基于扩散模型的基线中引入一种正则化损失函数,显著减少了细节失真,同时保持了高质量的图像生成。 该技术不仅适用于虚拟试穿,还支持姿势转移,并且可以扩展到其他扩散模型。
Leffa核心特点
精确控制:Leffa能够实现虚拟试衣(将特定衣物图像自然地应用到人物上)和姿势迁移(将一个人物的姿势转移到另一个图像中),同时保持人物的原有特征和细节清晰。
高质量生成:通过正则化损失函数和渐进式训练策略,Leffa优化了模型性能,确保生成的图像具有高分辨率和细节保真度,减少了纹理模糊和变形问题,。例如,在生成穿着特定服装的人物图像时,Leffa 可以很好地保留服装的纹理和图案。
模型无关性与泛化能力:Leffa设计为能够集成到不同的扩散模型中,无需额外参数,这表明它具有良好的通用性和适应性,可以应用于多种AI图像生成场景。
高效运行:在高性能硬件上,如A100 GPU,Leffa能够在6秒内生成高质量的人物图像,支持float16加速,适合快速生成需求。
轻量级部署:支持本地部署、云端推理,并且与Hugging Face等平台集成,便于开发者和企业快速集成到现有AI工作流程中。
Leffa的技术原理
注意力机制:基于注意力机制,用注意力层将目标图像(待生成的人物图像)与参考图像(提供外观或姿势的图像)关联起来。
流场学习:基于学习注意力层中的流场(flow fields),显式指导目标查询(target query)关注于参考键(reference key)的正确区域。
正则化损失:在注意力图上施加正则化损失,将参考图像变形以更紧密地与目标图像对齐,鼓励模型在训练期间正确关注参考区域。
空间一致性:基于转换注意力图到流场,用网格采样操作将参考图像变形,确保目标查询与参考图像之间的空间一致性。
模型无关性:作为正则化损失函数,集成到不同的扩散模型中,无需额外参数或复杂的训练技术。
渐进式训练:在训练的最后阶段应用,避免早期性能退化,基于结合传统的扩散损失和Leffa损失进行微调,优化模型性能。
Leffa的应用场景
虚拟试穿:在电子商务和时尚行业中,创建虚拟试衣间,让消费者在线上看到自己穿上不同服装的样子,无需实际试穿。
增强现实(AR):在AR应用中,实时改变或添加用户的外观和服装,提供更加沉浸式的体验。
游戏和娱乐:在游戏开发中,用在角色定制,玩家根据自己的喜好调整角色的外观和姿态。
电影和视频制作:在电影后期制作中,生成或修改人物形象。
Leffa的开源信息
论文:https://arxiv.org/pdf/2412.08486
GitHub仓库:https://github.com/franciszzj/Leffa
在线体验Demo:https://huggingface.co/spaces/franciszzj/Leffa
HuggingFace模型库:https://huggingface.co/franciszzj/Leffa