OmniSVG:复旦大学和StepFun联合推出的开源多模态SVG生成模型

OmniSVG是什么?

OmniSVG是由复旦大学和StepFun联合推出的开源多模态SVG生成模型,能够通过文本、图像或角色参考生成高质量矢量图形,于2025年4月9日正式发布。

OmniSVG技术原理

OmniSVG 基于预训练的视觉-语言模型(VLM)Qwen-VL 构建,并创新性地集成了 SVG 标记化器。通过将 SVG 命令和坐标参数化为离散的令牌(tokens),OmniSVG 成功地将矢量图形的结构逻辑与低级几何细节解耦。这种设计不仅提高了训练效率,还将训练速度提升了3倍以上,同时保留了生成复杂 SVG 结构的能力。

OmniSVG技术原理.webp

OmniSVG生成模式

  • 文本生成SVG:用户可以通过自然语言描述生成语义相关的矢量图形,例如输入“坐在樱花树下的卡通猫”。

  • 图像生成SVG:自动将位图(如照片或手绘草图)转换为由路径组成的矢量图形,保留原始图像的视觉特征,同时获得可编辑性。

  • 角色参考SVG:基于现有角色图像生成具有相同角色特征但姿势或场景不同的矢量图形,对动画和游戏角色设计特别有价值。

数据集与评估协议

为了推动 SVG 生成技术的发展,OmniSVG 团队发布了 MMSVG-2M 数据集。这是一个包含200万个丰富注释的 SVG 资源的多模态数据集,涵盖图标、插图和角色三大子集。此外,他们还提出了一个标准化的评估协议 MMSVG-Bench,用于测试条件 SVG 生成任务的性能。

数据集与评估协议.webp

OmniSVG优势

  • 与传统方法相比,OmniSVG 克服了以往 SVG 生成技术的一些核心难题:

  • 传统方法往往生成结构松散、计算成本高昂的结果,或者局限于单色、过于简化的图标。

  • OmniSVG 通过端到端的多模态生成框架,显著提升了生成质量和复杂性,能够生成色彩丰富、细节生动的矢量图形。

OmniSVG应用场景.webp

OmniSVG应用场景

  • 适用于UI/UX设计、动漫角色创作、工业CAD等场景

  • 生成SVG可直接编辑,支持无限放大不失真

项目地址:https://omnisvg.github.io/

代码仓库:https://github.com/OmniSVG/OmniSVG

论文地址:https://arxiv.org/pdf/2504.06263

收藏

相关文章

最新工具
Pippit AI
Pippit AI

一款由 CapCut 推出的专注于营销内容生产的AI创作工具。用...

PPT AI
PPT AI

一个在线AIPPT生成平台。通过 AI 的智能内容分析,将文本、...

DroidRun
DroidRun

一款可以通过AI代理实现Android设备的自动化操作开源框架,...

CloneUI
CloneUI

一款强大的AI驱动的图片转代码工具,能够将截图、网址或 Figm...

PaneFlow
PaneFlow

一款所见即所得的PPT制作工具,它采用拖拽式界面,用户可以通过简...

SearchAny
SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具,整合谷歌、...

支付宝百宝箱Tbox
支付宝百宝箱Tbox

一个零代码AI应用开发平台,用户可以通过自然语言就可以快速创建A...

Vanna AI
Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换...

Awesome GPT-4o Images
Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模...

OPPO小布助手网页版
OPPO小布助手网页版

网址是xiaobu.coloros.com ,融合满血版Deep...