OmniSVG:复旦大学和StepFun联合推出的开源多模态SVG生成模型
OmniSVG是什么?
OmniSVG是由复旦大学和StepFun联合推出的开源多模态SVG生成模型,能够通过文本、图像或角色参考生成高质量矢量图形,于2025年4月9日正式发布。
OmniSVG技术原理
OmniSVG 基于预训练的视觉-语言模型(VLM)Qwen-VL 构建,并创新性地集成了 SVG 标记化器。通过将 SVG 命令和坐标参数化为离散的令牌(tokens),OmniSVG 成功地将矢量图形的结构逻辑与低级几何细节解耦。这种设计不仅提高了训练效率,还将训练速度提升了3倍以上,同时保留了生成复杂 SVG 结构的能力。
OmniSVG生成模式
文本生成SVG:用户可以通过自然语言描述生成语义相关的矢量图形,例如输入“坐在樱花树下的卡通猫”。
图像生成SVG:自动将位图(如照片或手绘草图)转换为由路径组成的矢量图形,保留原始图像的视觉特征,同时获得可编辑性。
角色参考SVG:基于现有角色图像生成具有相同角色特征但姿势或场景不同的矢量图形,对动画和游戏角色设计特别有价值。
数据集与评估协议
为了推动 SVG 生成技术的发展,OmniSVG 团队发布了 MMSVG-2M 数据集。这是一个包含200万个丰富注释的 SVG 资源的多模态数据集,涵盖图标、插图和角色三大子集。此外,他们还提出了一个标准化的评估协议 MMSVG-Bench,用于测试条件 SVG 生成任务的性能。
OmniSVG优势
与传统方法相比,OmniSVG 克服了以往 SVG 生成技术的一些核心难题:
传统方法往往生成结构松散、计算成本高昂的结果,或者局限于单色、过于简化的图标。
OmniSVG 通过端到端的多模态生成框架,显著提升了生成质量和复杂性,能够生成色彩丰富、细节生动的矢量图形。
OmniSVG应用场景
适用于UI/UX设计、动漫角色创作、工业CAD等场景
生成SVG可直接编辑,支持无限放大不失真
项目地址:https://omnisvg.github.io/
代码仓库:https://github.com/OmniSVG/OmniSVG
论文地址:https://arxiv.org/pdf/2504.06263