StarVector:用于生成可缩放矢量图形的开源多模态视觉模型

StarVector是什么?

StarVector 是一种由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 联合开发的新型开源多模态视觉-语言模型,专门用于生成可缩放矢量图形(SVG)。

StarVector:用于生成可缩放矢量图形的开源多模态视觉模型.webp

StarVector核心功能

  • 图像到 SVG 的转换(Image-to-SVG):能够将图像直接转换为 SVG 代码,实现图像的矢量化。

  • 文本到 SVG 的生成(Text-to-SVG):可以根据文本指令生成相应的 SVG 图形。

StarVector技术特点

  • 多模态架构:StarVector 采用多模态架构,能够同时处理图像和文本信息,将视觉和语言模型无缝集成。

  • 直接操作 SVG 代码空间:与一些中间表示方法不同,StarVector 直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 代码。

  • 大规模数据集训练:StarVector 在包含超过 200 万个 SVG 样本的 SVG-Stack 数据集上进行训练,确保模型能够泛化到各种矢量化任务。

  • 两种规模模型:提供 StarVector-1B(包含 10 亿参数)和 StarVector-8B(包含 80 亿参数)两种模型,以满足不同计算资源和性能需求。

StarVector架构与原理

  • 图像编码器:使用 Vision Transformer(ViT)处理图像,将图像分割成小块并依次处理。

  • LLM 适配器:将图像编码器生成的嵌入向量非线性投影到视觉标记,以便与语言模型集成。

  • Transformer 解码器架构:将视觉标记或文本标记序列映射到 SVG 代码。

StarVector性能表现

在图像到 SVG 和文本到 SVG 的任务中,StarVector 的性能优于现有模型,例如在 SVG-Bench 基准测试中,StarVector-8B 在多个指标上均优于 GPT-4 Vision(2023)和 Potrace 等模型。

在 SVG-Diagrams 数据集的图像矢量化任务中,StarVector-8B 在 DinoScore 和 LPIPS 等指标上表现优异。

StarVector应用场景

  • 设计与创意领域:帮助设计师快速生成 SVG 文件,提高设计效率。

  • 技术绘图与图表生成:能够生成复杂的技术图表和图形,适用于工程、科学等领域。

StarVector相关链接

项目地址:https://starvector.github.io/

StarVector GitHub 仓库:https://github.com/starvector

StarVector 论文:https://arxiv.org/html/2312.11556v3

收藏

相关文章

最新工具
AutoGLM沉思
AutoGLM沉思

智谱推出的一款集深度研究与实际操作能力于一体的AI Agent产...

JustAI
JustAI

一款AI文案写作与营销工具,能生成多场景文案,包括小红书笔记、抖...

巧文书
巧文书

原通答AI,一款专为企业打造的AI智能写标书工具,通过AI大模型...

Ai2 Paper Finder
Ai2 Paper Finder

一款由艾伦AI研究所发布的基于LLM的文献搜索系统,Ai2 Pa...

Vivago AI
Vivago AI

北京智象未来科技有限公司面向全球市场推出的一款综合性在线 AI ...

Ghibli AI
Ghibli AI

一款专门用于生成吉卜力风格的AI图像生成器,能够根据用户的文本描...

快出题
快出题

金数据旗下的一款AI驱动的在线考试软件,能够快速生成题库并自动组...

BotSharp
BotSharp

一个基于.NET开发的开源AI多智能体应用开发框架,它可以快速将...

Seede AI
Seede AI

一款简单易用的AI驱动设计工具,只需输入文字描述或上传参考图片,...

Colors
Colors

一个开源的学术期刊配色推荐器,收集整理了众多高质量论文插图的配色...