SmolDocling:将复杂的文档转换为结构化文本的轻量型视觉语言模型

SmolDocling是什么?

SmolDocling 是由 IBM Research 和 Hugging Face 联合开发的轻量型视觉语言模型,专为端到端多模态文档转换而设计。它仅包含 256M 参数,能够在消费级 GPU 上快速处理文档,每页文档的处理时间仅需 0.35 秒。SmolDocling 的核心使命是将任意图片中的复杂内容转化为可编辑的结构化数据。

SmolDocling功能

  • DocTags 用于高效标记:引入 DocTags,这是一种高效且简洁的文档表示方式,与 DoclingDocuments 完全兼容。

  • OCR(光学字符识别):能够从图像中准确提取文本。

  • 布局和定位:保留文档结构和文档元素的 边界框。

  • 代码识别:检测并格式化代码块,包括缩进。

  • 公式识别:识别并处理数学表达式。

  • 图表识别:提取并解释图表数据。

  • 表格识别:支持带列标题和行标题的结构化表格提取。

  • 图形分类:区分图形和图形元素。

  • 标题对应:将标题与相关图像和图形链接起来。

  • 列表分组:正确组织和结构化列表元素。

  • 全页转换:处理整个页面,包括页面上的所有元素(代码、方程、表格、图表等)。

  • OCR 带边界框:使用边界框进行 OCR 区域识别。

  • 通用文档处理:适用于科学和非科学文档的训练。

  • 无缝 Docling 集成:可以导入到 Docling 并以多种格式导出(如 HTML、Markdown 等)。

  • 快速推理:在 A100 GPU 上平均每页处理时间为 0.35 秒。

SmolDocling:将复杂的图像、PDF文档高效转换为结构化文本.webp

模型扩展与优化

  • 支持多种指令:支持多种指令,例如将页面转换为 DocTags、将图表转换为表格、将公式转换为 LaTeX 等。

  • 多语言支持:虽然主要支持英语,但可能通过扩展支持更多语言。

  • 持续改进:改进图表识别、支持多页推理、化学识别等功能。

SmolDocling应用场景

  • 学术研究:快速将学术论文和研究报告转换为结构化格式,便于提取关键信息。

  • 商业文档处理:自动转换商业合同、报告和表格,便于企业进行文档存储、检索和分析。

  • 技术文档管理:将技术手册、代码文档等转换为可编辑格式,支持代码片段的准确识别和格式化。

  • 教育领域:将教材、讲义中的内容(如公式、图表)提取并转换为易于理解的格式。

  • 医疗文档处理:处理医疗报告和研究论文,提取关键信息,辅助医疗决策。

  • 移动与低资源设备支持:可在移动设备或资源受限的环境中运行。

SmolDocling使用方法

  1. 模型下载:可以从 Hugging Face 模型库下载 SmolDocling。

  2. 本地部署:由于其体积小,可在普通笔记本电脑或移动设备上运行。

  3. API 调用:可以通过 Hugging Face 提供的 API 接口调用 SmolDocling。

  4. 微调模型:开发者可以通过微调模型适配特定场景,如医疗报告解析、财务表格识别。

Hugging Face 模型库:https://huggingface.co/ds4sd/SmolDocling-256M-preview

DEMO:https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo

收藏

相关文章

最新工具
Awesome LangGraph
Awesome LangGraph

一份精心整理的 LangGraph 资源合集,涵盖了基础介绍、入...

VDSpeak
VDSpeak

一个专注于为YouTube视频提供多语言翻译和配音服务的在线工具...

PydanticAI
PydanticAI

一个Pydantic 团队开发的Python代理框架,可以通过生...

AutoGLM沉思
AutoGLM沉思

智谱推出的一款集深度研究与实际操作能力于一体的AI Agent产...

JustAI
JustAI

一款AI文案写作与营销工具,能生成多场景文案,包括小红书笔记、抖...

巧文书
巧文书

原通答AI,一款专为企业打造的AI智能写标书工具,通过AI大模型...

Ai2 Paper Finder
Ai2 Paper Finder

一款由艾伦AI研究所发布的基于LLM的文献搜索系统,Ai2 Pa...

Vivago AI
Vivago AI

北京智象未来科技有限公司面向全球市场推出的一款综合性在线 AI ...

Ghibli AI
Ghibli AI

一款专门用于生成吉卜力风格的AI图像生成器,能够根据用户的文本描...

快出题
快出题

金数据旗下的一款AI驱动的在线考试软件,能够快速生成题库并自动组...