Ovis:阿里国际发布的最新开源多模态模型

阿里国际于2024年9月19日发布了最新的多模态大模型Ovis,Ovis模型在多个领域展现出色的能力,特别是在数学推理问答、物体识别、文本提取和复杂任务决策等方面。

阿里国际发布的最新开源多模态模型

根据多模态评测平台OpenCompass的数据,Ovis1.6-Gemma2-9B版本在OpenCompass这一权威综合评测基准上,超越了多个知名开源模型,包括Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6,在300亿参数以下的开源模型中位居第一。值得注意的是,Ovis在某些任务上的表现甚至超过了闭源的大型模型GPT-4o-mini。

Ovis的核心能力:

  • 多模态任务处理:Ovis能够出色地完成视觉感知推理、数学和科学理解、生活场景分析等多模态任务。它不仅能够辅助理解复杂的数学概念,还能帮助分析财务报表,甚至根据图片指导烹饪过程,如制作炸鱼薯条。

  • 技术细节:Ovis的设计亮点在于其结构上对齐视觉和文本嵌入的方式,通过引入可学习的视觉嵌入表,将连续视觉特征转换为概率化的token,再生成结构化的视觉嵌入,这克服了传统多模态模型中视觉与文本信息融合的限制。

  • 性能与优势:Ovis在数学推理和视觉理解等任务中的得分表现出色,甚至媲美一些参数量级更高的模型。它在幻觉现象和错误率方面的控制也优于同级别模型,确保了高文本质量和准确度。

  • 开源与商用友好:遵循Apache 2.0开源协议,Ovis的开源使得其在商业应用上非常友好,鼓励更广泛的应用和二次开发。

  • 架构创新:Ovis通过创新的架构设计,包括动态子图方案,支持处理极端长宽比和高分辨率图像,以及全面数据优化策略,覆盖Caption、VQA、OCR、Table、Chart等多种多模态数据方向,从而提升了多模态任务的综合表现。

Ovis应用案例:

  • 图像识别与处理:Ovis能准确识别手写内容并翻译,处理复杂的数学公式,比如通过图片识别给出详细的菜谱制作步骤。

  • 自动驾驶:整合摄像头、雷达和激光雷达的数据。

  • 医疗诊断:用于图像分析和诊断支持。

  • 视频内容理解:分析和生成视频内容。

  • 图像描述生成:自动生成图像描述。

  • 视觉问答:支持多种语言的文本提取和问答。

Ovis开源信息:

  • Ovis系列模型License采用Apache 2.0。

  • Ovis 1.0、1.5的数据、模型、训练和推理代码已开源。

  • Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

  • 开发者可以在GitHub上获取模型和代码。

  • 开源代码可用于商用和改进。

Ovis技术优势:

  • 创新架构设计:克服MLLM中MLP连接器架构的局限性。

  • 高分图像处理:兼容高分辨率图像。

  • 全面数据优化:显著提升多模态问答、指令跟随等任务表现。

  • 卓越模型性能:在OpenCompass上综合排名第一。

  • 幻觉现象和错误率显著低于同级别的模型。

Ovis Ghub地址:

https://github.com/aiDC-AI/Ovis

阿里国际团队表示,近半年的数据显示,商家对AI的需求不断增长,平均每两个月调用量翻一番。Ovis无疑将助力更多商家提升运营效率。

收藏
最新工具
塔罗耳语AI
塔罗耳语AI

一个结合传统塔罗牌占卜与现代AI技术的线上平台,塔罗耳语提供用户...

易推宝开箱视频
易推宝开箱视频

一家专注于跨境电商的开箱视频服务商,包括定制化的开箱视频制作,强...

AKSKOL
AKSKOL

提供一站式出海服务,包括视频拍摄、站外推广等。拥有200多名本土...

AdsMoss
AdsMoss

TikTok广告监控平台,提供实时TikTok广告数据,包括免费...

GoodSpy
GoodSpy

一款专门做跨境电商广告素材和精选的工具。覆盖了包括Meta(涵盖...

Kuaizi AI
Kuaizi AI

一个专注于AI视频生成和内容商业化的平台,Kuaizi AI提供...

AdWins
AdWins

一款专为TikTok广告营销设计的情报分析工具,AdWins帮助...

PiPiADS
PiPiADS

一个专注于TikTok 和 Facebook平台的广告情报工具,...

妙语速写AI
妙语速写AI

一个高效精准易用的营销内容生成平台,妙语速写AI提供高效、精准、...

通义万相AI生视频
通义万相AI生视频

通义万相全新发布自研AI视频生成大模型,具备强大的画面视觉动态生...