首页 > Ai资讯 > Ai产品

Ovis:阿里国际发布的最新开源多模态模型

Ovis于2024-09-20发布在Ai产品

阿里国际于2024年9月19日发布了最新的多模态大模型Ovis，Ovis模型在多个领域展现出色的能力，特别是在数学推理问答、物体识别、文本提取和复杂任务决策等方面。

阿里国际发布的最新开源多模态模型

根据多模态评测平台OpenCompass的数据，Ovis1.6-Gemma2-9B版本在OpenCompass这一权威综合评测基准上，超越了多个知名开源模型，包括Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6，在300亿参数以下的开源模型中位居第一。值得注意的是，Ovis在某些任务上的表现甚至超过了闭源的大型模型GPT-4o-mini。

Ovis的核心能力:

多模态任务处理：Ovis能够出色地完成视觉感知推理、数学和科学理解、生活场景分析等多模态任务。它不仅能够辅助理解复杂的数学概念，还能帮助分析财务报表，甚至根据图片指导烹饪过程，如制作炸鱼薯条。
技术细节：Ovis的设计亮点在于其结构上对齐视觉和文本嵌入的方式，通过引入可学习的视觉嵌入表，将连续视觉特征转换为概率化的token，再生成结构化的视觉嵌入，这克服了传统多模态模型中视觉与文本信息融合的限制。
性能与优势：Ovis在数学推理和视觉理解等任务中的得分表现出色，甚至媲美一些参数量级更高的模型。它在幻觉现象和错误率方面的控制也优于同级别模型，确保了高文本质量和准确度。
开源与商用友好：遵循Apache 2.0开源协议，Ovis的开源使得其在商业应用上非常友好，鼓励更广泛的应用和二次开发。
架构创新：Ovis通过创新的架构设计，包括动态子图方案，支持处理极端长宽比和高分辨率图像，以及全面数据优化策略，覆盖Caption、VQA、OCR、Table、Chart等多种多模态数据方向，从而提升了多模态任务的综合表现。

Ovis应用案例：