谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型

Gemma 3是什么?

Gemma 3是Google 发布的最新开源模型,超越了 DeepSeek V3 和 o3mini,成为全球第二强开源模型。Gemma 3 具备强大的多模态能力,能够理解文本、图片和短视频,同时还支持超过 140 种语言的预训练,直接支持超过 35 种语言。它配备了 128K 令牌的上下文窗口,能够处理大量信息,并支持函数调用和 ai 代理开发,可实现复杂任务的自动化。Gemma 3 提供四种不同尺寸的模型(1B、4B、12B 和 27B),以满足不同硬件和性能需求,并且能够在手机、电脑等多种设备上高效运行,支持从移动设备到工作站的广泛部署。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3功能特征

  • 多模态能力:支持文本、图像和短视频的混合输入,能够处理复杂的多模态任务。

  • 强大的语言支持:预训练支持超过 140 种语言,直接支持超过 35 种语言。

  • 大上下文窗口:支持 128k 令牌的上下文窗口,能够处理大量信息,例如 30 张高分辨率图像或 1 小时视频。

  • 高性能:在单 GPU 或 TPU 上的表现优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。

  • 优化与量化:提供官方量化版本,减少模型大小和计算需求,同时保持高精度。

  • 安全性:配备 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。

Gemma 3 四种尺寸的模型特点

  • 1B:轻量级,适合在手机或笔记本等资源受限设备上运行。

  • 4B:适合多模态任务,具备更强的图像和文本处理能力。

  • 12B:性能更强,适合复杂图像和视频分析。

  • 27B:最大版本,性能最强,适合高性能计算场景。

Gemma 3应用场景

  • 自然语言处理:用于聊天机器人、智能助手、文本分类、情感分析和机器翻译

  • 图像识别与分析:支持人脸识别、物体检测、图像问答和图像比较。

  • 视频分析:能够处理短视频内容,适用于视频内容分析和生成。

  • 智能客服:结合多模态输入,提供更智能的客户服务。

  • 工业质检:利用图像分析能力检测产品质量问题。

  • 代码生成与编程辅助:支持代码生成和自动代码修复。

Gemma 3使用方法

  1. 快速实验:通过 Google AI Studio 在浏览器中直接使用 Gemma 3,无需设置。

  2. 下载与微调:从 Hugging Face、Ollama 或 Kaggle 下载模型,并使用 Hugging Face Transformers 或其他工具进行微调。

  3. 部署选项:支持多种部署方式,包括 Vertex AI、Cloud Run、Google GenAI API、本地环境以及 NVIDIA GPU。

  4. 开发工具支持:兼容 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3技术

  • 底层架构:基于与 Gemini 相同的技术架构。

  • 训练与优化:采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升性能。

  • 视觉处理:使用动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像。

  • 硬件优化:针对 NVIDIA GPU 和 Google Cloud TPU 进行深度优化,确保高效运行。

Gemma 3相比Gemma 2有哪些改进?

  • 多模态能力:新增对文本、图像和短视频的混合输入支持,可处理图像问答和视频分析等复杂任务。

  • 性能提升:单 GPU 性能更强,推理速度提升 47%。

  • 语言支持:支持超过 140 种语言的预训练,直接支持 35 种语言,语言处理能力增强。

  • 上下文窗口扩展:支持 128k 令牌,可处理更大规模的信息。

  • 视觉处理能力:支持高分辨率图像和视频解析,1 小时视频的关键帧提取时间缩短至 20 秒。

  • 安全性增强:配备 ShieldGemma 2 图像安全分类器,可检测危险内容。

  • 硬件优化:针对 GPU 和 TPU 进行深度优化,支持多种部署选项。

  • 训练与微调:采用强化学习等技术,提供更灵活的微调工具。

详细阅读:https://blog.google/technology/developers/gemma-3/

收藏
最新工具
信风AI拓客
信风AI拓客

一款外贸拓客工具,基于30年的制造业进出口实操数据训练,利用AI...

灵图AI
灵图AI

一个助力创意设计的平台,它提供多种素材生成方式,如文本生图、相似...

数跨境BI
数跨境BI

一款为跨境电商卖家设计的在线自助数据分析工具,能够有效整合多个跨...

Thieve
Thieve

一个专注于一件代发业务的平台,Thieve 通过收集大量消费者的...

FindNiche
FindNiche

一站式选品和广告监测工具,提供速卖通、Shopify 等多平台商...

AI TransPDF
AI TransPDF

一款基于顶尖AI模型的PDF翻译工具,具有翻译准确、保留原文格式...

DeepWiki
DeepWiki

Cognition Labs公司推出的工具,它通过分析GitHu...

Sonix
Sonix

一款AI驱动的转录、翻译、字幕生成工具,能快速、准确地将音视频内...

笔启AI论文
笔启AI论文

一款专为论文写作打造的AI工具,它可以快速生成论文大纲和正文、智...

百度心响
百度心响

一款由百度推出的手机端超级智能体应用,它以“AI任务完成引擎”为...