谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型

Gemma 3是什么?

Gemma 3是Google 发布的最新开源模型,超越了 DeepSeek V3 和 o3mini,成为全球第二强开源模型。Gemma 3 具备强大的多模态能力,能够理解文本、图片和短视频,同时还支持超过 140 种语言的预训练,直接支持超过 35 种语言。它配备了 128K 令牌的上下文窗口,能够处理大量信息,并支持函数调用和 ai 代理开发,可实现复杂任务的自动化。Gemma 3 提供四种不同尺寸的模型(1B、4B、12B 和 27B),以满足不同硬件和性能需求,并且能够在手机、电脑等多种设备上高效运行,支持从移动设备到工作站的广泛部署。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3功能特征

  • 多模态能力:支持文本、图像和短视频的混合输入,能够处理复杂的多模态任务。

  • 强大的语言支持:预训练支持超过 140 种语言,直接支持超过 35 种语言。

  • 大上下文窗口:支持 128k 令牌的上下文窗口,能够处理大量信息,例如 30 张高分辨率图像或 1 小时视频。

  • 高性能:在单 GPU 或 TPU 上的表现优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。

  • 优化与量化:提供官方量化版本,减少模型大小和计算需求,同时保持高精度。

  • 安全性:配备 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。

Gemma 3 四种尺寸的模型特点

  • 1B:轻量级,适合在手机或笔记本等资源受限设备上运行。

  • 4B:适合多模态任务,具备更强的图像和文本处理能力。

  • 12B:性能更强,适合复杂图像和视频分析。

  • 27B:最大版本,性能最强,适合高性能计算场景。

Gemma 3应用场景

  • 自然语言处理:用于聊天机器人、智能助手、文本分类、情感分析和机器翻译

  • 图像识别与分析:支持人脸识别、物体检测、图像问答和图像比较。

  • 视频分析:能够处理短视频内容,适用于视频内容分析和生成。

  • 智能客服:结合多模态输入,提供更智能的客户服务。

  • 工业质检:利用图像分析能力检测产品质量问题。

  • 代码生成与编程辅助:支持代码生成和自动代码修复。

Gemma 3使用方法

  1. 快速实验:通过 Google AI Studio 在浏览器中直接使用 Gemma 3,无需设置。

  2. 下载与微调:从 Hugging Face、Ollama 或 Kaggle 下载模型,并使用 Hugging Face Transformers 或其他工具进行微调。

  3. 部署选项:支持多种部署方式,包括 Vertex AI、Cloud Run、Google GenAI API、本地环境以及 NVIDIA GPU。

  4. 开发工具支持:兼容 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型.webp

Gemma 3技术

  • 底层架构:基于与 Gemini 相同的技术架构。

  • 训练与优化:采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升性能。

  • 视觉处理:使用动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像。

  • 硬件优化:针对 NVIDIA GPU 和 Google Cloud TPU 进行深度优化,确保高效运行。

Gemma 3相比Gemma 2有哪些改进?

  • 多模态能力:新增对文本、图像和短视频的混合输入支持,可处理图像问答和视频分析等复杂任务。

  • 性能提升:单 GPU 性能更强,推理速度提升 47%。

  • 语言支持:支持超过 140 种语言的预训练,直接支持 35 种语言,语言处理能力增强。

  • 上下文窗口扩展:支持 128k 令牌,可处理更大规模的信息。

  • 视觉处理能力:支持高分辨率图像和视频解析,1 小时视频的关键帧提取时间缩短至 20 秒。

  • 安全性增强:配备 ShieldGemma 2 图像安全分类器,可检测危险内容。

  • 硬件优化:针对 GPU 和 TPU 进行深度优化,支持多种部署选项。

  • 训练与微调:采用强化学习等技术,提供更灵活的微调工具。

详细阅读:https://blog.google/technology/developers/gemma-3/

收藏
最新工具
YourWare.so
YourWare.so

一个专门用于上传和托管 HTML 或 TSX 文件的平台。并将其...

咔片
咔片

一个在线AI生成PPT设计平台,提供一键换肤、智能美化等功能,还...

文心快码Zulu
文心快码Zulu

百度文心快码推出的一款 AI 自动编程智能体,能够自主理解编码需...

文润
文润

一个基于先进 AI 技术的文本润色平台,可以帮助用户解决传统文本...

月匣APP
月匣APP

百度开发的情感陪伴类AI互动App,主打高自由度AI对话与沉浸式...

Awesome MCP Servers
Awesome MCP Servers

一个精心整理的 MCP 服务器资源列表,汇集了各种实现 MCP ...

Ant Design X Vue
Ant Design X Vue

基于 Vue.js 的首个 AI 组件库,可以简化与AI集成的开...

GO-1大模型
GO-1大模型

智元启元大模型是智元机器人发布的中国首个通用具身基座模型。GO-...

GenAI_Agents
GenAI_Agents

一个专注于生成式AI Agents技术的开源项目,GenAI_A...

GPTBots AI
GPTBots AI

GPTBots是一个无需编写代码就能构建AI Agent的平台。...