阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力

阿里2025年4月29日正式发布了Qwen3系列模型。这是Qwen系列大型语言模型的最新成员,旗舰模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多个模型在代码、数学、通用能力等基准测试中表现出色。Qwen3 开源了多个模型权重,并在多个平台开放使用。

Qwen3支持两种思考模式,具备多语言能力,优化了 Agent 和代码能力。其预训练数据量达约 36 万亿个 token,预训练分三个阶段,后训练采用四阶段训练流程。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

模型亮点

  • 多种思考模式:支持思考和非思考两种模式。思考模式适合复杂问题,模型会逐步推理;非思考模式适用于简单问题,能快速响应。两种模式结合增强了 “思考预算” 控制能力,用户可按需配置。

  • 多语言能力:支持 119 种语言和方言,涵盖印欧语系、汉藏语系等多个语系,为国际应用提供了可能。

  • 增强的 Agent 能力:优化了 Agent 和代码能力,加强对 MCP 的支持,通过 Qwen - Agent 可降低工具调用的代码复杂性。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3性能表现

  • 旗舰模型:Qwen3-235B-A22B是该系列的旗舰模型,拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中,该模型与DeepSeek-R1、Openai的o1和o3-mini、马斯克的Grok-3以及谷歌的Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,但表现更优。此外,Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

Qwen3技术特性

  • 混合推理模型:Qwen3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。这种设计允许模型在解决复杂问题时进行深入推理,而在处理简单请求时快速响应。

  • 多语言支持:Qwen3支持119种语言,并基于近36万亿个token(标记)进行训练,其训练数据量是Qwen2.5的两倍。

  • 上下文长度:Qwen3支持高达256K的上下文长度,这使得它能够处理长文档分析、代码生成与多轮对话等复杂任务。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3模型性能与成本

  • 旗舰版Qwen3-235B-A22B:总参数量为2350亿,激活参数为220亿。与DeepSeek-R1相比,其总参数量仅为后者的三分之一,部署成本预计能节省超过一半。此外,该模型支持按需启用“深度思考”模式,仅需4张H20显卡即可实现本地部署。

  • Qwen3-30B-A3B:总参数量为300亿,激活参数为30亿,总体性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP协议:Qwen3系列具备工具调用能力,并结合了自身的Qwen-Agent框架,大大降低了编程复杂性,支持在手机和电脑上实现Agent操作等任务,推动AI从对话走向执行。

  • 多语言支持:支持119种语言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 开源型号:Qwen3系列共开源了8个型号,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗舰版Qwen3-235B-A22B

  • 最小型号Qwen3-0.6B:体积轻量,非常适合在手机等端侧设备上部署,同时保持了良好的理解和生成能力,非常适合边缘端智能应用。

训练过程

  • 预训练:数据集相比 Qwen2.5 显著扩展,达到约 36 万亿个 token,是 Qwen2.5 的两倍。数据来源包括网络、PDF 文档等,并利用专家模型合成数学和代码数据。预训练分三个阶段,从基本语言技能训练到增加知识密集型数据训练,再到扩展上下文长度至 32K token。

  • 后训练:采用四阶段训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习,以开发兼具思考推理和快速响应能力的混合模型。

使用方法

  • 基础使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有标准示例代码,可通过修改enable_thinking参数切换思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可创建与 OpenAI API 兼容的 API endpoint,移除特定参数可禁用思考模式。

  • 本地开发:可使用ollama、LMStudio、llama.cpp和ktransformers等工具进行本地开发。

  • 高级用法:提供软切换机制,可在用户提示或系统消息中添加/think和/no_think逐轮切换思考模式。

相关链接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...

FotoForensics
FotoForensics

一个由Hacker Factor提供的在线图像篡改检测工具,主要...

PixPin
PixPin

一款功能强大、完全免费的截图、贴图工具,具备高效截图、图片标注、...

OceanDoc
OceanDoc

一款提供免费 AI PPT生成和写作辅助的工具,能将文本快速生成...

有道Clear
有道Clear

全球首款100%基于CPU驱动的实时声伴分离插件,提供实时音轨分...

BoomCut爆剪辑
BoomCut爆剪辑

小影科技旗下的 AI 内容创意产品与服务平台,提供一站式视频本地...

案牍AI
案牍AI

一款专为法律领域设计的智能工具,基于大型语言模型(LLM)技术,...

Keble.AI
Keble.AI

一个融合AI与数据的平台,能生成亚马逊产品分析报告,还可借助最新...