阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力
阿里2025年4月29日正式发布了Qwen3系列模型。这是Qwen系列大型语言模型的最新成员,旗舰模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多个模型在代码、数学、通用能力等基准测试中表现出色。Qwen3 开源了多个模型权重,并在多个平台开放使用。
Qwen3支持两种思考模式,具备多语言能力,优化了 Agent 和代码能力。其预训练数据量达约 36 万亿个 token,预训练分三个阶段,后训练采用四阶段训练流程。
模型亮点
多种思考模式:支持思考和非思考两种模式。思考模式适合复杂问题,模型会逐步推理;非思考模式适用于简单问题,能快速响应。两种模式结合增强了 “思考预算” 控制能力,用户可按需配置。
多语言能力:支持 119 种语言和方言,涵盖印欧语系、汉藏语系等多个语系,为国际应用提供了可能。
增强的 Agent 能力:优化了 Agent 和代码能力,加强对 MCP 的支持,通过 Qwen - Agent 可降低工具调用的代码复杂性。
Qwen3性能表现
旗舰模型:Qwen3-235B-A22B是该系列的旗舰模型,拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中,该模型与DeepSeek-R1、Openai的o1和o3-mini、马斯克的Grok-3以及谷歌的Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。
小型模型:小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,但表现更优。此外,Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
Qwen3技术特性
混合推理模型:Qwen3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。这种设计允许模型在解决复杂问题时进行深入推理,而在处理简单请求时快速响应。
多语言支持:Qwen3支持119种语言,并基于近36万亿个token(标记)进行训练,其训练数据量是Qwen2.5的两倍。
上下文长度:Qwen3支持高达256K的上下文长度,这使得它能够处理长文档分析、代码生成与多轮对话等复杂任务。
Qwen3模型性能与成本
旗舰版Qwen3-235B-A22B:总参数量为2350亿,激活参数为220亿。与DeepSeek-R1相比,其总参数量仅为后者的三分之一,部署成本预计能节省超过一半。此外,该模型支持按需启用“深度思考”模式,仅需4张H20显卡即可实现本地部署。
Qwen3-30B-A3B:总参数量为300亿,激活参数为30亿,总体性能可媲美Qwen2.5-32B。
Qwen3功能特性
原生支持MCP协议:Qwen3系列具备工具调用能力,并结合了自身的Qwen-Agent框架,大大降低了编程复杂性,支持在手机和电脑上实现Agent操作等任务,推动AI从对话走向执行。
多语言支持:支持119种语言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。
开源型号:Qwen3系列共开源了8个型号,包括:
6款Dense模型:0.6B、1.7B、4B、8B、14B、32B
2款MoE模型:Qwen3-30B-A3B和旗舰版Qwen3-235B-A22B
最小型号Qwen3-0.6B:体积轻量,非常适合在手机等端侧设备上部署,同时保持了良好的理解和生成能力,非常适合边缘端智能应用。
训练过程
预训练:数据集相比 Qwen2.5 显著扩展,达到约 36 万亿个 token,是 Qwen2.5 的两倍。数据来源包括网络、PDF 文档等,并利用专家模型合成数学和代码数据。预训练分三个阶段,从基本语言技能训练到增加知识密集型数据训练,再到扩展上下文长度至 32K token。
后训练:采用四阶段训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习,以开发兼具思考推理和快速响应能力的混合模型。
使用方法
基础使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有标准示例代码,可通过修改enable_thinking参数切换思考模式。
部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可创建与 OpenAI API 兼容的 API endpoint,移除特定参数可禁用思考模式。
本地开发:可使用ollama、LMStudio、llama.cpp和ktransformers等工具进行本地开发。
高级用法:提供软切换机制,可在用户提示或系统消息中添加/think和/no_think逐轮切换思考模式。
相关链接
博客:https://qwenlm.github.io/zh/blog/qwen3/
HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
github:https://github.com/QwenLM/Qwen3
Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo
Qwen Chat:https://chat.qwenlm.ai