阿里巴巴正式推出开源大模型Qwen2.5-1M

阿里巴巴于2025年1月27日正式推出开源大模型Qwen2.5-1M系列,这是通义千问团队首次将开源模型的上下文长度扩展至100万Tokens(约合10本长篇小说或3万行代码),并在长文本处理性能上实现显著突破。

一、Qwen2.5-1M主要特点

超长上下文支持:Qwen2.5-1M模型支持高达100万tokens的上下文处理,相当于约100万个英文单词或150万个汉字。这一特性使得模型能够处理长篇文档,如书籍、法律文件和长篇报告,而无需进行繁琐的文本分割。

多种模型尺寸:此次发布的模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,提供了不同的参数规模,以满足不同应用场景的需求。

高效的推理框架:Qwen团队开源了基于vLLM的推理框架,集成了稀疏注意力机制,使得在处理1M标记输入时的速度提升了3倍到7倍。这种高效性使得开发者能够更快速地部署和应用模型。

性能优势:在长文本任务中,Qwen2.5-1M模型的表现显著优于之前的128K版本,特别是在处理超过64K长度的任务时,展现出更强的能力。

阿里巴巴正式推出开源大模型Qwen2.5-1M.webp

二、模型特性与性能表现

长上下文处理能力

  • 百万Tokens支持:Qwen2.5-1M系列包含7B和14B两个版本,原生支持1M Tokens上下文长度,可处理长篇文档、代码仓库或复杂多轮对话,无需分段输入。

  • 精准检索与理解:在“大海捞针”(Passkey Retrieval)任务中,模型能从1M Tokens文档中准确提取隐藏信息,仅7B版本出现少量错误;在RULER、LV-eval等长文本理解基准测试中,14B版本表现稳定超越自家闭源模型Qwen2.5-Turbo和Openai的GPT-4o-mini。

短文本任务兼容性

  • 7B和14B模型在短文本任务(如问答、摘要)中表现与128K版本相当,未因长上下文能力增强而牺牲基础性能。例如,14B模型在短文本任务中与GPT-4o-mini性能接近,但上下文长度是其8倍。

三、技术突破与开源框架

渐进式训练与长度外推

  • 分阶段扩展:从预训练到监督微调,逐步将上下文长度从4K扩展至256K,再通过强化学习优化短文本对齐能力56。

  • Dual Chunk Attention(DCA):引入创新的位置编码外推技术,无需额外训练即可将模型支持的上下文长度从256K扩展至1M,解决了长距离位置编码的注意力退化问题。

高效推理优化

  • 稀疏注意力机制:基于vLLM框架集成稀疏注意力(MInference),结合分块预填充和动态并行技术,使1M Tokens输入的推理速度提升3.2至6.7倍,显著降低内存占用(如7B模型激活内存减少96.7%)。

  • 开源框架支持:完全开源推理框架及训练技术报告,开发者可快速部署模型,并支持FP8量化以降低硬件需求。

四、应用场景

  • 文本生成:Qwen2.5-1M模型可以用于生成长篇文章、报告和故事,适用于内容创作、新闻写作等领域。

  • 信息检索:由于其超长上下文处理能力,模型可以在长文本中进行有效的信息检索,适合用于法律、医疗等需要处理大量文档的行业。

  • 对话系统:该模型可以用于构建智能对话系统,能够理解和生成复杂的对话内容,提升用户体验。

  • 多模态应用:Qwen2.5-1M模型的设计使其能够与其他模态(如图像、音频)结合,扩展其应用范围到多模态理解和生成任务中。

Qwen2.5-1M的发布不仅填补了开源模型在超长上下文处理领域的空白,更通过技术创新与生态开放,为开发者提供了高性能、低门槛的工具选择。其成功可能加速全球AI产业对长文本应用的探索,并推动开源社区在AGI竞赛中的角色升级。

收藏
最新工具
Tarsier
Tarsier

字节跳动推出的一系列大规模视觉语言模型(LVLM),专注于视频理...

Cherry Studio
Cherry Studio

一款开源的支持多种大型语言模型(LLM)桌面AI客户端,集成了多...

CodeName Goose
CodeName Goose

一款开源代码智能体Agent,Codename Goose不仅能...

NotebookLM
NotebookLM

一款基于Gemini 的AI笔记和研究助手,旨在帮助用户更高效地...

PengChengStarling
PengChengStarling

鹏城实验室开源的一款多语言语音识别系统开发工具包,PengChe...

kokoroTTS
kokoroTTS

一款开源、高性能的文本转语音(TTS)模型,Kokoro TTS...

宇树科技
宇树科技

是一家专注于足式机器人研发与生产的中国高科技企业,成立于2016...

YuE
YuE

一个全新的多模态音乐开源模型,YuE具有从歌词生成高质量音乐的能...

泥巴影院
泥巴影院

一个专为海外华人提供的在线视频平台,用户可以在此平台上免费观看最...

JanusFlow
JanusFlow

DeepSeek团队推出的一款先进的多模态人工智能模型,目的在于...