阿里巴巴正式推出开源大模型Qwen2.5-1M

阿里巴巴于2025年1月27日正式推出开源大模型Qwen2.5-1M系列,这是通义千问团队首次将开源模型的上下文长度扩展至100万Tokens(约合10本长篇小说或3万行代码),并在长文本处理性能上实现显著突破。

一、Qwen2.5-1M主要特点

超长上下文支持:Qwen2.5-1M模型支持高达100万tokens的上下文处理,相当于约100万个英文单词或150万个汉字。这一特性使得模型能够处理长篇文档,如书籍、法律文件和长篇报告,而无需进行繁琐的文本分割。

多种模型尺寸:此次发布的模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,提供了不同的参数规模,以满足不同应用场景的需求。

高效的推理框架:Qwen团队开源了基于vLLM的推理框架,集成了稀疏注意力机制,使得在处理1M标记输入时的速度提升了3倍到7倍。这种高效性使得开发者能够更快速地部署和应用模型。

性能优势:在长文本任务中,Qwen2.5-1M模型的表现显著优于之前的128K版本,特别是在处理超过64K长度的任务时,展现出更强的能力。

阿里巴巴正式推出开源大模型Qwen2.5-1M.webp

二、模型特性与性能表现

长上下文处理能力

  • 百万Tokens支持:Qwen2.5-1M系列包含7B和14B两个版本,原生支持1M Tokens上下文长度,可处理长篇文档、代码仓库或复杂多轮对话,无需分段输入。

  • 精准检索与理解:在“大海捞针”(Passkey Retrieval)任务中,模型能从1M Tokens文档中准确提取隐藏信息,仅7B版本出现少量错误;在RULER、LV-eval等长文本理解基准测试中,14B版本表现稳定超越自家闭源模型Qwen2.5-Turbo和Openai的GPT-4o-mini。

短文本任务兼容性

  • 7B和14B模型在短文本任务(如问答、摘要)中表现与128K版本相当,未因长上下文能力增强而牺牲基础性能。例如,14B模型在短文本任务中与GPT-4o-mini性能接近,但上下文长度是其8倍。

三、技术突破与开源框架

渐进式训练与长度外推

  • 分阶段扩展:从预训练到监督微调,逐步将上下文长度从4K扩展至256K,再通过强化学习优化短文本对齐能力56。

  • Dual Chunk Attention(DCA):引入创新的位置编码外推技术,无需额外训练即可将模型支持的上下文长度从256K扩展至1M,解决了长距离位置编码的注意力退化问题。

高效推理优化

  • 稀疏注意力机制:基于vLLM框架集成稀疏注意力(MInference),结合分块预填充和动态并行技术,使1M Tokens输入的推理速度提升3.2至6.7倍,显著降低内存占用(如7B模型激活内存减少96.7%)。

  • 开源框架支持:完全开源推理框架及训练技术报告,开发者可快速部署模型,并支持FP8量化以降低硬件需求。

四、应用场景

  • 文本生成:Qwen2.5-1M模型可以用于生成长篇文章、报告和故事,适用于内容创作、新闻写作等领域。

  • 信息检索:由于其超长上下文处理能力,模型可以在长文本中进行有效的信息检索,适合用于法律、医疗等需要处理大量文档的行业。

  • 对话系统:该模型可以用于构建智能对话系统,能够理解和生成复杂的对话内容,提升用户体验。

  • 多模态应用:Qwen2.5-1M模型的设计使其能够与其他模态(如图像、音频)结合,扩展其应用范围到多模态理解和生成任务中。

Qwen2.5-1M的发布不仅填补了开源模型在超长上下文处理领域的空白,更通过技术创新与生态开放,为开发者提供了高性能、低门槛的工具选择。其成功可能加速全球AI产业对长文本应用的探索,并推动开源社区在AGI竞赛中的角色升级。

收藏
最新工具
SearchAny
SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具,整合谷歌、...

支付宝百宝箱Tbox
支付宝百宝箱Tbox

一个零代码AI应用开发平台,用户可以通过自然语言就可以快速创建A...

Vanna AI
Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换...

Awesome GPT-4o Images
Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模...

OPPO小布助手网页版
OPPO小布助手网页版

网址是xiaobu.coloros.com ,融合满血版Deep...

OldPicRestore
OldPicRestore

一个免费的老照片修复工具,可修复老照片中的损坏、模糊和褪色问题,...

HaiSnap
HaiSnap

一个适合小白用户快速开发简单应用的零代码开发平台。用户只需描述需...

OpenCut
OpenCut

一款智能音视频剪辑工具,具备去水印、视频转GIF、音频提取、人声...

Singify
Singify

一款FineShare推出的在线AI音乐与歌曲生成器,可将文本、...

iFable AI
iFable AI

一个结合了冒险棋盘游戏、《龙与地下城》和视觉小说叙事元素的角色扮...