阿里云发布Qwen2开源模型

阿里云发布Qwen 2开源模型.jpg

阿里云发布Qwen 2开源模型,性能超越目前所有开源模型和国内闭源模型。

Qwen 2 模型涵盖多种尺寸,包括 0.5B、1.5B、7B、57B-A14B 和 72B 5 种大小版本,Qwen 2模型在同尺寸模型的测评中,都获得了超越所有开源模型的成绩。CompassArena 大模型竞技场上体验了下,确实是很强,应该是目前中文方面非常优秀的了。

Qwen 2功能特征:

  • 5种尺寸的预训练和指令调优模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B;

  • 除英语和中文外,还接受过 27 种语言的数据培训;

  • 在大量基准评估中表现最先进;

  • 显着提高编码和数学表现;

  • Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 的扩展上下文长度支持高达 128K 令牌。

比较评估表明,相对于 Qwen1.5,大型模型(70B+ 参数)的性能得到了显着增强。这里我们评测的重点是大尺寸型号Qwen2-72B。在基础语言模型方面,Qwen2-72B和最先进的开放模型针对不同的能力进行了评估,包括自然语言理解、知识获取、编码能力、数学技能和多语言能力。受益于精心策划的数据集和优化的训练方法,Qwen2-72B 与 Llama-3-70B 等领先模型相比表现出卓越的性能。值得注意的是,尽管参数较少,但它的性能超越了其前身 Qwen1.5-110B。

qwen2-72b.jpg

经过广泛的大规模预训练,我们进行后训练,以进一步增强 Qwen 的智能,使其更接近人类。这一过程进一步提高了模型在编码、数学、推理、指令遵循、多语言理解等领域的能力。此外,它将模型的输出与人类价值观保持一致,确保它是有帮助的、诚实的和无害的。我们的训练后阶段的设计遵循可扩展训练的原则,并且需要最少的人工注释。具体来说,我们研究如何通过各种自动对齐策略来获取高质量、可靠、多样化和创造性的演示数据和偏好数据,例如数学的拒绝采样、编码和指令遵循的执行反馈、创意写作的反向翻译、对角色扮演等可扩展的监督。在培训方面,我们采用了监督微调、奖励模型培训和在线DPO培训相结合的方式。我们还采用了一种新颖的在线合并优化器来最大限度地减少对齐税。这些集体努力显着提高了我们模型的能力和智能,如下表所示。

qwen2-72b-instruct.jpg

Qwen2 的下一步是什么? 

我们正在训练更大的 Qwen2 模型,以进一步探索模型扩展以及我们最近的数据扩展。此外,我们将 Qwen2 语言模型扩展到多模态,能够理解视觉和音频信息。不久的将来,我们将继续开源新模型,加速ai开源。敬请关注!

Github:https://github.com/QwenLM/Qwen2

下载地址:https://modelscope.cn/organization/qwen

体验地址:https://modelscope.cn/studios/opencompass/CompassArena/summary

详细介绍:https://qwenlm.github.io/blog/qwen2/

收藏
最新工具
谷歌趋势
谷歌趋势

一个由谷歌提供的免费分析工具,谷歌趋势允许用户搜索和比较关键词的...

GeeLark
GeeLark

一款专为移动端设计的多账号管理工具,GeeLark提供了一种创新...

Pony Diffusion
Pony Diffusion

一个擅长生成高质量、风格化、可爱动物主题的AI动漫艺术图片生成器...

心辰Lingo语音大模型
心辰Lingo语音大模型

实现了从语音输入到语音输出的全程无缝对接,心辰Lingo能够直接...

匡优AI出题
匡优AI出题

一款利用人工智能帮助用户根据需求生成试题的网站。模板出题内置了约...

BuzzSumo
BuzzSumo

一款功能强大的在线工具,专为内容营销人员、作家和 SEO 专业人...

Ehunt.Ai
Ehunt.Ai

一个帮助卖家全面剖析Etsy产品数据,掌握市场流行风向的工具。E...

豆包爱学
豆包爱学

字节跳动旗下的AI教育应用,原名为河马爱学。豆包爱学APP基于豆...

Kacha
Kacha

一款专注于图像处理的AI写真应用程序,Kacha通过简化复杂的照...

Super智能AI知识库
Super智能AI知识库

一款可以进行AI机器人角色设定、知识库训练、发布/分享智能体,同...