DeepSeek开源周第二天开源项目:Deepep

昨天是DeepSeek ai开源周第一天,开源的项目是FlashMLA,不到半小时,Github已经已经300多Star了,短短1小时就超过10W阅读,非常的火爆,今天是DeepSeek开源周的第二天,DeepSeek开源了第2个项目:Deepep。

DeepSeek开源了第2个项目:Deepep.webp

什么是Deepep?

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构,充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用,使得用户能够在常规硬件上有效运行大规模模型。

Deepep的功能特点

MoE架构优化:

  • DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计,提供高效的all-to-all GPU内核,适用于训练和推理任务。

  • 支持低精度运算,包括FP8和BF16,提升计算效率,节省显存。

高性能通信:

  • 提供高吞吐量和低延迟的通信内核,支持NVLink和RDMA网络。在H800 GPU上测试,最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。

  • 针对NVLink到RDMA的非对称带宽转发场景进行了优化,确保高吞吐量表现。

低延迟通信:

  • 提供纯RDMA的低延迟内核,特别适合推理解码阶段,延迟低至163微秒。

  • 引入基于hook的通信-计算重叠方法,不占用GPU SM资源,最大化计算效率。

硬件优化:

  • 利用未公开的PTX指令提升Hopper架构的性能。

  • 支持InfiniBand网络,并理论上兼容RoCE,提供灵活的网络配置选项。

Deepep的应用场景

大规模模型训练:

  • 适用于Mixture-of-Experts (MoE) 模型的训练,提供高效的并行通信支持,显著提升训练效率。

推理任务:

  • 特别适合延迟敏感的推理解码场景,显著提升效率,降低延迟,提高推理吞吐量。

高性能计算需求:

  • 完美适配现代高性能计算需求,支持多种硬件平台,包括Hopper GPU架构,未来可能扩展更多设备。

Deepep的使用与集成

易用性:

  • 支持Hopper GPU架构,需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。

  • 安装时需搭配团队修改版的NVSHMEM,安装指南详细。

集成方式:

  • 开源且易于集成,只需几行命令即可构建并运行测试。

  • 安装后导入deep_ep模块即可直接使用,提供示例代码和测试脚本。

DeepEP已在GitHub上开源,地址:https://github.com/deepseek-ai/DeepEP

1. DeepSeek开源周第一天开源项目:DeepSeek FlashMLA

收藏
最新工具
小恐龙公文排版助手
小恐龙公文排版助手

一款专为Word和WPS设计的插件,主要功能是帮助用户快速完成文...

Pippit AI
Pippit AI

一款由 CapCut 推出的专注于营销内容生产的AI创作工具。用...

PPT AI
PPT AI

一个在线AIPPT生成平台。通过 AI 的智能内容分析,将文本、...

DroidRun
DroidRun

一款可以通过AI代理实现Android设备的自动化操作开源框架,...

CloneUI
CloneUI

一款强大的AI驱动的图片转代码工具,能够将截图、网址或 Figm...

PaneFlow
PaneFlow

一款所见即所得的PPT制作工具,它采用拖拽式界面,用户可以通过简...

SearchAny
SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具,整合谷歌、...

支付宝百宝箱Tbox
支付宝百宝箱Tbox

一个零代码AI应用开发平台,用户可以通过自然语言就可以快速创建A...

Vanna AI
Vanna AI

一个基于RAG技术的开源Python框架,用于将自然语言问题转换...

Awesome GPT-4o Images
Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模...