DeepSeek开源周第二天开源项目:Deepep

昨天是DeepSeek ai开源周第一天,开源的项目是FlashMLA,不到半小时,Github已经已经300多Star了,短短1小时就超过10W阅读,非常的火爆,今天是DeepSeek开源周的第二天,DeepSeek开源了第2个项目:Deepep。

DeepSeek开源了第2个项目:Deepep.webp

什么是Deepep?

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构,充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用,使得用户能够在常规硬件上有效运行大规模模型。

Deepep的功能特点

MoE架构优化:

  • DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计,提供高效的all-to-all GPU内核,适用于训练和推理任务。

  • 支持低精度运算,包括FP8和BF16,提升计算效率,节省显存。

高性能通信:

  • 提供高吞吐量和低延迟的通信内核,支持NVLink和RDMA网络。在H800 GPU上测试,最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。

  • 针对NVLink到RDMA的非对称带宽转发场景进行了优化,确保高吞吐量表现。

低延迟通信:

  • 提供纯RDMA的低延迟内核,特别适合推理解码阶段,延迟低至163微秒。

  • 引入基于hook的通信-计算重叠方法,不占用GPU SM资源,最大化计算效率。

硬件优化:

  • 利用未公开的PTX指令提升Hopper架构的性能。

  • 支持InfiniBand网络,并理论上兼容RoCE,提供灵活的网络配置选项。

Deepep的应用场景

大规模模型训练:

  • 适用于Mixture-of-Experts (MoE) 模型的训练,提供高效的并行通信支持,显著提升训练效率。

推理任务:

  • 特别适合延迟敏感的推理解码场景,显著提升效率,降低延迟,提高推理吞吐量。

高性能计算需求:

  • 完美适配现代高性能计算需求,支持多种硬件平台,包括Hopper GPU架构,未来可能扩展更多设备。

Deepep的使用与集成

易用性:

  • 支持Hopper GPU架构,需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。

  • 安装时需搭配团队修改版的NVSHMEM,安装指南详细。

集成方式:

  • 开源且易于集成,只需几行命令即可构建并运行测试。

  • 安装后导入deep_ep模块即可直接使用,提供示例代码和测试脚本。

DeepEP已在GitHub上开源,地址:https://github.com/deepseek-ai/DeepEP

1. DeepSeek开源周第一天开源项目:DeepSeek FlashMLA

收藏
最新工具
Reactive-Resume
Reactive-Resume

一款免费开源的AI简历制作工具,支持OpenAI API集成,提...

Arxiv-Markdown-Parser-Plugin
Arxiv-Markdown-Parser-Plugin

一款能够一键将arXiv上的论文转换为Markdown格式的浏览...

美间AI创意PPT
美间AI创意PPT

一款可以一键生成高质量PPT的AI设计平台,通过简单的操作,一键...

Memento
Memento

一款基于mpv构建的开源视频播放器,专为学习日语设计。它巧妙地将...

小半WordPress Ai助手
小半WordPress Ai助手

一个全免费开源WordPress插件,支持AI对话聊天、文章生成...

Typral
Typral

一款高效的AI写作浏览器插件,提供多种可以提升用户文本处理体验的...

Anda
Anda

一个以Rust为基础构建的AI智能体框架,整合了ICP区块链并且...

Coco AI
Coco AI

INFINI Labs 开发的一款开源、跨平台的统一AI搜索工具...

TigerGPT
TigerGPT

一个基于 OpenAI、DeepSeek-R1的深度推理AI投资...

优雅AI创作平台
优雅AI创作平台

中科闻歌发布的一款多模态内容智能生成平台,用户只需输入关键词或简...