首页 > Ai资讯 > Ai产品

DeepSeek开源周第二天开源项目：Deepep

映技派于2025-02-25发布在Ai产品

昨天是DeepSeek ai开源周第一天，开源的项目是FlashMLA，不到半小时，Github已经已经300多Star了，短短1小时就超过10W阅读，非常的火爆，今天是DeepSeek开源周的第二天，DeepSeek开源了第2个项目：Deepep。

DeepSeek开源了第2个项目：Deepep.webp

什么是Deepep？

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构，充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用，使得用户能够在常规硬件上有效运行大规模模型。

Deepep的功能特点

MoE架构优化：

DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计，提供高效的all-to-all GPU内核，适用于训练和推理任务。
支持低精度运算，包括FP8和BF16，提升计算效率，节省显存。

高性能通信：

提供高吞吐量和低延迟的通信内核，支持NVLink和RDMA网络。在H800 GPU上测试，最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。
针对NVLink到RDMA的非对称带宽转发场景进行了优化，确保高吞吐量表现。

低延迟通信：

提供纯RDMA的低延迟内核，特别适合推理解码阶段，延迟低至163微秒。
引入基于hook的通信-计算重叠方法，不占用GPU SM资源，最大化计算效率。

硬件优化：

利用未公开的PTX指令提升Hopper架构的性能。
支持InfiniBand网络，并理论上兼容RoCE，提供灵活的网络配置选项。

Deepep的应用场景

大规模模型训练：

适用于Mixture-of-Experts (MoE) 模型的训练，提供高效的并行通信支持，显著提升训练效率。

推理任务：

特别适合延迟敏感的推理解码场景，显著提升效率，降低延迟，提高推理吞吐量。

高性能计算需求：

完美适配现代高性能计算需求，支持多种硬件平台，包括Hopper GPU架构，未来可能扩展更多设备。

Deepep的使用与集成

易用性：

支持Hopper GPU架构，需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。
安装时需搭配团队修改版的NVSHMEM，安装指南详细。

集成方式：

开源且易于集成，只需几行命令即可构建并运行测试。
安装后导入deep_ep模块即可直接使用，提供示例代码和测试脚本。

DeepEP已在GitHub上开源，地址：https://github.com/deepseek-ai/DeepEP

1. DeepSeek开源周第一天开源项目：DeepSeek FlashMLA

Anthropic推出Claude Code：具备代码搜索、自动修改、测试、GitHub集成等功能

FlashMLA：DeepSeek发布的高效的MLA解码内核，优化了变长序列的处理服务

DeepSite：基于DeepSeek-V3-032

DeepSite：基于DeepSeek-V3-032

2025-04-14

豆包刚上线的深度思考与DeepSeek相比较，哪个更

豆包刚上线的深度思考与DeepSeek相比较，哪个更

2025-03-28

DeepSeek+Gamma生成PPT教程全攻略

DeepSeek+Gamma生成PPT教程全攻略

2025-03-25

DeepSeek最新版本V3-0324更新了什么？

DeepSeek最新版本V3-0324更新了什么？

2025-03-25

老师专用DeepSeek备课指令

老师专用DeepSeek备课指令

2025-03-24

文心X1大模型与DeepSeek R1相比较，哪个好

文心X1大模型与DeepSeek R1相比较，哪个好

2025-03-16

最新工具

小恐龙公文排版助手

一款专为Word和WPS设计的插件，主要功能是帮助用户快速完成文...

Pippit AI

一款由 CapCut 推出的专注于营销内容生产的AI创作工具。用...

PPT AI

一个在线AIPPT生成平台。通过 AI 的智能内容分析，将文本、...

DroidRun

一款可以通过AI代理实现Android设备的自动化操作开源框架，...

CloneUI

一款强大的AI驱动的图片转代码工具，能够将截图、网址或 Figm...

PaneFlow

一款所见即所得的PPT制作工具，它采用拖拽式界面，用户可以通过简...

SearchAny

一款免费的集提问、搜索和研究功能于一身的AI搜索工具，整合谷歌、...

支付宝百宝箱Tbox

一个零代码AI应用开发平台，用户可以通过自然语言就可以快速创建A...

Vanna AI

一个基于RAG技术的开源Python框架，用于将自然语言问题转换...

Awesome GPT-4o Images

一个精选的GPT-4o生成图片集锦，收集了OpenAI 最新多模...

用户登录