DeepSeek开源周第三天开源项目:DeepGemm

DeepGemm是什么?

DeepGEMM是一个专为高效FP8通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,支持普通和混合专家(MoE)分组GEMM。

DeepGemm.webp

DeepGemm的技术特点

  • CUDA编写:DeepGEMM使用CUDA编写,无需编译,采用轻量级即时(JIT)模块在运行时编译所有内核。

  • 细粒度缩放功能:支持普通和混合专家(MoE)分组GEMM,适用于不同的矩阵形状和计算需求。

  • 性能优化:采用CUDA核心两级累积(提升)解决不精确的FP8张量核心累积问题,利用Hopper TMA功能加速数据移动。

DeepGemm的主要优势

  • 性能优异:尽管设计轻量,但其性能匹敌甚至超过了各种矩阵形状的专家调整库。

  • 易于访问:作为一个干净且易于访问的资源,DeepGEMM是学习Hopper FP8矩阵乘法和优化技术的理想选择。

  • 灵活性:支持自动选择块大小、warpgroups数量、最佳流水线阶段和TMA集群大小,以适应不同的计算需求。

DeepGemm的应用场景

DeepGEMM适用于需要高效矩阵乘法操作的场景,特别是在深度学习ai模型训练和推理中,能够显著提高计算效率和性能。

github:https://github.com/deepseek-ai/DeepGEMM

其它相关链接

1. DeepSeek开源周第二天开源项目:Deepep

2. DeepSeek开源周第一天开源项目:DeepSeek FlashMLA

收藏
最新工具
DuoPlus云手机
DuoPlus云手机

专注打造全球社媒营销、Tiktok、游戏挂机专用云手机,帮助您社...

Packify AI
Packify AI

一款AI包装设计和商品摄影工具,可以通过AI生成定制化包装设计和...

驯鹿AI
驯鹿AI

专注于跨境电商市场的智能客服工具,驯鹿AI依托通用大语言模型技术...

Shopee选品助手
Shopee选品助手

一款永久免费的Shopee选品与数据分析插件,支持Shopee所...

Hyprnote
Hyprnote

一个开源的会议笔记AI工具,适合经常参加会议的人使用。Hyprn...

ChatPaper.ai
ChatPaper.ai

一个论文、视频、笔记的AI总结学习助手,轻松提炼论文精华、整理课...

选品酷BigTracker
选品酷BigTracker

一款由BQool比酷尔科技公司开发的专为寻找亚马逊爆款的卖家量身...

云知改写
云知改写

一个基于先进深度语义分析、智能 AI 及文本处理技术开发的论文查...

Remove.photos
Remove.photos

一款免费的图片背景去除工具,能 00% 自动在3秒内去除图片背景...

VideoIdeas Ai
VideoIdeas Ai

一个为 YouTube博主量身定制的视频内容生成工具。它能在短时...