DeepSeek 在开源周前两日如约发布了两款开源项目FlashMLA、DeepEP:- FlashMLA是一款用于Hopper GPU设计的高效MLA解码内核,可用于处理变长序列推理;
- DeepEP 则是一款专为混合专家模型(MoE)和专家并行(EP)设计的高性能通信库。
这两款开源库让Hopper GPU可以释放更高的性能,再次诠释了DeepSeek“低成本创造高性能模型”的求索式思维。国家超算互联网作为综合算力服务平台,关注并全力支持国产开源大模型发展,现已上线FlashMLA、DeepEP,用户可快速下载安全可信的源码文件。

根据DeepSeek介绍,FlashMLA在实际应用场景中的优势包括:
- 长文本生成与高并发服务:在长文本生成任务中,FlashMLA 的显存管理能力可支持单卡处理超过 100K Token 的上下文窗口,且并发吞吐量提升 2 倍以上。
- BF16 精度支持:在计算密集型任务中平衡精度与速度,使得DeepSeek在系列模型中实现成本大幅降低,同时降低推理的资源占用。
简单来说,FlashMLA 就像是一个超级高效的「翻译器」,能让计算机更快地处理语言信息。它主要通过优化一些复杂的计算过程,在有限的H系列GPU显卡硬件资源上跑得更快,这就像是给计算机的「大脑」做了一个升级,让它在处理语言任务时更聪明、更高效。因此,特别适合文档分析、长文生成、长对话与翻译、细分行业虚拟助手等典型场景;同时因减少内存占用并加速计算的特性,或可基于智能终端、边缘设备创造更多应用价值。作为首个用于 MoE 模型训练和推理的开源EP通信库,DeepEP具备以下突出特点:
目前,超算互联网已上线DeepSeek-R1全家桶、最高671B满血版的API部署与AI Web应用服务,并将持续追踪DeepSeek 开源周发布的技术成果,带来最新模型应用服务,为千行百业提供高效、安全、普惠的智能引擎。https://www.scnet.cn/ui/mall/search/goods?keyword=FlashMLAhttps://www.scnet.cn/ui/mall/search/goods?keyword=DeepEP