DeepSeek在开源周第四天又秀一把肌肉,和盘托出了三款硬核开源项目:DualPipe、EPLB、以及来自训练和推理框架的分析数据,让AI大模型训练更聪明、更快,成本更低。超算互联网即刻上线这三款开源工具,开发者可快速下载项目文件,更好地理解V3/R1模型的高效训练和部署。DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法传统的流水线并行 (Pipeline Parallelism) 算法在处理大模型时面临着计算资源的空闲等待、数据传输的延迟两个主要挑战,DualPipe 实现了前向与后向计算-通信阶段的完全重叠,还减少了流水线气泡(即某些设备在某些时刻空闲等待)。简单来说,就像工厂流水线,DualPipe 让工人一边加工零件(计算),一边把零件传给下个人(通信),两件事一块干,大幅提升了工作效率。EPLB:一个专为V3/R1打造的专家并行负载均衡器传统的数据并行就像给每个人一份整个项目的副本 —— 既浪费又缓慢。用于MoE的负载均衡算法,通过复制高负载专家并智能地分配专家到不同GPU上,确保计算资源的均衡利用。想象一个快递分拣中心有多个分拣员(专家模型),每位分拣员负责不同地区的包裹(任务类型)。分拣中心的智能调度系统(EPLB)会实时监控每个地区的包裹量(负载),发现北京包裹堆积时,立刻从空闲的上海分拣员中抽调人手(专家复制),并安排他们临时处理北京包裹(动态路由)。EPLB就是让算法能够根据估计的专家负载,计算出一个平衡的专家复制和放置方案。同时,系统还会根据包裹量动态调整分拣员数量(弹性扩缩容),确保包裹能快速送达(高效处理)。Profile-data:分析 V3/R1 中计算与通信重叠的性能数据集DeepSeek 还开源了其训练和推理框架的性能分析数据,帮助社区更好地理解计算与通信如何有效重叠以及底层实现细节。这些数据使用 PyTorch Profiler 工具捕获,可以在 Chrome 或 Edge 浏览器的 tracing 页面直接可视化,直观呈现各项操作的执行时间和资源占用。在这三者中,DualPipe从时间上优化了计算与通信的调度,EPLB从空间上平衡利用计算资源,Profiling Data则提供了前两者在实际应用中效果的可视化证据。目前,国家超算互联网已上线FlashMLA、DeepEP和DeepGEMM、DualPipe等源码文件,并将持续跟进DeepSeek开源周发布的技术成果。https://www.scnet.cn/ui/mall/search/global?keyword=DualPipe