人工智能服务
>
附录
>
DAS介绍
DAS(DCU AI Software Stack,DCU 人工智能基础软件系统)是针对国产加速卡推出的一套完整的人工智能基础软件,包含基础算子层、框架工具层、扩展组件层,与国产加速卡基础硬件系统、DTK 开发工具栈、模型空间 Model Zoo 、镜像仓库等形成一套完整的国产加速卡人工智能软硬件生态体系。 依托DAS,支持国产加速卡在人工智能的全领域应用,如自然语言大模型、多模态大模型、MOE大模型、视觉大模型、通用模型、语音模型等,支持模型训练及推理落地,实现快速的国产加速卡人工智能应用迁移、开发及迭代。
该层主要提供定制化高级算子。融合算子库lightop,基于torch接入针对国产加速卡深度优化的可融合稀疏计算类算子;引入BLAS,DNN,RCCL等基础算子库进行计算和通信的优化,对于访存密集型算子,通过大量的手写融合算子提升性能,构建了lightop算子库;为了适应更灵活的开发及高级开发者,引入了CK算子模板库,支持tensor core指令,通过细粒度的tile级别运算模板化,提升算子性能,给高阶开发者提供了更灵活的算子开发模板,在AI编译器层面,整合了triton,XLA和TVM等AI编译组件用于算子生成,为flashattention、xformer、bitsandbytes等组件提供AI编译路线支持,为算子开发提供了更多的开发方式,最大化的利用硬件资源。已发布算子可以从光合开发者社区-DAS获取。
该层主要提供基于国产加速卡适配版的基础深度学习框架及开发工具,包含PyTorch、TensorFlow、JAX、Paddleh和OneFlow等、通用推理框架包含OnnxRuntime、MIGraphx和AITemplate等,为人工智能开发者提供基础的深度学习框架支撑。针对国产加速卡的快速组件适配工具FastPT,支持基于Torch的组件快速适配;快速精度检测工LayerCheck,通过单Layer层的精度检查,快速定位精度出问题的层,用于快速的精度检查及定位;图优化组件GraphRay,优化图后端,通过图算匹配快速找到最优的图执行路线,优化模型性能。同时还构建OpenDAS开源社区,其中包含了大量的经过适配优化的AI三方组件提供给高阶开发用户。已发布框架工具可以从光合开发者社区-DAS获取
该层主要由通用训练组件、大模型训练组件及大模型推理组件组成,针对通用模型训练推理、大模型训练推理的不同计算访存特点,组合不同的优化手段,构建系统工程优化能力,以大模型训练为例,一方面适配deepspeed、megtatron等分布式框架,另一方面采用topo优化、多维组合并行、激活重计算等策略,实现大模型场景的全面覆盖,在大模型推理方向,在flashattention、flashdecoding、kv cache、pageattention等方向进行了针对性的适配优化,降低首字延时提高吞吐能力。 目前,通用训练组件包含支持国产加速卡的Apex、Vision、Audio、Mmcv和Dgl等组件,大模型训练组件包含DeepSpeed、FastMoe、Bitsandbytes、FlashAttention、Megatron-DeepSpeed等组件,大模型推理组件包含FlashDecoding、Vllm、Xfomers、TGI和Lmdeploy等组件,以上组件均基于国产加速卡进行了适配及优化,其中部分组件已经在OpenDAS社区进行开源,通过开源仓库的readme可以安装和使用组件。平台预置镜像已经安装部分常用组件。