人工智能服务
>
模型训练
>
多机多卡-多实例训练
模型训练支持多实例的多机多卡的分布式训练,可自定义设置每个实例中加速卡数量,实现更自由的分布式训练。
多实例创建的主界面如图:训练名称:设置任务的名称且不允许重复;
资源选择:从各个资源中心选择合适的加速资源;
多实例设置:通过设置实例个数、每个实例中加速卡数量达到多实例设置,相比之前单实例多卡扩展了模型训练的可训练度;
镜像配置:通过选择已经调试好的镜像,快速部署训练,配置好启动脚本后,即可通过无人值守方式进行模型训练;
高级配置:设置训练时的环境变量,快速更改训练参数;通过设置更精简的挂载路径,减少路径配置时的失误。
注意:点击【回到旧版】回到之前的版本新版的模型训练具体配置方式可参考最佳实践