容器服务
>
容器实例
>
环境变量列表
提交分布式训练任务时,SCNet平台会自动注入多个环境变量,便于您在代码中直接使用。本文为您介绍平台默认提供的环境变量列表。
worker-0-worker-N
N=实例数,环境变量worker-N指的是第N个实例的hostname。
在PyTorch分布式训练框架中,Master和Worker扮演不同的角色并需要相互建立连接以进行通信。SCNet平台为PyTorch训练任务默认注入通用环境变量,用于关键信息的同步。
环境变量名 | 说明 |
---|---|
MASTER_ADDR | 指主节点的hostname。在分布式训练中,需要有一个主节点(master node)来协调和管理其他节点(worker nodes)的通信和参数同步,此变量指向首节点(worker-0)的hostname。 |
MASTER_PORT | 所有worker进行通信协商的端口号,默认23456。 |
WORLD_SIZE | 指的是分布式训练中参与的总节点数。例如,若提交一个包含3实例的作业,则WORLD_SIZE设置为3。 |
RANK | 指分布式训练中每个节点的顺序号,用于区分不同的节点,从0开始。例如,Worker-0设置的RANK为0, Worker-1设置的RANK为1。 |