Skip to content

环境变量列表

提交分布式训练任务时,SCNet平台会自动注入多个环境变量,便于您在代码中直接使用。本文为您介绍平台默认提供的环境变量列表。

一、通用环境变量

worker-0-worker-N

N=实例数,环境变量worker-N指的是第N个实例的hostname。

二、PyTorch环境变量

在PyTorch分布式训练框架中,Master和Worker扮演不同的角色并需要相互建立连接以进行通信。SCNet平台为PyTorch训练任务默认注入通用环境变量,用于关键信息的同步。

环境变量名说明
MASTER_ADDR指主节点的hostname。在分布式训练中,需要有一个主节点(master node)来协调和管理其他节点(worker nodes)的通信和参数同步,此变量指向首节点(worker-0)的hostname。
MASTER_PORT所有worker进行通信协商的端口号,默认23456。
WORLD_SIZE指的是分布式训练中参与的总节点数。例如,若提交一个包含3实例的作业,则WORLD_SIZE设置为3。
RANK指分布式训练中每个节点的顺序号,用于区分不同的节点,从0开始。例如,Worker-0设置的RANK为0, Worker-1设置的RANK为1。