脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - 分布式训练training-operator和pytorch-distributed RANK变量不统一解决

分布式训练training-operator和pytorch-distributed RANK变量不统一解决

2023-04-14 14:15烂笔头 Python

这篇文章主要介绍了分布式训练training-operator和pytorch-distributed RANK变量不统一问题的解决方案详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

正文

我们在使用 training-operator 框架来实现 pytorch 分布式任务时,发现一个变量不统一的问题:在使用 pytorch 的分布式 launch 时,需要指定一个变量是 node_rank 。同时,在 OpenMMLab 框架的 dist_train.sh 里,读取的系统环境变量是 NODE_RANK(如果系统里 NODE_RANK 没有被指定,则用默认值0)。

dist_train.sh

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
#!/usr/bin/env bash
CONFIG=$1
GPUS=$2
NNODES=${NNODES:-1}
NODE_RANK=${NODE_RANK:-0} # 如果NODE_RANK没有被设置为系统变量,则使用默认值0
PORT=${PORT:-29500}
MASTER_ADDR=${MASTER_ADDR:-"127.0.0.1"}
PYTHONPATH="$(dirname $0)/..":$PYTHONPATH \
python -m torch.distributed.launch \
    --nnodes=$NNODES \
    --node_rank=$NODE_RANK \ # 作为torch.distributed.launch参数的一部分
    --master_addr=$MASTER_ADDR \
    --nproc_per_node=$GPUS \
    --master_port=$PORT \
    $(dirname "$0")/train.py \
    $CONFIG \
    --seed 0 \
    --launcher pytorch ${@:3}

而在 training-operator 里,NODE_RANK 这个环境变量是以 RANK 的形式出现的。

分布式训练training-operator和pytorch-distributed RANK变量不统一解决

这就会导致:通过 training-operator 启动的训练 pod 里只有 RANK 变量,没有 NODE_RANK 变量,那么, dist_train.sh 里的 $NODE_RANK 变量是一个默认值 0,每一个被启动的训练 pod 里的 NODE_RANK 也是 0。这会让每个pod都认为自己是第 0 个,每个 pod 都无法感知到别的 pod 的存在,那就会各自为政,在自己的 NODE 节点上重复性的做单机多卡的分布式训练。

那么,为了实现多机多卡的训练,就势必需要解决 training-operator 提供的环境变量 RANK 与 torch.distributed.launch 需要的环境变量 NODE_RANK 的不统一的问题。

解决的思路有两个方向

  • 保持 training-operator 的 RANK 变量不变,在训练的 pod 容器里,将 RANK 变量赋值给 NODE_RANK
  • 修改 training-operator,添加 NODE_RANK 变量,并将 NODE_RANK 变量的值设为 RANK 的值

这里选第二个,因为第一个方案没走通。。。

分布式训练training-operator和pytorch-distributed RANK变量不统一解决

  • 然后,添加一个 name=NODE_RANKvalue= strconv.Itoa(rank) 的环境变量
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
func setPodEnv(obj interface{}, podTemplateSpec *corev1.PodTemplateSpec, rtype, index string) error {
   pytorchjob, ok := obj.(*kubeflowv1.PyTorchJob)
   if !ok {
      return fmt.Errorf("%+v is not a type of PyTorchJob", obj)
   }
   for i := range podTemplateSpec.Spec.Containers {
      // Initialize the environment variables.
      if len(podTemplateSpec.Spec.Containers[i].Env) == 0 {
         podTemplateSpec.Spec.Containers[i].Env = make([]corev1.EnvVar, 0)
      }
      // Set PYTHONUNBUFFERED to true, to disable output buffering.
      // Ref https://stackoverflow.com/questions/59812009/what-is-the-use-of-pythonunbuffered-in-docker-file.
      podTemplateSpec.Spec.Containers[i].Env = append(
         podTemplateSpec.Spec.Containers[i].Env, corev1.EnvVar{
            Name:  "PYTHONUNBUFFERED",
            Value: "0",
         })
      // If the master is not null, then we need to set the MASTER_ADDR and RANK.
      if pytorchjob.Spec.PyTorchReplicaSpecs[kubeflowv1.PyTorchJobReplicaTypeMaster] != nil {
         envVars, err := GetMasterEnvVarGenerator().Generate(pytorchjob)
         if err != nil {
            return err
         }
         // Set master related environment variables.
         podTemplateSpec.Spec.Containers[i].Env = append(
            podTemplateSpec.Spec.Containers[i].Env, envVars...)
         // Set world size and rank.
         rank, err := strconv.Atoi(index)
         if err != nil {
            return err
         }
         if rtype == strings.ToLower(string(kubeflowv1.PyTorchJobReplicaTypeWorker)) {
            rank = rank + 1
         }
         totalReplicas := getTotalReplicas(pytorchjob)
         podTemplateSpec.Spec.Containers[i].Env = append(podTemplateSpec.Spec.Containers[i].Env, corev1.EnvVar{
            Name:  "WORLD_SIZE",
            Value: strconv.Itoa(int(totalReplicas)),
         })
         podTemplateSpec.Spec.Containers[i].Env = append(podTemplateSpec.Spec.Containers[i].Env, corev1.EnvVar{
            Name:  "RANK",
            Value: strconv.Itoa(rank),
         })
         // 新增一个名为NODE_RANK的环境变量
         podTemplateSpec.Spec.Containers[i].Env = append(podTemplateSpec.Spec.Containers[i].Env, corev1.EnvVar{
            Name:  "NODE_RANK",
            Value: strconv.Itoa(rank),
         })
      }
      // Set the elastic environment variables if the elasticPolicy is not null.
      if pytorchjob.Spec.ElasticPolicy != nil {
         envVars, err := GetElasticEnvVarGenerator().Generate(pytorchjob)
         if err != nil {
            return err
         }
         // Set elastic related environment variables.
         podTemplateSpec.Spec.Containers[i].Env = append(
            podTemplateSpec.Spec.Containers[i].Env, envVars...)
      }
   }
   return nil
}
  • 重新编译:go build & docker build
?
1
2
3
4
5
6
# Build manager binary.
go build -o bin/manager cmd/training-operator.v1/main.go
 # Build docker image with the manager.
docker build -t ${IMG} -f build/images/training-operator/Dockerfile .
 # Push docker image with the manager.
docker push ${IMG}
  • 替换掉默认的镜像,在./manifests/base/deployment.yaml里修改镜像地址为上一步骤docker push的地址

分布式训练training-operator和pytorch-distributed RANK变量不统一解决

  • 重新部署, 在./manifests/overlays/standalone目录下
?
1
kubectl apply -k .

获得 NODE_RANK变量

如下:

分布式训练training-operator和pytorch-distributed RANK变量不统一解决

以上就是分布式训练training-operator和pytorch-distributed RANK变量不统一解决的详细内容,更多关于pytorch RANK变量不统一的资料请关注服务器之家其它相关文章!

原文链接:https://juejin.cn/post/7127079132822945800

延伸 · 阅读

精彩推荐
  • Python在Python中构建增广矩阵的实现方法

    在Python中构建增广矩阵的实现方法

    今天小编就为大家分享一篇在Python中构建增广矩阵的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    ARVRinChina4872021-07-27
  • PythonPython运行第一个PySide2的窗体程序

    Python运行第一个PySide2的窗体程序

    本文主要介绍了Python运行第一个PySide2的窗体程序,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    公众号-小博测试成长之路11292021-12-16
  • Pythondjango虚拟环境(virtualenv)的创建

    django虚拟环境(virtualenv)的创建

    在使用django开发项目的时候,一个环境只能对应一个项目,若不安装虚拟环境、都装在系统里面,每次项目加载都需要加载所有的安装包,本文就介绍dja...

    y大壮6772021-12-18
  • Pythonpython调用腾讯云实名认证接口辨别身份证真假

    python调用腾讯云实名认证接口辨别身份证真假

    这篇文章主要为大家介绍了python辨别身份真假之腾讯云身份证实名认证接口,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升...

    苏凉.py7022022-12-25
  • Python基于Matplotlib 调用 pyplot 模块中 figure() 函数处理 figure图形对象

    基于Matplotlib 调用 pyplot 模块中 figure() 函数处理 figure图形对象

    这篇文章主要介绍了基于Matplotlib 调用 pyplot 模块中 figure() 函数处理 figure图形对象,matplotlib.pyplot模块能够快速地生成图像,但如果使用面向对象的编程思...

    睿科知识云11652022-10-10
  • Python浅谈Python数学建模之线性规划

    浅谈Python数学建模之线性规划

    线性规划是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支,它是辅助人们进行科学管理的一种数学方法。研究线性约束条件下线性...

    youcans7252021-12-07
  • Pythonpython not关键字实例用法

    python not关键字实例用法

    在本篇文章里小编给大家整理的是一篇关于python not关键字实例用法,有兴趣的朋友们可以学习下。...

    小妮浅浅5022021-10-09
  • PythonPython实现排序方法常见的四种

    Python实现排序方法常见的四种

    本文给大家分享python四种常见排序方法,每种方法通过实例代码给大家介绍的非常详细,需要的朋友参考下吧...

    小小程序员ol7792021-12-14