模型训练时GPU利用率太低的原因及解决_Python

模型训练时GPU利用率太低的原因及解决

2023-02-26 13:03. 小王同学. Python

这篇文章主要介绍了模型训练时GPU利用率太低的原因及解决方案，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

模型训练时GPU利用率太低的原因

最近在训练SSD模型时发现GPU的利用率只有8%，而CPU的利用率却非常高。

后来了解到，一般使用CPU进行数据的读取和预处理，而使用GPU进行模型的正向传播和反向传播。由于CPU数据读取跟不上（读到内存+多线程+二进制文件），而GPU的处理速度太快，导致GPU的利用率不高。

最后总结一下，有的时候模型训练慢并不是因为显卡不行或者模型太大，而是在跑模型过程中有一些其他的操作导致速度很慢，尤其是文件的IO操作，这会导致GPU得不到连续性使用，整体速度特别慢。

问题的解决办法

1，关闭一些日志记录，减少日志IO操作频率。

2，NVIDA提供了DALI库，可以将数据处理转移到GPU上。

模型训练GPU利用率低，占用低怎么破

GPU 的显存占用和算力利用直接影响模型的训练速度

GPU 显存占用低问题

1、提高batch_size

2、提高模型输入尺寸

3、增加模型深度

推荐：优先提高batch_size, 其他方法会对模型结构产生影响

GPU利用率低问题

1、提高线程数

2、打开pin_memory

				?

									# 在pytorch 加载数据时提高线程数，打开pin_memory

									torch.utils.data.DataLoader(image_datasets[x],

									                            batch_size=batch_size, 

									                            shuffle=True,

									                            num_workers=8,

									                            pin_memory=True)