服务器没有安装slurm集群,是否能避免使用slurm进行单GPU的测试?
我将测试脚本里的srun语句注释后,test.py里仍然需要进行dist_init的操作。
def dist_init(method='slurm', port='5671'):
assert method == 'slurm'
proc_id = int(os.environ['SLURM_PROCID'])
num_gpus = torch.cuda.device_count()
torch.cuda.set_device(proc_id % num_gpus)