slurm kaldi gpu相关问题下(配置文件修改)
发表于:2022-09-22 |
kaldi gpu slurm集群训练配置
1、slurm配置
slurm.conf修改:

 
GresTypes=gpu
NodeName= slave1 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2
NodeName= slave2 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2
注:通过lspci | grep -i nvidia查看gpu型号

2、gres.conf
增加gres.conf文件

NodeName=slave1 Name=gpu File=/dev/nvidia0
NodeName=slave1 Name=gpu File=/dev/nvidia1
NodeName=slave2 Name=gpu File=/dev/nvidia0
NodeName=slave2 Name=gpu File=/dev/nvidia1
3.kaldi中配置
kaldi中slurm.conf修改:

option gpu=* -N1 -n1 -p compute --mem=4G --gres-gpu:$0 --cpus-per-task=6 --time=72:0:0
kaldi中slurm.pl修改:

option gpu=* -p compute --mem=4G --gres-gpu:$0 --time=4:0:0
4.训练脚本中设置--use-gpu=true
上一篇:
docker容器的health健康状态检查
下一篇:
es 安装错误汇总