Q&A¶

Slurm服务异常¶

部分节点断电等突发状况会导致Slurm服务异常，重启即可

#服务端
systemctl restart slurmdbd
systemctl restart slurmctld

#客户端
pdsh -w ssh:mu01,cu0[1-5] systemctl restart slurmd

NAT转发联网失效¶

参考网络配置排查即可

GPU掉卡¶

可以先禁用对应GPU，重启后显卡会正确识别

#禁用显卡0000:25:00.0
nvidia-smi drain -p 0000:25:00.0 -m 1

下载worker失联¶

物理机关机或者worker服务断开都会出现worker失联的情况，可以按照以下顺序排查：

1、检查worker服务状态¶

登录worker对应节点，检查worker服务是否正常(顺便确认下NFS盘挂载情况)，如果无法登录节点则参考下一步

#以worker为关键词检索对应worker是否存在
ps aux |grep " worker "
#如果存在可以看看是否断网了

2、检查物理机状态¶

根据worker信息表确定物理机的位置，如果处于关机状态，直接开机即可，如果是开机状态可以接上显示器查看具体情况。开机后理论上会自动拨号上网，如果无法通过终端访问该节点，可以连接显示器查看具体情况。联网成功后启用服务即可

#检查NFS是否挂载成功(一般情况开机会自动挂载)
df -h
#如果没有成功则手动挂载
# 启动docker镜像(部分节点部署在本地，调过这一步即可)
docker run -it --name dl1 -v /public/idata/tmp/download/dl1_mu01:/dl -w /download/IData_alpha/idata_alpha downloader:v0.9 /bin/bash
#启动服务
python3 run_worker.py -n dl1_mu01

显卡驱动报错¶

#检查cuda
nvcc -V
#查看驱动版本号
ls /usr/src | grep nvidia
#nvidia-535.230.02

#利用dkms安装该驱动
#apt install dkms
dkms install -m nvidia -v 535.230.02

本文阅读量次
本站总访问量次

Authors: Wind