Skip to content

Q&A

Slurm服务异常

部分节点断电等突发状况会导致Slurm服务异常,重启即可

#服务端
systemctl restart slurmdbd
systemctl restart slurmctld

#客户端
pdsh -w ssh:mu01,cu0[1-5] systemctl restart slurmd

NAT转发联网失效

参考网络配置排查即可

GPU掉卡

可以先禁用对应GPU,重启后显卡会正确识别

#禁用显卡0000:25:00.0
nvidia-smi drain -p 0000:25:00.0 -m 1

下载worker失联

物理机关机或者worker服务断开都会出现worker失联的情况,可以按照以下顺序排查:

1、检查worker服务状态

登录worker对应节点,检查worker服务是否正常(顺便确认下NFS盘挂载情况),如果无法登录节点则参考下一步

#以worker为关键词检索对应worker是否存在
ps aux |grep " worker "
#如果存在可以看看是否断网了

2、检查物理机状态

根据worker信息表确定物理机的位置,如果处于关机状态,直接开机即可,如果是开机状态可以接上显示器查看具体情况。开机后理论上会自动拨号上网,如果无法通过终端访问该节点,可以连接显示器查看具体情况。联网成功后启用服务即可

#检查NFS是否挂载成功(一般情况开机会自动挂载)
df -h
#如果没有成功则手动挂载
# 启动docker镜像(部分节点部署在本地,调过这一步即可)
docker run -it --name dl1 -v /public/idata/tmp/download/dl1_mu01:/dl -w /download/IData_alpha/idata_alpha downloader:v0.9 /bin/bash
#启动服务
python3 run_worker.py -n dl1_mu01

显卡驱动报错

#检查cuda
nvcc -V
#查看驱动版本号
ls /usr/src | grep nvidia
#nvidia-535.230.02

#利用dkms安装该驱动
#apt install dkms
dkms install -m nvidia -v 535.230.02
本文阅读量  次
本站总访问量  次
Authors: Wind