Q&A¶
Slurm服务异常¶
部分节点断电等突发状况会导致Slurm服务异常,重启即可
#服务端
systemctl restart slurmdbd
systemctl restart slurmctld
#客户端
pdsh -w ssh:mu01,cu0[1-5] systemctl restart slurmd
NAT转发联网失效¶
参考网络配置排查即可
GPU掉卡¶
可以先禁用对应GPU,重启后显卡会正确识别
#禁用显卡0000:25:00.0
nvidia-smi drain -p 0000:25:00.0 -m 1
下载worker失联¶
物理机关机或者worker服务断开都会出现worker失联的情况,可以按照以下顺序排查:
1、检查worker服务状态¶
登录worker对应节点,检查worker服务是否正常(顺便确认下NFS盘挂载情况),如果无法登录节点则参考下一步
#以worker为关键词检索对应worker是否存在
ps aux |grep " worker "
#如果存在可以看看是否断网了
2、检查物理机状态¶
根据worker信息表确定物理机的位置,如果处于关机状态,直接开机即可,如果是开机状态可以接上显示器查看具体情况。开机后理论上会自动拨号上网,如果无法通过终端访问该节点,可以连接显示器查看具体情况。联网成功后启用服务即可
#检查NFS是否挂载成功(一般情况开机会自动挂载)
df -h
#如果没有成功则手动挂载
# 启动docker镜像(部分节点部署在本地,调过这一步即可)
docker run -it --name dl1 -v /public/idata/tmp/download/dl1_mu01:/dl -w /download/IData_alpha/idata_alpha downloader:v0.9 /bin/bash
#启动服务
python3 run_worker.py -n dl1_mu01
显卡驱动报错¶
#检查cuda
nvcc -V
#查看驱动版本号
ls /usr/src | grep nvidia
#nvidia-535.230.02
#利用dkms安装该驱动
#apt install dkms
dkms install -m nvidia -v 535.230.02
本站总访问量 次
Authors: