Ubuntu驱动nvidia更新与说明
发表于:2022-04-27 |
 ubuntu18.04
 
 nvidia-smi是nvidia 的系统管理界面 ,其中smi是System management interface的缩写,
 它可以收集各种级别的信息,查看显存使用情况。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。
 
 查看GPU信息报错如下:
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# nvidia-smi
 
 Failed to initialize NVML: Driver/library version mismatch
 
 查找本机内核版本:
 
 cat /proc/driver/nvidia/version
 
 查看客户端驱动版本:
 
 cat /var/log/dpkg.log | grep nvidia

 #发现明显不一样,一个是400.82,一个是400.100,内核版本低于客户端版本。
 
 再查看系统日志:

 直接提示原因是:NVIDIA 内核驱动版本与系统驱动不一致导致
 
 解决方法:
 卸载驱动:
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia
 
 rmmod: ERROR: Module nvidia is in use by: nvidia_uvm nvidia_modeset
 
 卸载失败,提示要先卸载依赖:
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_uvm
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_modeset
 
 rmmod: ERROR: Module nvidia_modeset is in use by: nvidia_drm
 
 继续根据提示卸载依赖:
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_drm
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_modeset
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia
 
 最后重新查看GPU信息:
 
 root@iZ2zeiflf48wp1ved7nnnmZ:~# nvidia-smi
 

 重新查看驱动内核版本和客户端版本已经一致:
 
  
 
 
 
 这是服务器上Ubuntu18.04的信息。 
 上面的表格中: 
 第一栏的Fan:0表示只有一块GPU,0下面的N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如云主机)。 
 第二栏的Temp:是温度,单位摄氏度。 
 第三栏的Perf:是性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。 
 第四栏下方的Pwr:是能耗,28W / 250W表示当前功率和总功率;上方的Persistence-M:是GPU常驻持续模式,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。 
 第五栏的Bus-Id:00000000:00:09.0是GPU总线相关的东西,domain:bus:device.function(域:总线:设备.功能) 
 第六栏的Disp.A是Display Active(显示活动),表示GPU的显示是否初始化。 
 第五第六栏下方的Memory Usage是显存使用率,0MiB / 16280MiB表示:系统占用显存数量/显存总大小。 
 第七栏是浮动的GPU利用率。 
 第八栏上方是关于ECC的东西,这是显示off(关闭)。 
 第八栏下方Compute M:默认模式是计算。 
 下面如果有进程的化会显示一格:表示每个进程占用的显存使用率。
上一篇:
docker批量重启容器服务
下一篇:
解决Driver/library version mismatch