【8269CY+2080TI】安装Centos7+CUDA9.0+CUDNN9.0 深度学习环境搭建(二)
作者:小白
前言
好久没有更新教程了,为了生活而忙于工作不能自拔。最近给客户调试了一台深度学习主机,记录下遇到的问题和解决办法,希望可以帮助到大家!
电脑主机配置
CPU:8269CY 2.5Ghz 26C 52T *2
主板:超微X11DAi-N
内存:三星 2933 RECC 16G *8
硬盘:三星 870 QVO 1T 企业级固态
显卡:DELL RTX2080TI 11G *2
电源:长城巨龙 1250W
安装教程即将开始。。。
下载显卡驱动程序、CUDA、CUDNN
1.安装GCC
[root@localhost ~]# yum -y install gcc-c++
已加载插件:fastestmirror,langpacks
Loading mirror speeds from cached hostfile
* base: mirrors.aliyun.com
* extras: mirrors.ustc.edu.cn
* updates: mirrors.ustc.edu.cn
软件包gcc-c++-4.8.5-44.el7.x86_64 已安装并且是最新版本
2.查看显卡信息
[root@localhost ~]# lspci |grep -i nvidia
3.检测内核版本
[root@localhost ~]# uname -r
4.添加ELPepo源
准备中... ################################# [100%]
正在升级/安装...
1:elrepo-release-7.0-4.el7.elrepo #################################[100%]
5.安装NVIDIA驱动检测
[root@localhost ~]# sudo yum install nvidia-detect
已加载插件:fastestmirror, langpacks
Loading mirror speeds from cached hostfile
* base: mirrors.163.com
* elrepo: mirrors.tuna.tsinghua.edu.cn
* extras: mirrors.cn99.com
* updates: mirrors.163.com
elrepo |2.9 kB 00:00:00
elrepo/primary_db | 481 kB 00:00:00
正在解决依赖关系
--> 正在检查事务
---> 软件包 nvidia-detect.x86_64.0.440.64-1.el7.elrepo 将被 安装
--> 解决依赖关系完成
依赖关系解决
=========================================================================================================================================================
Package 架构 版本 源 大小
=========================================================================================================================================================
正在安装:
nvidia-detect x86_64 440.64-1.el7.elrepo elrepo 25 k
事务概要
=========================================================================================================================================================
安装 1 软件包
总下载量:25 k
安装大小:37 k
Is this ok [y/d/N]: y
Downloading packages:
nvidia-detect-440.64-1.el7.elrepo.x86_64.rpm | 25 kB 00:00:00
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
警告:RPM 数据库已被非 yum 程序修改。
正在安装 :nvidia-detect-440.64-1.el7.elrepo.x86_64 1/1
验证中 :nvidia-detect-440.64-1.el7.elrepo.x86_64 1/1
已安装:
nvidia-detect.x86_64 0:440.64-1.el7.elrepo
完毕!
[root@localhost ~]# nvidia-detect -v
Probing for supported NVIDIA devices...
[10de:1e07] NVIDIA Corporation TU102 [GeForce RTX 2080 TiRev. A]
This device requires the current 440.64 NVIDIA driverkmod-nvidia
[1a03:2000] ASPEED Technology, Inc. ASPEED GraphicsFamily
[10de:1e07] NVIDIA Corporation TU102 [GeForce RTX 2080 TiRev. A]
This device requires the current 440.64 NVIDIA driverkmod-nvidia
6.屏蔽nouveau 显卡
[root@localhost ~]# lsmod | grep nouveau
nouveau 1869689 0
video 24538 1 nouveau
mxm_wmi 13021 1 nouveau
i2c_algo_bit 13413 2 ast,nouveau
drm_kms_helper 179394 2 ast,nouveau
ttm 114635 2 ast,nouveau
drm 429744 6 ast,ttm,drm_kms_helper,nouveau
wmi 21636 2 mxm_wmi,nouveau
a.创建blacklist
注意:修改/etc/modprobe.d/blacklist.conf文件;以阻止nouveau 模块的加载;使用root权限;普通用户无法再在/etc内生成.conf文件。
[root@localhost ~]# vim/etc/modprobe.d/blacklist.conf
blacklist nouveau #添加此行
noptions nouveau modeset=0 #添加此行
b.编辑grub文件
[root@localhost ~]# vim /etc/default/grub
在"GRUB_CMDLINE_LINUX"中添加"rd.driver.blacklist=nouveaunouveau.modeset=0"
随后生成配置,:wq 保存并退出。
[root@localhost ~]# grub2-mkconfig -o/boot/grub2/grub.cfg
重启电脑,确认是否禁用了nouveau显卡
[root@localhost ~]# reboot
[root@localhost ~]# lsmod | grep nouveau
7.下载NVIDIA 440.64版本驱动、CUDA 9.0、CUDNN 9.0
注意:这里要对应显卡驱动、CUDA版本号、CUDNN版本号,2080TI+NVIDIA 440.64使用的版本号是CUDA9.0、CUDNN9.0
图片后期找到再补充。。。