在GPU服务器上安装CentOS操作系统是搭建高性能计算、深度学习或图形渲染环境的基础步骤,本文将以专业性、权威性、可信度(E-A-T)为核心,提供详细的安装指南,帮助用户快速完成配置并优化性能。
sudo vi /etc/modprobe.d/blacklist-nouveau.conf
添加以下内容:
blacklist nouveau options nouveau modeset=0
sudo dracut --force sudo reboot
安装依赖环境
- 更新系统并安装开发工具:
sudo yum update -y sudo yum install -y kernel-devel kernel-headers gcc make
安装NVIDIA驱动
- 赋予驱动文件执行权限并安装:
chmod +x NVIDIA-Linux-x86_64-*.run sudo ./NVIDIA-Linux-x86_64-*.run
- 根据提示接受协议,忽略“Xorg配置”选项(服务器通常无图形界面)。
验证驱动状态
- 执行命令查看GPU信息:
nvidia-smi
若显示GPU型号、温度和内存占用,则驱动安装成功。
安装CUDA Toolkit(可选)
-
下载与安装
- 从NVIDIA CUDA下载页选择对应版本。
- 使用rpm包安装:
sudo rpm -i cuda-repo-*.rpm sudo yum clean all sudo yum install -y cuda
-
配置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc -
验证CUDA
- 编译并运行示例程序:
cd /usr/local/cuda/samples/1_Utilities/deviceQuery sudo make ./deviceQuery
输出“Result = PASS”表示CUDA安装成功。
- 编译并运行示例程序:
系统优化与安全
-
防火墙配置
- 开放必要端口(如SSH的22端口):
sudo firewall-cmd --permanent --add-port=22/tcp sudo firewall-cmd --reload
- 开放必要端口(如SSH的22端口):
-
定期更新
- 启用自动安全更新:
sudo yum install -y yum-cron sudo systemctl enable yum-cron
- 启用自动安全更新:
-
监控工具
安装htop、nmon等工具,实时监控GPU和CPU状态。
常见问题
- 驱动安装失败:检查内核版本与驱动兼容性,确保
kernel-devel
已安装。 - GPU未被识别:重新插拔硬件,或在BIOS中启用PCIe Gen3/4模式。
- CUDA编译错误:确认gcc版本与CUDA要求一致。
引用说明
本文参考了以下资源:
- CentOS官方文档(https://docs.centos.org)
- NVIDIA驱动安装指南(https://docs.nvidia.com/datacenter)
- CUDA Toolkit文档(https://docs.nvidia.com/cuda)