CFDLabServerManual 下
這篇是CFDLab的server灌系統流程下篇,內容包括infiniband driver及cuda的安裝,以及小型server的ip設定。感謝實驗室前輩的傳承和同學們的努力。
安裝InfiniBand driver及compiler
Infiniband
安裝包USB把MLNX_OFED...5.0.2..
解壓檔縮放到桌面。
安裝infiniband driver:
1 | cd ~/Desktop #如果路徑不在桌面要先進桌面 |
檢查 infiniband狀態,接上infiband後再進行(用外面的switch或是抬進server房):
1 | ibstat #檢查 infiniband狀態,如果Active Linkup 代表 ok |
小server設定ip流程(大型server不用)
(小server因為無法直接設定infiniband的ip需要繞路(ibstate
會顯示”cannot found uuid” ))
1 | ip a #檢查infiniband的mac碼,需記下後面要用 |
檔案中設定:
1 | TYPE=InfiniBand |
1 | # 確定連線狀態: |
CUDA
安裝包USB把cuda...10.2.89..run
解壓檔縮放到桌面。(檔案很大要等一下)ctrl
+alt
+F1
(or F2
, F3
)進入文字界面。
1 | cd /root/Desktop #進入桌面 |
等待程式執行提出問題,輸入accept
。
之後進入安裝介面,選項全選。
(等超久,如果中途沒有自動跳出就安裝成功!!)
中途failed的解決方式:
1 | vi /var/log/nvidia-installer.log #看哪裡出錯 |
根據以上的資訊除錯:
- 如果跟 X server有關:
1
systemctl stop gdm
- 如果跟 nouveau 有關:加入以下內容:
1
2startx #回到圖形界面
vi /etc/modprobe.d/blacklist-nouveau.conf回到terminal:1
2blacklist nouveau
options nouveau modeset=01
2sudo dracut --force
reboot - 防火牆
1
2systemctl disable firewalld
systemctl stop firewalld
確認:
1 | nvidia -smi #有抓到顯卡就ok |