CFDLabServerManual 下

這篇是CFDLab的server灌系統流程下篇,內容包括infiniband driver及cuda的安裝,以及小型server的ip設定。感謝實驗室前輩的傳承和同學們的努力。

安裝InfiniBand driver及compiler

Infiniband

安裝包USB把MLNX_OFED...5.0.2..解壓檔縮放到桌面。
安裝infiniband driver:

1
2
3
4
5
6
7
8
cd ~/Desktop #如果路徑不在桌面要先進桌面
tar zxvf MLNX_OFED...5.0.2.. #解壓縮放到桌面的壓縮檔
cd MLNX... #進到解壓縮後的資料夾
./mlnx...install #進行安裝
/etc/init.d/openibd restart #重啟
reboot #可跳過
systemctl start opensmd #重啟服務,OpenSM是InfiniBand兼容的子網管理器和子網管理員,需要它来初始化InfiniBand硬體。
systemctl enable opensmd #啟動服務

檢查 infiniband狀態,接上infiband後再進行(用外面的switch或是抬進server房):

1
ibstat #檢查 infiniband狀態,如果Active Linkup 代表 ok 

小server設定ip流程(大型server不用)

(小server因為無法直接設定infiniband的ip需要繞路(ibstate會顯示”cannot found uuid” ))

1
2
3
ip a #檢查infiniband的mac碼,需記下後面要用
uuidgen ib0 #新增ib0的uuid,一樣要記下後面要用
vi /etc/sysconfig/network-script/ifcfg-ib0 #新增ib0的網路設定

檔案中設定:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
TYPE=InfiniBand
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=none
IPADDR=192.168.170.13X #看第幾台
PREFIX=24
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
UUID=XXXXX.... #前面uuidgen跑出來的值
HWADDR=XX:XX:XX:XX... #ip a 抓到的mac碼
DEVICE=ib0
NAME=ib0
IPV6_PRIVACY=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=InfiniBand
ONBOOT=yes
1
2
3
# 確定連線狀態:
ifup ib0 #打開網路
ping 192.168.170.X #檢查看看

CUDA

安裝包USB把cuda...10.2.89..run解壓檔縮放到桌面。(檔案很大要等一下)
ctrl+alt+F1(or F2, F3)進入文字界面。

1
2
cd /root/Desktop #進入桌面
sh cuda...10.2.89..run

等待程式執行提出問題,輸入accept
之後進入安裝介面,選項全選。
(等超久,如果中途沒有自動跳出就安裝成功!!)

中途failed的解決方式:

1
vi /var/log/nvidia-installer.log #看哪裡出錯

根據以上的資訊除錯:

  • 如果跟 X server有關:
    1
    systemctl stop gdm
  • 如果跟 nouveau 有關:
    1
    2
    startx #回到圖形界面
    vi /etc/modprobe.d/blacklist-nouveau.conf
    加入以下內容:
    1
    2
    blacklist nouveau
    options nouveau modeset=0
    回到terminal:
    1
    2
    sudo dracut --force
    reboot
  • 防火牆
    1
    2
    systemctl disable firewalld
    systemctl stop firewalld

確認:

1
nvidia -smi #有抓到顯卡就ok