Slurm ( Simple Linux Utility for Resource Management )是開源的、具有容錯性和高度可擴展大型和小型 Linux集群資源管理和作業(yè)調(diào)度系統(tǒng)。超級計算系統(tǒng)可利用 Slurm 進(jìn)行資源和作業(yè)管理,以避免相互干擾,提高運行效率。所有需運行的作業(yè)無論是用于程序調(diào)試還是業(yè)務(wù)計算均必須通過交互式并行 srun、批處理式 sbatch 或分配式 salloc 等命令提交,提交后可以利用相關(guān)命令查詢作業(yè)狀態(tài)等。
同時北鯤云超算平臺也是使用的Slurm作業(yè)管理系統(tǒng),熟悉slurm作業(yè)管理系統(tǒng)的同學(xué)可以快速上手北鯤云進(jìn)行計算,不熟悉的也沒關(guān)系,一是可以學(xué),我們有完整的教程以及技術(shù)支持服務(wù),另外就是平臺還提供模板提交方式,無需it基礎(chǔ)也可以快速進(jìn)行計算。直接按照模板提示提交作業(yè)即可。多種軟件覆蓋多個行業(yè),歡迎lai'shi'yi's
一. 常用命令?
sinfo #查看分區(qū)狀態(tài)squeue #查看隊列中的作業(yè)scontrol #查看作業(yè)詳細(xì)信息scancel #取消已經(jīng)提交的作業(yè)sbatch #批處理式提交作業(yè)salloc #分配式運行作業(yè)
1. 查看分區(qū)狀態(tài)?
sinfo
CPU分區(qū)命名規(guī)則為c-核心數(shù)-每核心內(nèi)存大小,如c-8-4:表示單節(jié)點規(guī)格為8核,每核心有4G內(nèi)存,即節(jié)點規(guī)格為8核32G。
GPU分區(qū)命名規(guī)則為g-卡號-每節(jié)點卡數(shù),如g-v100-2:表示有兩張顯卡型號為tesla v100的gpu節(jié)點。
2. 查看作業(yè)隊列?
squeue
JOBID:作業(yè)號。
ST:狀態(tài) (R:運行中;CF:配置中;PD:排隊中)。
3. 查看所有作業(yè)詳細(xì)信息?
scontrol show jobs
4. 取消作業(yè)號為20的作業(yè)?
scancel 20
二. 提交作業(yè)的方式?
1. 使用sbatch批處理模式提交作業(yè)?
sbatch命令可以提交任務(wù)至一個或多個計算節(jié)點,實現(xiàn)并行計算。
sbatch命令的一些常用選項:
參數(shù) | 功能 |
---|---|
-N | 申請的節(jié)點數(shù)量 |
-p | 指定計算節(jié)點規(guī)格,使用sinfo查看所支持的規(guī)格 |
-n | 指定任務(wù)數(shù),即并行程序運行多少個進(jìn)程 |
-c | 每進(jìn)程使用的cpu核心數(shù) |
參考運行程序:demo.sh
#!/bin/bashsleep 6000
提交示例:
使用2個4核心節(jié)點啟動8個并行任務(wù)。
sbatch -N 2 -p c-4-1 -n 8 -c 1 demo.sh
1個4核心節(jié)點啟動4個并行任務(wù)。
sbatch -N 1 -p c-4-1 -n 4 -c 1 demo.sh
1個4核心節(jié)點啟動4個并行任務(wù)。
sbatch -p c-4-1 -n 4 demo.sh
1個4核心節(jié)點啟動1個并行任務(wù), 該任務(wù)使用4個cpu核心。
sbatch -p c-4-1 -n 1 -c 4 demo.sh
2個4核心節(jié)點啟動2個并行任務(wù), 每個任務(wù)使用4個cpu核心。
sbatch -p c-4-1 -n 2 -c 4 demo.sh
2. 使用salloc分配模式提交作業(yè)?
salloc命令可以用來分配節(jié)點,用戶可以在獲取分配的計算節(jié)點后,ssh進(jìn)入直接運行相關(guān)計算程序,主要用來調(diào)式程序執(zhí)行。
使用步驟(案例):
Step1. salloc申請計算節(jié)點;
salloc -N 1 -p c-8-2 &
Step2. ssh登錄到分配的計算節(jié)點;
ssh c-8-2-worker0001
Step3. 調(diào)試或運行程序;
./demo.sh
Step4. 結(jié)束程序運行后釋放分配的節(jié)點;
scancel 17
審核編輯:湯梓紅
-
Linux
+關(guān)注
關(guān)注
87文章
11342瀏覽量
210216 -
命令
+關(guān)注
關(guān)注
5文章
696瀏覽量
22084 -
管理系統(tǒng)
+關(guān)注
關(guān)注
1文章
2573瀏覽量
36054
發(fā)布評論請先 登錄
相關(guān)推薦
評論