Linux是一套免費使用和自由傳播的類Unix操作系統(tǒng),是一個基于POSIX和UNIX的多用戶、多任務(wù)、支持多線程和多CPU的操作系統(tǒng)。它能運行主要的UNIX工具軟件、應(yīng)用程序和網(wǎng)絡(luò)協(xié)議。
1.前言
處理機(jī)(CPU)是整個計算機(jī)系統(tǒng)的核心資源,在多進(jìn)程的操作系統(tǒng)中,進(jìn)程數(shù)往往多于處理機(jī)數(shù),這將導(dǎo)致各進(jìn)程互相爭奪處理機(jī)。進(jìn)程調(diào)度對系統(tǒng)功能的實現(xiàn) 及各方面的性能都有著決定性的影響,其實質(zhì)就是把處理機(jī)公平、合理、高效地分配給各個進(jìn)程。調(diào)度是實現(xiàn)多任務(wù)并發(fā)執(zhí)行的必要手段,不同的操作系統(tǒng)有著不同 的調(diào)度目標(biāo)。在傳統(tǒng)的Unix類分時系統(tǒng)中,保證多個進(jìn)程公平地使用系統(tǒng)資源,提供較好的響應(yīng)時間是調(diào)度的主要目標(biāo);而在強實時操作系統(tǒng)中,總是優(yōu)先級高 的任務(wù)優(yōu)先獲得處理機(jī)的使用權(quán)。
Linux具有內(nèi)核穩(wěn)定、功能強大、可裁減、低成本等特點,非常適合嵌入式應(yīng)用。但是Linux內(nèi)核本身并不具備 強實時特性,且內(nèi)核體積較大,因此,想要把Linux用于嵌入式系統(tǒng),必須對Linux進(jìn)行實時化、嵌入式化。Linux結(jié)合實時進(jìn)程和非實時進(jìn)程(普通 進(jìn)程)自身的特點,綜合了上述幾種調(diào)度策略,實現(xiàn)了高效、靈活的進(jìn)程調(diào)度。
2.Linux進(jìn)程調(diào)度分析
2.1 Linux進(jìn)程狀態(tài)的描述
Linux將進(jìn)程狀態(tài)描述為如下五種:
TASK_RUNNING:可運行狀態(tài)。處于該狀態(tài)的進(jìn)程可以被調(diào)度執(zhí)行而成為當(dāng)前進(jìn)程。
TASK_INTERRUPTIBLE:可中斷的睡眠狀態(tài)。處于該狀態(tài)的進(jìn)程在所需資源有效時被喚醒,也可以通過信號或定時中斷喚醒。
TASK_UNINTERRUPTIBLE:不可中斷的睡眠狀態(tài)。處于該狀態(tài)的進(jìn)程僅當(dāng)所需資源有效時被喚醒。
TASK_ZOMBIE:僵尸狀態(tài)。表示進(jìn)程結(jié)束且已釋放資源,但其task_STruct仍未釋放。
TASK_STOPPED:暫停狀態(tài)。處于該狀態(tài)的進(jìn)程通過其他進(jìn)程的信號才能被喚醒。
2.2 調(diào)度方式
Linux中的每個進(jìn)程都分配有一個相對獨立的虛擬地址空間。該虛存空間分為兩部分:用戶空間包含了進(jìn)程本身的代碼和數(shù)據(jù);內(nèi)核空間包含了操作系統(tǒng)的代碼和數(shù)據(jù)。
Linux采用“有條件的可剝奪”調(diào)度方式。對于普通進(jìn)程,當(dāng)其時間片結(jié)束時,調(diào)度程序挑選出下一個處于TASK_RUNNING狀態(tài)的進(jìn)程作為當(dāng)前進(jìn)程 (自愿調(diào)度)。對于實時進(jìn)程,若其優(yōu)先級足夠高,則會從當(dāng)前的運行進(jìn)程中搶占CPU成為新的當(dāng)前進(jìn)程(強制調(diào)度)。發(fā)生強制調(diào)度時,若進(jìn)程在用戶空間中運 行,就會直接被剝奪CPU;若進(jìn)程在內(nèi)核空間中運行,即使迫切需要其放棄CPU,也仍要等到從它系統(tǒng)空間返回的前夕才被剝奪CPU。
3.調(diào)度策略
3.1 三種調(diào)度策略
(1)SCHED_OTHER。SCHED_OTHER是面向普通進(jìn)程的時間片輪轉(zhuǎn)策略。采用該策略時,系統(tǒng)為處于TASK_RUNNING狀態(tài)的每個進(jìn)程分配一個時間片。當(dāng)時間片用完時,進(jìn)程調(diào)度程序再選擇下一個優(yōu)先級相對較高的進(jìn)程,并授予CPU使用權(quán)。
(2)SCHED_FIFO。SCHED_FIFO策略適用于對響應(yīng)時間要求比較高,運行所需時間比較短的實時進(jìn)程。采用該策略時,各實時進(jìn)程按其進(jìn)入可 運行隊列的順序依次獲得CPU。除了因等待某個事件主動放棄CPU,或者出現(xiàn)優(yōu)先級更高的進(jìn)程而剝奪其CPU之外,該進(jìn)程將一直占用CPU運行。
(3)SCHED_RR。SCHED_RR策略適用于對響應(yīng)時間要求比較高,運行所需時間比較長的實時進(jìn)程。采用該策略時,各實時進(jìn)程按時間片輪流使用CPU。當(dāng)一個運行進(jìn)程的時間片用完后,進(jìn)程調(diào)度程序停止其運行并將其置于可運行隊列的末尾。
3.2 進(jìn)程調(diào)度依據(jù)
Linux只有一個可運行隊列,處于TASK_RUNNING狀態(tài)的實時進(jìn)程和普通進(jìn)程都加入到這個可運行隊列中。Linux的進(jìn)程調(diào)度采用了動態(tài)優(yōu)先級 和權(quán)值調(diào)控的方法,既可實現(xiàn)上述三種調(diào)度策略,又能保證實時進(jìn)程總是比普通進(jìn)程優(yōu)先使用CPU。描述進(jìn)程的數(shù)據(jù)結(jié)構(gòu)task_struct中用以下幾個數(shù) 據(jù)作為調(diào)度依據(jù):
Struct task_struct {
……
volaTIle lONg need_resched; /*是否需要重新調(diào)度*/long counter; /*進(jìn)程當(dāng)前還擁有的時間片*/
long nice; /*普通進(jìn)程的動態(tài)優(yōu)先級,來自UNIX系統(tǒng)*/unsigned long policy; /*進(jìn)程調(diào)度策略*/
unsigned long rt_priority; /*實時進(jìn)程的優(yōu)先級*/……
};
counter的值是動態(tài)變化的,進(jìn)程運行時,每一個時鐘滴答后,其值減1。當(dāng)counter值為0時,表示該進(jìn)程時間片已用完,該進(jìn)程回到可運行隊列中,等待再次調(diào)度。
為保證實時進(jìn)程優(yōu)于普通進(jìn)程,Linux采取加權(quán)處理法。在進(jìn)程調(diào)度過程中,每次選取下一個運行進(jìn)程時,調(diào)度程序首先給可運行隊列中的每個進(jìn)程賦予一個權(quán) 值weight。普通進(jìn)程的權(quán)值就是其counter和優(yōu)先級nice的綜合,而實時進(jìn)程的權(quán)值是它的rt_priority的值加1000,確保實時進(jìn) 程的權(quán)值總能大于普通進(jìn)程。調(diào)度程序檢查可運行隊列中所有進(jìn)程的權(quán)值,選取權(quán)值最大者作為下一個運行進(jìn)程,保證了實時 進(jìn)程優(yōu)先于普通進(jìn)程獲得CPU。 Linux使用內(nèi)核函數(shù)goodness()對進(jìn)程進(jìn)行加權(quán)處理:
StaTIc inline goodness (struct task_struct * pint this_cpu, struct mm_struct *this_mm){
Int weight;
Weight=-1;
/*判斷如果任務(wù)的調(diào)度策略被置為SCHED_YIELD的話,則置權(quán)值為-1,返回。系統(tǒng)調(diào)用SCHED_YIELD表示為“禮讓”進(jìn)程,其權(quán)值為最低*/If (p-》policy & SCHED_YIELD)
goto out;
/*先對普通進(jìn)程進(jìn)行處理(由于多數(shù)是普通進(jìn)程,這樣做有利于提高系統(tǒng)效率)*/If (p-》policy==SCHED_OTHER){
weight=p-》counter; /*返回權(quán)值為進(jìn)程的counter值*//*如果當(dāng)前進(jìn)程的counter為0,則表示當(dāng)前進(jìn)程的時間片已用完,直接返回*/If (! weight)
Goto out;
#Ifdef CONFIG_SMP
If (p-》processor==this_cpu)
Weight+=PROC_CHANGE_PENALTY;
#Endif
/*對進(jìn)程權(quán)值進(jìn)行微調(diào),如果進(jìn)程的內(nèi)存空間使用當(dāng)前正在運行的進(jìn)程的內(nèi)存空間,則權(quán)值額外加1*/If (p-》mm==this_mm||! p-》mm)
Weight+=1;
/*將權(quán)值加上20與進(jìn)程優(yōu)先級nice的差。普通進(jìn)程的權(quán)值主要由counter值和nice值組成*/Weight+=20-p-》nice;
Goto out;
}
/*對實時進(jìn)程進(jìn)行處理,返回權(quán)值為rt_priority+1000,確保優(yōu)先級高于普通進(jìn)程*/Weight=1000+p-》rt_priority;
Out:
return weight;
}
從goodness()函數(shù)可以看出,對于普通進(jìn)程,其權(quán)值主要取決于剩余的時間配額和nice兩個因素。nice的規(guī)定取值范圍為19~-20,只有特 權(quán)用戶才能把nice值設(shè)為負(fù)數(shù),而表達(dá)式(20-p-》nice)掉轉(zhuǎn)方向成為1~40。所以,綜合的權(quán)值在時間片尚未用完時基本上是兩者之和。 如果是內(nèi)核進(jìn)程,或者其用戶空間與當(dāng)前進(jìn)程相同,則權(quán)值將額外加1作為獎勵。對于實時進(jìn)程,其權(quán)值為1000+p-》rt_priority,當(dāng) p-》counter達(dá)到0時該進(jìn)程將移到隊列的尾部,但其優(yōu)先級仍不少于1000。可見當(dāng)有實時進(jìn)程就緒時,普通進(jìn)程是沒機(jī)會運行的。
由此可以看出,通過goodness()函數(shù),Linux從優(yōu)先考慮實時進(jìn)程出發(fā),實現(xiàn)了多種調(diào)度策略的統(tǒng)一處理,其設(shè)計思想可謂非常巧妙。
3.3 進(jìn)程調(diào)度
Linux的進(jìn)程調(diào)度由調(diào)度程序schedule()完成,通過對schedule()的分析能更好理解調(diào)度的過程。schedule()首先判斷當(dāng)前運行進(jìn)程是否具有SCHED_RR 標(biāo)志,本文取一部分加以分析:
if (prev-》policy==SCHED_RR) /*如果是輪轉(zhuǎn)調(diào)度,先作goto特殊處理*/Goto move_rr_last;
……
Move_rr_last:
If (! prev-》counter){ /*如果counter減至0*/Prev-》counter=NICE_TO_TICKS (prev-》nice);Move_last_runqueue (prev);
}
Goto move_rr_back;
prev-》counter代表當(dāng)前進(jìn)程的運行時間配額,其值逐漸減小。一旦減至0,就要從可執(zhí)行隊列runqueue中當(dāng)前的位置移到末尾,宏操 作NICE_TO_TICKS根據(jù)系統(tǒng)時鐘的精度將進(jìn)程的優(yōu)先級別換算成可以運行的時間配額,即恢復(fù)其初始的時間配額。把該進(jìn)程移到末尾意味著:如果沒有 權(quán)值更高的進(jìn)程,但是有一個權(quán)值與這相同的進(jìn)程存在,那么,那個權(quán)值相同而排列在前的進(jìn)程就會被選中,從而顧全了大局。
接下來調(diào)度函數(shù)查詢當(dāng)前運行進(jìn)程的狀態(tài)是否改變:
Move_rr_back:
switch(prev-》state){ /*查看進(jìn)程當(dāng)前的狀態(tài)*/Case TASK_INTERRUPTIBLE:
if (signal pending(prev)){ /*判斷運行期間是否收到信號*/Prev-》state=TASK_RUNNING;
Break;
}
default: /*當(dāng)前運行進(jìn)程處于非TASK_RUNNING狀態(tài)*/Del_from_runqueue (prev);
Case TASK_RUNNING:
}
Prev-》need_resched=0;
容易理解:如果發(fā)現(xiàn)進(jìn)程處于TASK_INTERRUPTIBLE狀態(tài)且有信號等待處理,則內(nèi)核將其狀態(tài)設(shè)為TASK_RUNNING,讓其處理完信號, 接下來仍有機(jī)會獲得CPU;如果沒有信號等待,則將其從可運行隊列中撤下來;如果處于TASK_RUNNING狀態(tài),則繼續(xù)進(jìn)行。然后,將 prev-》need_resched的值恢復(fù)成0,因為所需的調(diào)度已經(jīng)在運行。
Repeat schedule ():
next=idle_task(this_cpu); /*next指向最佳候選進(jìn)程*/c=-1000; /*進(jìn)程的綜合權(quán)值,初始時是0號進(jìn)程,-1000是可能的最低值*/If (prev-》state==TASK_RUNNING)
Goto still_running;
Still_running_back:
List_for_each (tmp, &runqueue_head){
P=list_entry (tmp, struct task_struct, run_list);if (can_schedule(p,this_cpu)){ /*計算p指向的進(jìn)程的權(quán)值*/Int weight=goodness (p, this_cpu, prev-》active_mm);if (weight》c) /*比較權(quán)值大小*/
C=weight, next=p;
}
}
調(diào)度之前,將待調(diào)度的進(jìn)程默認(rèn)為0號進(jìn)程,權(quán)值置為-1000。0號進(jìn)程比較特別,既不會睡眠,又不能被殺死。接下來內(nèi)核遍歷可執(zhí)行隊列run queue中的每個進(jìn)程,為每個進(jìn)程通過goodness()函數(shù)計算出它當(dāng)前所具有的權(quán)值,然后與當(dāng)前的最高值c相比。如果兩個進(jìn)程具有相同權(quán)值的話, 那么排在前面的進(jìn)程勝出。
Still_running:
C=goodness (prev, this_cpu, prev-》active_mm);Next=prev;
Goto still_running_back;
上面的代碼告訴我們,如果當(dāng)前進(jìn)程想要繼續(xù)運行,那么在挑選進(jìn)程時以當(dāng)前進(jìn)程此刻的權(quán)值開始。這意味著,相對于權(quán)值相同的其他進(jìn)程來說,當(dāng)前進(jìn)程優(yōu)先。
若發(fā)現(xiàn)當(dāng)前已選進(jìn)程的權(quán)值為0,則需要重新計算各個進(jìn)程的時間配額,schedule()將轉(zhuǎn)入recalculate部分。限于篇幅,在此不再展開。
4.結(jié)束語
以上結(jié)合代碼簡要介紹了Linux中進(jìn)程調(diào)度的基本思想、依據(jù)和策略,容易發(fā)現(xiàn)Linux高效率和較強支持并發(fā)進(jìn)程等特點。近年來,嵌入式Linux的研 究正在成為一個熱點,理解Linux進(jìn)程調(diào)度的原理,并在此基礎(chǔ)上改進(jìn)調(diào)度算法可能存在的缺陷,可以進(jìn)一步增強其對實時性的支持,使之進(jìn)一步適應(yīng)在嵌入式 系統(tǒng)領(lǐng)域內(nèi)的應(yīng)用。
責(zé)任編輯:ct
評論
查看更多