反向映射的目的是為了找到所有映射到某一個(gè)頁(yè)面的頁(yè)表項(xiàng),從而可以對(duì)目標(biāo)頁(yè)做一些操作,比如切斷映射。
反向映射一直是一個(gè)非常神奇的存在,今天我們就好好探索一下這個(gè)知識(shí)點(diǎn)。
創(chuàng)建
在反向匿名映射中除了page struct,一共有三個(gè)相關(guān)的數(shù)據(jù)結(jié)構(gòu):
vm_area_struct
anon_vma
anon_vma_chain
第一個(gè)數(shù)據(jù)結(jié)構(gòu)我們已經(jīng)見過(guò)了,是一個(gè)老朋友。而后兩者就是為了構(gòu)造反向匿名映射而新生的。我們先來(lái)看看這兩個(gè)新的數(shù)據(jù)結(jié)構(gòu)的樣子。
anon_vma
anon_vma +----------------------------+ |root | = self |parent | = self | (struct anon_vma*) | |refcount | = 1 | (atomic_t) | |degree | = 1 | (unsigned) | +----------------------------+
這個(gè)結(jié)構(gòu)由anon_vma_alloc()函數(shù)統(tǒng)一生成,上圖中也顯示了創(chuàng)造出來(lái)時(shí)候的樣子。從這里看,也就是個(gè)帶有上下級(jí)關(guān)系的這么一個(gè)結(jié)構(gòu)。
anon_vma_chain
anon_vma_chain +----------------------------+ |vma | | (struct vm_area_struct*)| |anon_vma | | (struct anon_vma*) | | | |rb | | (struct rb_node) | |same_vma | | (struct list_head) | +----------------------------+
這個(gè)結(jié)構(gòu)由anon_vma_chain_alloc()統(tǒng)一創(chuàng)建,貌似創(chuàng)建完了也不需要初始化,拿來(lái)后面就直接用了。
組合
到這里,大家應(yīng)該感覺(jué)怪怪的,都不知道這些東西是個(gè)啥。別急,我把這些東西組合起來(lái),可能你就會(huì)有一些感覺(jué)了。
在這里,我們把這三個(gè)重要的數(shù)據(jù)結(jié)構(gòu)之間的組合關(guān)系展現(xiàn)給大家。當(dāng)然這只是最簡(jiǎn)單的組合關(guān)系,目的是為了讓大家能有一個(gè)感性的認(rèn)識(shí)。
anon_vma_chain鏈接了anon_vma和vma
vma則會(huì)有指針指向自己的anon_vma
空口無(wú)憑,眼見為實(shí)。那為什么會(huì)長(zhǎng)成這樣的呢?接下來(lái)我們就來(lái)看看在內(nèi)核中我們是如何將這些數(shù)據(jù)結(jié)構(gòu)鏈接起來(lái)的。
鏈接
上一節(jié)的最后,我們看到了三個(gè)重要的數(shù)據(jù)結(jié)構(gòu)通過(guò)鏈表和樹連接在了一起,這一節(jié)我們就來(lái)看看他們是怎么連接起來(lái)的。
anon_vma_chain_link
往簡(jiǎn)單了講,要連接這三個(gè)重要的數(shù)據(jù)結(jié)構(gòu),都靠一個(gè)函數(shù):anon_vma_chain_link(vma, avc, anon_vma)。而這個(gè)函數(shù)本身簡(jiǎn)單到令人發(fā)指,以至于我能把整個(gè)定義給大家展示出來(lái)。
static void anon_vma_chain_link(struct vm_area_struct *vma, struct anon_vma_chain *avc, struct anon_vma *anon_vma) { avc->vma = vma; avc->anon_vma = anon_vma; list_add(&avc->same_vma, &vma->anon_vma_chain); anon_vma_interval_tree_insert(avc, &anon_vma->rb_root); }
你對(duì)照這上面的圖一看,和圖上顯示的一摸一樣沒(méi)有任何多余的步驟。
但是,關(guān)鍵的但是來(lái)了,如果你以為一切就這這么簡(jiǎn)單,那就too young too simple了啊。
接下來(lái)我們將從anon_vma_chain_link函數(shù)被調(diào)用的關(guān)系入手,去看看在實(shí)際運(yùn)行中究竟會(huì)演化出什么樣的變化來(lái)。
do_anonymous_page
首先出場(chǎng)的是函數(shù)do_anonymous_page,這個(gè)函數(shù)是在匿名頁(yè)缺頁(yè)中斷時(shí)會(huì)調(diào)用的函數(shù)。
do_anonymous_page(vmf) __anon_vma_prepare(vma) avc = anon_vma_chain_alloc() anon_vma = find_mergeable_anon_vma(vma) anon_vma = anon_vma_alloc() vma->anon_vma = anon_vma anon_vma_chain_link(vma, avc, anon_vma)
從上面的流程可以看出,當(dāng)發(fā)生缺頁(yè)中斷時(shí),內(nèi)核會(huì)給對(duì)應(yīng)的vma構(gòu)造anon_vma,并且利用avc去鏈接這兩者。這種可以說(shuō)是系統(tǒng)中最簡(jiǎn)單的例子,也是上圖中顯示的情況。
細(xì)心的人可能已經(jīng)看到了,上面有一種情況是find_mergeable_anon_vma。如果這個(gè)函數(shù)返回一個(gè)可以重用的anon_vma,那么內(nèi)核就可以利用原有的anon_vma了。此時(shí)這個(gè)圖我們可以畫成這樣。
....................... ************************* . . * * av v avc v v vma v +-----------+ +-------------+ +-------------+ | |<------------|anon_vma vma|------------>| | | |<- | | | | +-----------+ +-------------+ +-------------+ ^ ^ ^ ^ . . * * . . ************************* . . . . . . ************************* . . * * . avc v v vma v . +-------------+ +-------------+ . ------|anon_vma vma|------------>| | . | | | | . +-------------+ +-------------+ . ^ ^ ^ . . * * ....................... *************************
其實(shí)此處我畫得不夠精確,av 和 avc之間應(yīng)當(dāng)是樹的關(guān)系,而不是現(xiàn)在顯示的鏈表的關(guān)系。但是我想意思已經(jīng)表達(dá)清楚,即在一個(gè)進(jìn)程中多個(gè)vma可以共享同一個(gè)anon_vma作為匿名映射的節(jié)點(diǎn)。
anon_vma_fork
看過(guò)了在單個(gè)進(jìn)程中的情況,接下來(lái)我們來(lái)看看創(chuàng)建一個(gè)子進(jìn)程時(shí)如何調(diào)整這個(gè)數(shù)據(jù)結(jié)構(gòu)。這個(gè)過(guò)程由anon_vma_fork處理。
anon_vma_fork(vma, pvma) anon_vma_clone(vma, pvma) anon_vma = anon_vma_alloc() avc = anon_vma_chain_alloc() anon_vma->root = pvma->anon_vma->root anon_vma->parent = pvma->anon_vma vma->anon_vma = anon_vma anon_vma_chain_link(vma, avc, anon_vma)
這個(gè)函數(shù)很有意思,我還真是花了些時(shí)間去理解它。最開始有點(diǎn)看不清,所以我干脆退回到最簡(jiǎn)單的狀態(tài),也就是當(dāng)前進(jìn)程是根進(jìn)程的時(shí)候。此時(shí)我才大致的了解了一點(diǎn)fork時(shí)究竟發(fā)生了什么。
話不多說(shuō),還是用一個(gè)圖來(lái)表達(dá)
....................... ************************* . . * * av v avc v v vma v +-----------+ +-------------+ +-------------+ P | |<------------|anon_vma vma|------------>| | | |<----+ | | | | +-----------+ +-------------+ +-------------+ ^ ^ ^ ^ . . * * . . ************************* . . . . . . . . . . ************************* . . * * . avc v v * . +-------------+ * . |anon_vma vma| * . | | * . +-------------+ * . ^ ^ * . . * * ...................... * * * * * * * * ....................... * * . . * * av v avc v v vma v +-----------+ +-------------+ >+-------------+ C1 | |<------------|anon_vma vma|------------>| | | | | | | | +-----------+ +-------------+ +-------------+ ^ ^ ^ ^ . . * * ....................... *************************
P是父進(jìn)程,C1是他的一個(gè)子進(jìn)程。當(dāng)發(fā)生fork時(shí),page->mapping沒(méi)有發(fā)生改變,所以依然需要能夠從父進(jìn)程的anon_vma上搜索到對(duì)應(yīng)的頁(yè)表。此時(shí)就得在父進(jìn)程的rb_root樹中保留一個(gè)子進(jìn)程的avc。同時(shí)子進(jìn)程又擁有自己的一套anon_vma。
可以說(shuō)這個(gè)真的是非常有意思的。
對(duì)了,代碼中還有一個(gè)函數(shù)anon_vma_clone,在這里我就不展開了。留給大家下來(lái)思考一下下。
使用
好了,到了這里我們已經(jīng)擁有了一個(gè)非常強(qiáng)悍的武器 – 匿名反向映射。有了他我們就可以指哪打哪了。
內(nèi)核也已經(jīng)給我們準(zhǔn)備好了扣動(dòng)這個(gè)核武器的板機(jī) – rmap_walk_anon。
rmap_walk_anon(page, rwc, true/false) anon_vma = page_anon_vma(page), get anon_vma from page->mapping pgoff_start = page_to_pgoff(page); return page_to_index(page) pgoff_end = pgoff_start + hpage_nr_pages(page) - 1; anon_vma_interval_tree_foreach(avc, &anon_vma->rb_root, pgoff_start, pgoff_end) rwc->rmap_one(page, vma, address, rwc->arg) -> do the real work
有了上面的基礎(chǔ)知識(shí),我想看這段代碼就不難了。還記得上面看到過(guò)的那個(gè)rb_root么?對(duì)了,我們就是沿著這顆紅黑樹找到的vma,然后再找到了頁(yè)表。
嗯,一切都感覺(jué)這么的完美。
原文標(biāo)題:圖解內(nèi)存匿名反向映射reverse mapping
文章出處:【微信公眾號(hào):Linuxer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
AV
+關(guān)注
關(guān)注
2文章
268瀏覽量
44507 -
AVC
+關(guān)注
關(guān)注
0文章
21瀏覽量
10996 -
映射
+關(guān)注
關(guān)注
0文章
47瀏覽量
15816
原文標(biāo)題:圖解內(nèi)存匿名反向映射reverse mapping
文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論