分段和分頁
先看一幅圖

?
也就是我們實際中編碼時遇到的內(nèi)存地址并不是對應(yīng)于實際內(nèi)存上的地址,我們編碼中使用的地址是一個邏輯地址,會通過分段和分頁這兩個機制把它轉(zhuǎn)為物理地址。而由于linux使用的分段機制有限,可以認為,linux下的邏輯地址=線性地址。也就是,我們編碼使用的是線性地址,之后只需要經(jīng)過一個分頁機制就可以把這個地址轉(zhuǎn)為物理地址了。所以我們更重要的可能是去說明一下linux的分頁模型。
系統(tǒng)會將整個物理內(nèi)存分為多個頁框,每個頁框大小一般是4K(硬件允許的擴展分頁(PSE)情況下也可設(shè)置為4M,不過linux并不使用PSE,而可能使用PAE),也就是如果我們有1GB的物理內(nèi)存,系統(tǒng)就會將這個物理內(nèi)存分為262144個頁框。當(dāng)我們提供一個線性地址時,系統(tǒng)就會通過分頁機制將這個線性地址轉(zhuǎn)換為對應(yīng)于某個物理頁中的某個內(nèi)存地址。下圖是linux的分頁模型

?
linux采用四級分頁模型,這四種頁表是:頁全局目錄(PGD)、頁上級目錄(PUD)、頁中間目錄(PMD)、頁表(PTE)。這里的所有頁全局目錄、頁上級目錄、頁中間目錄、頁表,它們的大小都是一個頁。linux下各個硬件上并不一定都是使用四級目錄的,當(dāng)使用于沒有啟動物理地址擴展(PAE)的32位系統(tǒng)上時,只使用二級頁表,linux會把頁上級目錄和頁中間目錄置空。而在啟用了物理地址擴展的32位系統(tǒng)上時,linux使用的是三級頁表,頁上級目錄被置空。而在64位系統(tǒng)上,linux根據(jù)硬件的情況會選擇三級頁表或者四級頁表。這個整個由線性地址轉(zhuǎn)換到物理地址的過程,是由CPU自動進行的。
每個進程都有它自己的頁全局目錄,當(dāng)進程運行時,系統(tǒng)會將該進程的頁全局目錄基地址保存到cr3寄存器中;而當(dāng)進程被換出時,會將這個cr3保存的頁全局目錄地址保存到進程描述符中。之后我們還會介紹一個cr2寄存器,用于缺頁異常處理的。當(dāng)進程運行時,它使用的是它自己的一套頁表,當(dāng)它通過系統(tǒng)調(diào)用或陷入內(nèi)核態(tài)時,使用的是內(nèi)核頁表,實際上,對于所有的進程頁表來說,它們的線性地址0xC0000000以上所涉及到的頁表都是主內(nèi)核頁全局目錄(保存在init_mm.pgd),它們的內(nèi)容等于主內(nèi)核頁全局目錄的相應(yīng)表項,這樣就實現(xiàn)了所有進程的進程空間相互隔離,但是內(nèi)核空間相互共享的情況。當(dāng)某個進程修改了內(nèi)核頁表的一些映射情況后,系統(tǒng)只會相應(yīng)的修改主內(nèi)核頁全局目錄中的表項(只能修改高端內(nèi)存中非連續(xù)內(nèi)存區(qū)的映射),當(dāng)其他進程訪問這些線性地址時,會出現(xiàn)缺頁異常,然后修改該進程的頁表項重新映射該地址。
因為說到每個進程都有它自己的頁全局目錄,如果有100個進程,內(nèi)存中就要保存100個進程的整個頁表集,看起來會耗費相當(dāng)多的內(nèi)存。實際上,只有進程使用到的情況下系統(tǒng)才會分配給進程一條路徑,比如我們要求訪問一個線性地址,但是這個地址可能對應(yīng)的頁上級目錄、頁中間目錄、頁表和頁都不存在的,這時系統(tǒng)會產(chǎn)生一個缺頁異常,在缺頁異常處理中再給進程的這個線性地址分配頁上級目錄、頁中間目錄、頁表和頁所需的物理頁框。
地址空間
一個線性地址經(jīng)過分頁機制轉(zhuǎn)為一個對應(yīng)的物理地址,我們稱之為映射,比如我們的一個線性地址0x00000001經(jīng)過分頁機制處理后,對應(yīng)的物理地址可能是0xffffff01。
在linux系統(tǒng)中分兩個地址空間,一個是進程地址空間,一個是內(nèi)核地址空間。對于每個進程來說,他們都有自己的大小為3G的進程地址空間,這些進程地址空間是相互隔離的,也就是進程A的0x00000001線性地址和進程B的0x00000001線性地址并不是同一個地址,進程A也不能通過自己的進程空間直接訪問進程B的進程地址空間。而當(dāng)線性地址大于3G時(也就是0xC0000000),這里的線性地址屬于內(nèi)核空間,內(nèi)核地址空間的大小為1G,地址從0xC0000000到0xFFFFFFFF。在內(nèi)核地址空間中,內(nèi)核會把前896MB的線性地址直接與物理地址的前896MB進行映射,也就是說,內(nèi)核地址空間的線性地址0xC0000001所對應(yīng)的物理地址為0x00000001,它們之間相差一個0xC0000000。
linux內(nèi)核會將物理內(nèi)存分為3個管理區(qū),分別是:
ZONE_DMA:包含0MB~16MB之間的內(nèi)存頁框,可以由老式基于ISA的設(shè)備通過DMA使用,直接映射到內(nèi)核的地址空間。
ZONE_NORMAL:包含16MB~896MB之間的內(nèi)存頁框,常規(guī)頁框,直接映射到內(nèi)核的地址空間。
ZONE_HIGHMEM:包含896MB以上的內(nèi)存頁框,不進行直接映射,可以通過永久映射和臨時映射進行這部分內(nèi)存頁框的訪問。
整個結(jié)構(gòu)如下圖

對于ZONE_DMA和ZONE_NORMAL這兩個管理區(qū),內(nèi)核地址都是進行直接映射,只有ZONE_HIGHMEM管理區(qū)系統(tǒng)在默認情況下是不進行直接映射的,只有在需要使用的時候進行映射(臨時映射或者永久映射)。
結(jié)點和管理區(qū)描述符
為了用于NUMA架構(gòu),使用了node用來描述一個地方的內(nèi)存。對于我們PC來說,一臺PC就是一個node。node用struct pglist_data結(jié)構(gòu)表示:
/* 內(nèi)存結(jié)點描述符,所有的結(jié)點描述符保存在 struct pglist_data *node_data[MAX_NUMNODES] 中 */
typedef struct pglist_data {
/* 管理區(qū)描述符的數(shù)組 */
struct zone node_zones[MAX_NR_ZONES];
/* 頁分配器使用的zonelist數(shù)據(jù)結(jié)構(gòu)的數(shù)組,將所有結(jié)點的管理區(qū)按一定的關(guān)聯(lián)鏈接成一個鏈表,分配內(nèi)存時會按照此鏈表的順序進行分配 */
struct zonelist node_zonelists[MAX_ZONELISTS];
/* 結(jié)點中管理區(qū)的個數(shù) */
int nr_zones;
#ifdef CONFIG_FLAT_NODE_MEM_MAP /* means !SPARSEMEM */
/* 結(jié)點中頁描述符的數(shù)組,包含了此結(jié)點中所有頁框描述符,實際分配是是一個指針數(shù)組 */
struct page *node_mem_map;
#ifdef CONFIG_MEMCG
/* 用于資源限制機制 */
struct page_cgroup *node_page_cgroup;
#endif
#endif
#ifndef CONFIG_NO_BOOTMEM
/* 用在內(nèi)核初始化階段 */
struct bootmem_data *bdata;
#endif
#ifdef CONFIG_MEMORY_HOTPLUG
/* 自旋鎖 */
spinlock_t node_size_lock;
#endif
/* 結(jié)點中第一個頁框的下標,在numa系統(tǒng)中,頁框會有兩個序號,所有頁框的一個序號,還有就是在此結(jié)點中的一個序號
* 比如結(jié)點2中的頁框1,它在結(jié)點2中的序號是1,但是在所有頁框中的序號是1001,這個變量就是保存這個結(jié)點首頁框的序號1000,用于方便轉(zhuǎn)換
*/
unsigned long node_start_pfn;
/* 內(nèi)存結(jié)點的大小,不包括洞(以頁框為單位) */
unsigned long node_present_pages;
/* 結(jié)點的大小,包括洞(以頁框為單位) */
unsigned long node_spanned_pages;
/* 結(jié)點標識符 */
int node_id;
/* kswaped頁換出守護進程使用的等待隊列 */
wait_queue_head_t kswapd_wait;
wait_queue_head_t pfmemalloc_wait;
/* 指針指向kswapd內(nèi)核線程的進程描述符 */
struct task_struct *kswapd; /* Protected by
mem_hotplug_begin/end() */
/* kswapd將要創(chuàng)建的空閑塊大小取對數(shù)的值 */
int kswapd_max_order;
enum zone_type classzone_idx;
#ifdef CONFIG_NUMA_BALANCING
/* 以下用于NUMA的負載均衡 */
/* Lock serializing the migrate rate limiting window */
spinlock_t numabalancing_migrate_lock;
/* Rate limiting time interval */
unsigned long numabalancing_migrate_next_window;
/* Number of pages migrated during the rate limiting time interval */
unsigned long numabalancing_migrate_nr_pages;
#endif
} pg_data_t;
系統(tǒng)中所有的結(jié)點描述符都保存在node_data這個數(shù)組中。在pg_data_t這個結(jié)點描述符中,node_zones數(shù)組中保存了這個結(jié)點中所有的管理區(qū)描述符,雖然系統(tǒng)將物理內(nèi)存分為三個區(qū),但是在邏輯上,系統(tǒng)分為了四個管理區(qū),多出的一個是ZONE_MOVABLE,這個區(qū)是一個虛擬的管理區(qū),它并沒有對應(yīng)于內(nèi)存的某個區(qū)域,它的主要目的就是為了避免內(nèi)存碎片化,它的內(nèi)存要么全部來自ZONE_HIGHMEM區(qū),要么全部來自ZONE_NORMAL區(qū)。這些我們在后面的初始化函數(shù)中將會看到。
每個結(jié)點都有一個內(nèi)核線程kswapd,它的作用就是將進程或內(nèi)核持有的,但是不常用的頁交換到磁盤上,以騰出更多可用內(nèi)存。
我們再看看管理區(qū)描述符:
/* 內(nèi)存管理區(qū)描述符 */
struct zone {
/* Read-mostly fields */
/* zone watermarks, access with *_wmark_pages(zone) macros */
/* 包括pages_min,pages_low,pages_high
* pages_min: 管理區(qū)中保留頁的數(shù)目
* pages_low: 回收頁框使用的下界,同時也被管理區(qū)分配器作為閥值使用,一般這個數(shù)字是pages_min的5/4
* pages_high: 回收頁框使用的上界,同時也被管理區(qū)分配器作為閥值使用,一般這個數(shù)字是pages_min的3/2
*/
unsigned long watermark[NR_WMARK];
/* 指明在處理內(nèi)存不足的臨界情況下管理區(qū)必須保留的頁框數(shù)目,同時也用于在中斷或臨界區(qū)發(fā)出的原子內(nèi)存分配請求(就是禁止阻塞的內(nèi)存分配請求) */
long lowmem_reserve[MAX_NR_ZONES];
#ifdef CONFIG_NUMA
int node;
#endif
/*
* The target ratio of ACTIVE_ANON to INACTIVE_ANON pages on
* this zone's LRU. Maintained by the pageout code.
*/
unsigned int inactive_ratio;
/* 指向此管理區(qū)屬于的結(jié)點 */
struct pglist_data *zone_pgdat;
/* 實現(xiàn)每CPU頁框高速緩存,里面包含每個CPU的單頁框的鏈表 */
struct per_cpu_pageset __percpu *pageset;
/*
* This is a per-zone reserve of pages that should not be
* considered dirtyable memory.
*/
unsigned long dirty_balance_reserve;
#ifndef CONFIG_SPARSEMEM
/*
* Flags for a pageblock_nr_pages block. See pageblock-flags.h.
* In SPARSEMEM, this map is stored in struct mem_section
*/
unsigned long *pageblock_flags;
#endif /* CONFIG_SPARSEMEM */
#ifdef CONFIG_NUMA
/*
* zone reclaim becomes active if more unmapped pages exist.
*/
unsigned long min_unmapped_pages;
unsigned long min_slab_pages;
#endif /* CONFIG_NUMA */
/* zone_start_pfn == zone_start_paddr >> PAGE_SHIFT */
/* 管理區(qū)第一個頁框下標 */
unsigned long zone_start_pfn;
/* 所有正常情況下可用的頁,總頁數(shù)(不包括洞)減去保留的頁數(shù) */
unsigned long managed_pages;
/* 管理區(qū)總大小(頁為單位),包括洞 */
unsigned long spanned_pages;
/* 管理區(qū)總大小(頁為單位),不包括洞 */
unsigned long present_pages;
/* 指向管理區(qū)的傳統(tǒng)名稱,"DMA" "NORMAL" "HighMem" */
const char *name;
/* 對應(yīng)于伙伴系統(tǒng)中MIGRATE_RESEVE鏈的頁塊的數(shù)量 */
int nr_migrate_reserve_block;
#ifdef CONFIG_MEMORY_ISOLATION
/*
* Number of isolated pageblock. It is used to solve incorrect
* freepage counting problem due to racy retrieving migratetype
* of pageblock. Protected by zone->lock.
*/
/* 在內(nèi)存隔離中表示隔離的頁框塊數(shù)量 */
unsigned long nr_isolate_pageblock;
#endif
#ifdef CONFIG_MEMORY_HOTPLUG
/* see spanned/present_pages for more description */
seqlock_t span_seqlock;
#endif
/* 進程等待隊列的hash表,這些進程在等待管理區(qū)中的某頁 */
wait_queue_head_t *wait_table;
/* 等待隊列散列表的大小 */
unsigned long wait_table_hash_nr_entries;
/* 等待隊列散列表數(shù)組大小 */
unsigned long wait_table_bits;
ZONE_PADDING(_pad1_)
/* Write-intensive fields used from the page allocator */
/* 保護該描述符的自旋鎖 */
spinlock_t lock;
/* free areas of different sizes */
/* 標識出管理區(qū)中的空閑頁框塊,用于伙伴系統(tǒng) */
/* MAX_ORDER為11,分別代表包含大小為1,2,4,8,16,32,64,128,256,512,1024個連續(xù)頁框的鏈表 */
struct free_area free_area[MAX_ORDER];
/* zone flags, see below */
/* 管理區(qū)標識 */
unsigned long flags;
ZONE_PADDING(_pad2_)
/* Fields commonly accessed by the page reclaim scanner */
/* 活動及非活動鏈表使用的自旋鎖 */
spinlock_t lru_lock;
struct lruvec lruvec;
/* Evictions & activations on the inactive file list */
atomic_long_t inactive_age;
/*
* When free pages are below this point, additional steps are taken
* when reading the number of free pages to avoid per-cpu counter
* drift allowing watermarks to be breached
*/
unsigned long percpu_drift_mark;
#if defined CONFIG_COMPACTION || defined CONFIG_CMA
/* pfn where compaction free scanner should start */
unsigned long compact_cached_free_pfn;
/* pfn where async and sync compaction migration scanner should start */
unsigned long compact_cached_migrate_pfn[2];
#endif
#ifdef CONFIG_COMPACTION
/*
* On compaction failure, 1<
此管理區(qū)描述符中的實際把所有屬于該管理區(qū)的頁框保存在兩個地方:struct free_area free_area[MAX_ORDER]和struct per_cpu_pageset __percpu * pageset。free_area是這個管理區(qū)的伙伴系統(tǒng),而pageset是這個區(qū)的每CPU頁框高速緩存。對管理區(qū)的理解需要結(jié)合伙伴系統(tǒng)和每CPU頁框高速緩存
管理區(qū)頁框分配器(管理所有物理內(nèi)存頁框)
ZONE_NORMAL和ZONE_DMA的地址直接映射到了內(nèi)核地址空間,但是也不代表內(nèi)核的代碼可以隨心所欲的通過線性地址直接訪問物理地址。內(nèi)核通過一個管理區(qū)頁框分配器管理著物理內(nèi)存上所有的頁框,在管理區(qū)分配器里的核心系統(tǒng)就是伙伴系統(tǒng)和每CPU頁框高速緩存(不是硬件上的高速緩存,只是名稱一樣)。在linux系統(tǒng)中,管理區(qū)頁框分配器管理著所有物理內(nèi)存,無論你是內(nèi)核還是進程,需要將一些內(nèi)存占為己有時,都需要請求管理區(qū)頁框分配器,這時才會分配給你應(yīng)該獲得的物理內(nèi)存頁框。當(dāng)你所擁有的頁框不再使用時,你必須釋放這些頁框,讓這些頁框回到管理區(qū)頁框分配器當(dāng)中。特別的,對于高端內(nèi)存,即使從管理區(qū)頁框分配器中獲得了相應(yīng)的頁框,我們還需要進行映射才能夠使用。
有時候目標管理區(qū)不一定有足夠的頁框去滿足分配,這時候系統(tǒng)會從另外兩個管理區(qū)中獲取要求的頁框,但這是按照一定規(guī)則去執(zhí)行的,如下:
如果要求從DMA區(qū)中獲取,就只能從ZONE_DMA區(qū)中獲取。
如果沒有規(guī)定從哪個區(qū)獲取,就按照順序從 ZONE_NORMAL -> ZONE_DMA 獲取。
如果規(guī)定從HIGHMEM區(qū)獲取,就按照順序從 ZONE_HIGHMEM -> ZONE_NORMAL -> ZONE_DMA 獲取。
注意系統(tǒng)是不允許在一次分配中從不同的兩個管理區(qū)獲取頁框的,并且當(dāng)請求多個頁框時,從伙伴系統(tǒng)中分配給目標的頁框是連續(xù)的,并且請求的頁數(shù)必須是2的次方個數(shù)。

?
管理區(qū)分配器主要做的事情就是將頁框通過伙伴系統(tǒng)或者每CPU頁框高速緩存分配出去,這里涉及到三個結(jié)構(gòu),頁描述符,伙伴系統(tǒng),每CPU高速緩存。
我們先說說頁描述符,頁描述符實際上并不專屬于描述頁框,它還用于描述一個SLAB分配器和SLUB分配器,這個之后再說,我們先說關(guān)于頁的:
/* 頁描述符,描述一個頁框,也會用于描述一個SLAB,相當(dāng)于同時是頁描述符,也是SLAB描述符 */
struct page {
/* First double word block */
/* 用于頁描述符,一組標志(如PG_locked、PG_error),也對頁框所在的管理區(qū)和node進行編號 */
unsigned long flags; /* Atomic flags, some possibly
* updated asynchronously */
union {
/* 用于頁描述符,當(dāng)頁被插入頁高速緩存中時使用,或者當(dāng)頁屬于匿名區(qū)時使用 */
struct address_space *mapping;
/* 用于SLAB描述符,用于執(zhí)行第一個對象的地址 */
void *s_mem; /* slab first object */
};
/* Second double word */
struct {
union {
/* 作為不同的含義被幾種內(nèi)核成分使用。例如,它在頁磁盤映像或匿名區(qū)中標識存放在頁框中的數(shù)據(jù)的位置,或者它存放一個換出頁標識符 */
pgoff_t index; /* Our offset within mapping. */
/* 用于SLAB描述符,指向第一個空閑對象地址 */
void *freelist;
/* 當(dāng)管理區(qū)頁框分配器壓力過大時,設(shè)置這個標志就確保這個頁框?qū)iT用于系統(tǒng)釋放其他頁框時使用 */
bool pfmemalloc;
};
union {
#if defined(CONFIG_HAVE_CMPXCHG_DOUBLE) && defined(CONFIG_HAVE_ALIGNED_STRUCT_PAGE)
/* SLUB使用 */
unsigned long counters;
#else
/* SLUB使用 */
unsigned counters;
#endif
struct {
union {
/* 頁框中的頁表項計數(shù),如果沒有為-1,如果為PAGE_BUDDY_MAPCOUNT_VALUE(-128),說明此頁及其后的一共2的private次方個數(shù)頁框處于伙伴系統(tǒng)中,正在使用時應(yīng)該是0 */
atomic_t _mapcount;
struct { /* SLUB使用 */
unsigned inuse:16;
unsigned objects:15;
unsigned frozen:1;
};
int units; /* SLOB */
};
/* 頁框的引用計數(shù),如果為0,則此頁框空閑,并可分配給任一進程或內(nèi)核;如果大于0,則說明頁框被分配給了一個或多個進程,或用于存放內(nèi)核數(shù)據(jù)。page_count()返回_count的值,也就是該頁的使用者數(shù)目 */
atomic_t _count; /* Usage count, see below. */
};
/* 用于SLAB描述符 */
unsigned int active; /* SLAB */
};
};
/* Third double word block */
union {
/* 包含到頁的最近最少使用(LRU)雙向鏈表的指針,用于插入伙伴系統(tǒng)的空閑鏈表中,只有塊中頭頁框要被插入 */
struct list_head lru;
/* SLAB使用 */
struct { /* slub per cpu partial pages */
struct page *next; /* Next partial slab */
#ifdef CONFIG_64BIT
int pages; /* Nr of partial slabs left */
int pobjects; /* Approximate # of objects */
#else
short int pages;
short int pobjects;
#endif
};
struct slab *slab_page; /* slab fields */
struct rcu_head rcu_head;
#if defined(CONFIG_TRANSPARENT_HUGEPAGE) && USE_SPLIT_PMD_PTLOCKS
pgtable_t pmd_huge_pte; /* protected by page->ptl */
#endif
};
/* Remainder is not double word aligned */
union {
/* 可用于正在使用頁的內(nèi)核成分(例如: 在緩沖頁的情況下它是一個緩沖器頭指針,如果頁是空閑的,則該字段由伙伴系統(tǒng)使用,在給伙伴系統(tǒng)使用時,表明的是塊的2的次方數(shù),只有塊的第一個頁框會使用) */
unsigned long private;
#if USE_SPLIT_PTE_PTLOCKS
#if ALLOC_SPLIT_PTLOCKS
spinlock_t *ptl;
#else
spinlock_t ptl;
#endif
#endif
/* SLAB描述符使用,指向SLAB的高速緩存 */
struct kmem_cache *slab_cache; /* SL[AU]B: Pointer to slab */
struct page *first_page; /* Compound tail pages */
};
#if defined(WANT_PAGE_VIRTUAL)
/* 此頁框第一個物理地址對應(yīng)的線性地址,如果是沒有映射的高端內(nèi)存的頁框,則為空 */
void *virtual;
#endif /* WANT_PAGE_VIRTUAL */
#ifdef CONFIG_WANT_PAGE_DEBUG_FLAGS
unsigned long debug_flags; /* Use atomic bitops on this */
#endif
#ifdef CONFIG_KMEMCHECK
void *shadow;
#endif
#ifdef LAST_CPUPID_NOT_IN_PAGE_FLAGS
int _last_cpupid;
#endif
}
在struct page描述一個頁框時,我們比較關(guān)注的成員變量有unsigned long flags、struct list_head lru和atomic_t _count。
flags:包含有很多信息,包括此頁框?qū)儆诘膎ode結(jié)點號,此頁框?qū)儆诘膠one號和此頁框的屬性。
lru:用于將此頁描述符放入相應(yīng)的鏈表,比如伙伴系統(tǒng)或者每CPU頁框高速緩存。
_count:代表頁框的引用計數(shù),0代表此頁框空閑,大于0代表此頁框分配給了多少個進程使用(共享)。
linux為了防止內(nèi)存中產(chǎn)生過多的碎片,一般把頁的類型分為三種:
不可移動頁:在內(nèi)存中有固定位置,不能移動到其他地方。內(nèi)核中使用的頁大部分是屬于這種類型。
可回收頁:不能直接移動,但可以刪除,頁中的內(nèi)容可以從某些源中重新生成。例如,頁內(nèi)容是映射到文件數(shù)據(jù)的頁就屬于這種類型。對于這種類型,在內(nèi)存短缺(分配失敗)時,會發(fā)起內(nèi)存回收,將這類型頁進行回寫釋放。
可移動頁:可隨意移動,用戶空間的進程使用的沒有映射具體磁盤文件的頁就屬于這種類型(比如堆、棧、shmem共享內(nèi)存、匿名mmap共享內(nèi)存),它們是通過進程頁表映射的,把這些頁復(fù)制到新位置時,只要更新進程頁表就可以了。一般這些頁是從高端內(nèi)存管理區(qū)獲取。
伙伴系統(tǒng)
伙伴系統(tǒng)的主要作用就是減少物理內(nèi)存的外部碎片(SLAB/SLUB減少頁框的內(nèi)部碎片),它實際上是一個struct free_area的數(shù)組,數(shù)組長度是MAX_ORDER,也就是11,代表著每個數(shù)組元素中鏈表上保存的連續(xù)頁框長度是2的order次方。free_area[0]中鏈表保存的是長度為1的頁框,free_area[1]中鏈表上保存的是物理上連續(xù)的兩個頁框的首頁框鏈表,free_area[2]中鏈表上保存的是物理上連續(xù)4個頁框的首頁框鏈表,free_area[10]中鏈表上保存的是物理上連續(xù)1024個頁框的首頁框鏈表,所以整個伙伴系統(tǒng)中將管理區(qū)中的頁框分為連續(xù)的1,2,4,8,16,32,64,128,256,512,1024頁框放入不同鏈表中保存起來。而因為伙伴系統(tǒng)中每個鏈表保存的頁框都是連續(xù)的,所以只有第一個頁框會加入到鏈表中,因為有order,也可以知道此頁框之后的多少個頁框是屬于這一小塊連續(xù)頁框的。當(dāng)需要在普通內(nèi)存區(qū)申請4個頁框大小的內(nèi)存時,系統(tǒng)會到普通內(nèi)存管理區(qū)的伙伴系統(tǒng)中的free_area[2]中的第一個鏈表結(jié)點,這個結(jié)點的頁框及其之后3個頁框都是空閑的,然后把首頁框返回給申請者。
/* 伙伴系統(tǒng)的一個塊,描述1,2,4,8,16,32,64,128,256,512或1024個連續(xù)頁框的塊 */
struct free_area {
/* 指向這個塊中所有空閑小塊的第一個頁描述符,這些小塊會按照MIGRATE_TYPES類型存放在不同指針里 */
struct list_head free_list[MIGRATE_TYPES];
/* 空閑小塊的個數(shù) */
unsigned long nr_free;
};
在伙伴系統(tǒng)中,因為頁的分類關(guān)系,在每種長度相同的連續(xù)頁框中又會分出多個不同類型的鏈表,如下,
enum {
MIGRATE_UNMOVABLE, /* 不可移動頁 */
MIGRATE_RECLAIMABLE, /* 可回收頁 */
MIGRATE_MOVABLE, /* 可移動頁 */
MIGRATE_PCPTYPES, /* 用來表示每CPU頁框高速緩存的數(shù)據(jù)結(jié)構(gòu)中的鏈表的可移動類型數(shù)目 */
MIGRATE_RESERVE = MIGRATE_PCPTYPES,
#ifdef CONFIG_CMA
MIGRATE_CMA,
#endif
#ifdef CONFIG_MEMORY_ISOLATION
MIGRATE_ISOLATE, /* 不能從這個鏈表分配頁框,因為這個鏈表專門用于NUMA結(jié)點移動物理內(nèi)存頁,將物理內(nèi)存頁移動到使用這個頁最頻繁的CPU */
#endif
MIGRATE_TYPES
};
保存連續(xù)2個頁框的free_area[2]的結(jié)構(gòu)如下:

?
在從伙伴系統(tǒng)中申請頁框時,有可能會遇到一種情況,就是當(dāng)前需求的連續(xù)頁框鏈表上沒有可用的空閑頁框,這時后,伙伴系統(tǒng)會從下一級獲取一個連續(xù)長度的頁框塊,將其拆分放入這級列表;當(dāng)然在擁有者釋放連續(xù)頁框時伙伴系統(tǒng)也會適當(dāng)?shù)剡M行連續(xù)頁框的合并,并放入下一級中。比如:我需要申請4個頁框,但是長度為4個連續(xù)頁框塊鏈表沒有空閑的頁框塊,伙伴系統(tǒng)會從連續(xù)8個頁框塊的鏈表獲取一個,并將其拆分為兩個連續(xù)4個頁框塊,放入連續(xù)4個頁框塊的鏈表中。釋放時道理也一樣,會檢查釋放的這幾個頁框的之前和之后的物理頁框是否空閑,并且能否組成下一級長度的塊。
每CPU頁框高速緩存
每CPU頁框高速緩存也是一個分配器,配合著伙伴系統(tǒng)進行使用,這個分配器是專門用于分配單個頁框的,它維護一個單頁框的雙向鏈表,為什么需要這個分配器,原因主要有兩點:
因為每個CPU都有自己的硬件高速緩存,當(dāng)對一個頁進行讀取寫入時,首先會把這個頁裝入硬件高速緩存,而如果進程對這個處于硬件高速緩存的頁進行操作后立即釋放掉,這個頁有可能還保存在硬件高速緩存中,這樣我另一個進程需要請求一個頁并立即寫入數(shù)據(jù)的話,分配器將這個處于硬件高速緩存中的頁分配給它,系統(tǒng)效率會大大增加。
減少鎖的競爭,假設(shè)單頁框都是使用free_area來管理,那么多個CPU同時頻繁訪問時,每次都是只能單CPU獲取到頁框,其他CPU等待,這會造成大量的鎖競爭,導(dǎo)致分配效率降低。
在每CPU頁框高速緩存中用一個鏈表來維護一個單頁框的雙向鏈表,每個CPU都有自己的鏈表(因為每個CPU有自己的硬件高速緩存),那些比較可能處于硬件高速緩存中的頁被稱為“熱頁”,比較不可能處于硬件高速緩存中的頁稱為“冷頁”。其實系統(tǒng)判斷是否為熱頁還是冷頁很簡單,越最近釋放的頁就比較可能是熱頁,所以在雙向鏈表中,從鏈表頭插入可能是熱頁的單頁框,在鏈表尾插入可能是冷頁的單頁框。分配時熱頁就從鏈表頭獲取,冷頁就從鏈表尾獲取。
在每CPU頁框高速緩存中也可能會遇到?jīng)]有空閑的頁框(被分配完了),這時候每CPU頁框高速緩存會從伙伴系統(tǒng)中拿出頁框放入每CPU頁框高速緩存中,相反,如果每CPU頁框高速緩存中頁框過多,也會將一些頁框放回伙伴系統(tǒng)。
在內(nèi)核中使用struct per_cpu_pageset結(jié)構(gòu)描述一個每CPU頁框高速緩存,其中的struct per_cpu_pages是核心結(jié)構(gòu)體,如下:
/* 描述一個CPU頁框高速緩存 */
struct per_cpu_pageset {
/* 高速緩存頁框結(jié)構(gòu) */
struct per_cpu_pages pcp;
#ifdef CONFIG_NUMA
s8 expire;
#endif
#ifdef CONFIG_SMP
s8 stat_threshold;
s8 vm_stat_diff[NR_VM_ZONE_STAT_ITEMS];
#endif
};
struct per_cpu_pages {
/* 當(dāng)前CPU高速緩存中頁框個數(shù) */
int count; /* number of pages in the list */
/* 上界,當(dāng)此CPU高速緩存中頁框個數(shù)大于high,則會將batch個頁框放回伙伴系統(tǒng) */
int high; /* high watermark, emptying needed */
/* 在高速緩存中將要添加或被刪去的頁框個數(shù) */
int batch; /* chunk size for buddy add/remove */
/* Lists of pages, one per migrate type stored on the pcp-lists */
/* 頁框的鏈表,如果需要冷高速緩存,從鏈表尾開始獲取頁框,如果需要熱高速緩存,從鏈表頭開始獲取頁框 */
struct list_head lists[MIGRATE_PCPTYPES];
};
關(guān)于頁框回收
內(nèi)存中并非所有物理頁面都是可以進行回收的,內(nèi)核占用的頁不會被換出,只有與用戶空間建立了映射關(guān)系的物理頁面才會被換出。總的來說,以下這些種物理頁面可以被 Linux 操作系統(tǒng)回收:
進程映射所占的頁面,包括代碼段,數(shù)據(jù)段,堆棧以及動態(tài)分配的“存儲堆”(malloc分配的)。
用戶空間中通過mmap()把文件內(nèi)容映射到內(nèi)存所占的頁面。
匿名頁面(沒有映射到文件的都是匿名映射,用戶空間的堆和棧):進程用戶模式下的堆棧以及是使用 mmap 匿名映射的內(nèi)存區(qū)(共享內(nèi)存區(qū))。注:堆棧所占頁面一般不被換出。
特殊的用于 slab 分配器的緩存,比如用于緩存文件目錄結(jié)構(gòu) dentry 的 cache,以及用于緩存索引節(jié)點 inode 的 cache
tmpfs文件系統(tǒng)使用的頁。
Linux 操作系統(tǒng)使用如下這兩種機制檢查系統(tǒng)內(nèi)存的使用情況,從而確定可用的內(nèi)存是否太少從而需要進行頁面回收。
周期性的檢查:這是由后臺運行的守護進程 kswapd 完成的。該進程定期檢查當(dāng)前系統(tǒng)的內(nèi)存使用情況,當(dāng)發(fā)現(xiàn)系統(tǒng)內(nèi)空閑的物理頁面數(shù)目少于特定的閾值時,該進程就會發(fā)起頁面回收的操作。
“內(nèi)存嚴重不足”事件的觸發(fā):在某些情況下,比如,操作系統(tǒng)忽然需要通過伙伴系統(tǒng)為用戶進程分配一大塊內(nèi)存,或者需要創(chuàng)建一個很大的緩沖區(qū),而當(dāng)時系統(tǒng)中 的內(nèi)存沒有辦法提供足夠多的物理內(nèi)存以滿足這種內(nèi)存請求,這時候,操作系統(tǒng)就必須盡快進行頁面回收操作,以便釋放出一些內(nèi)存空間從而滿足上述的內(nèi)存請求。 這種頁面回收方式也被稱作“直接頁面回收”。
如果操作系統(tǒng)在進行了內(nèi)存回收操作之后仍然無法回收到足夠多的頁面以滿足上述內(nèi)存要求,那么操作系統(tǒng)只有最后一個選擇,那就是使用 OOM( out of memory )killer,它從系統(tǒng)中挑選一個最合適的進程殺死它,并釋放該進程所占用的所有頁面。
結(jié)尾
下篇再說slab了,內(nèi)容太多。到這里,記住對于物理內(nèi)存來說,系統(tǒng)都是以頁框作為最小的分配單位,而分配時必定是要通過管理區(qū)分配器進行分配的,在管理區(qū)分配器中又必定是通過伙伴系統(tǒng)或每CPU頁框分配器進行分配的,而我們編程使用到的malloc或者內(nèi)核中使用的分配小額內(nèi)存的情況,是使用slab實現(xiàn)的,slab的作用就是將一個頁框細分為多個小塊內(nèi)存。
-
Linux
+關(guān)注
關(guān)注
87文章
11508瀏覽量
213653 -
模型
+關(guān)注
關(guān)注
1文章
3516瀏覽量
50368
發(fā)布評論請先 登錄
詳解linux設(shè)備驅(qū)動模型架構(gòu)
一文詳解藍牙模塊原理與結(jié)構(gòu)
ElasticSearch深度分頁詳解
圖文詳解Linux分頁機制

評論