Linux 的虛擬內(nèi)存管理有幾個(gè)關(guān)鍵概念:
每個(gè)進(jìn)程有獨(dú)立的虛擬地址空間,進(jìn)程訪問(wèn)的虛擬地址并不是真正的物理地址
虛擬地址可通過(guò)每個(gè)進(jìn)程上頁(yè)表與物理地址進(jìn)行映射,獲得真正物理地址
如果虛擬地址對(duì)應(yīng)物理地址不在物理內(nèi)存中,則產(chǎn)生缺頁(yè)中斷,真正分配物理地址,同時(shí)更新進(jìn)程的頁(yè)表;如果此時(shí)物理內(nèi)存已耗盡,則根據(jù)內(nèi)存替換算法淘汰部分頁(yè)面至物理磁盤(pán)中。
基于以上認(rèn)識(shí),這篇文章通過(guò)本人以前對(duì)虛擬內(nèi)存管理的疑惑由淺入深整理了以下十個(gè)問(wèn)題,并通過(guò)例子和系統(tǒng)命令嘗試進(jìn)行解答。
Linux 虛擬地址空間如何分布? 32 位和 64 位有何不同?
malloc 是如何分配內(nèi)存的?
malloc 分配多大的內(nèi)存,就占用多大的物理內(nèi)存空間嗎?
如何查看進(jìn)程虛擬地址空間的使用情況?
free 的內(nèi)存真的釋放了嗎(還給 OS ) ?
程序代碼中 malloc 的內(nèi)存都有相應(yīng)的 free ,就不會(huì)出現(xiàn)內(nèi)存泄露了嗎?
既然堆內(nèi)內(nèi)存不能直接釋放,為什么不全部使用 mmap 來(lái)分配?
如何查看進(jìn)程的缺頁(yè)中斷信息?
如何查看堆內(nèi)內(nèi)存的碎片情況?
除了 glibc 的 malloc/free ,還有其他第三方實(shí)現(xiàn)嗎?
一.Linux 虛擬地址空間如何分布? 32 位和 64 位有何不同?
Linux 使用虛擬地址空間,大大增加了進(jìn)程的尋址空間,由低地址到高地址分別為:
只讀段:該部分空間只能讀,不可寫(xiě),包括代碼段、 rodata 段( C 常量字符串和 #define 定義的常量)
數(shù)據(jù)段:保存全局變量、靜態(tài)變量的空間
堆 :就是平時(shí)所說(shuō)的動(dòng)態(tài)內(nèi)存, malloc/new 大部分都來(lái)源于此。其中堆頂?shù)奈恢每赏ㄟ^(guò)函數(shù) brk 和 sbrk 進(jìn)行動(dòng)態(tài)調(diào)整。
文件映射區(qū)域 :如動(dòng)態(tài)庫(kù)、共享內(nèi)存等映射物理空間的內(nèi)存,一般是 mmap 函數(shù)所分配的虛擬地址空間。
棧:用于維護(hù)函數(shù)調(diào)用的上下文空間,一般為 8M ,可通過(guò) ulimit –s 查看。
內(nèi)核虛擬空間:用戶代碼不可見(jiàn)的內(nèi)存區(qū)域,由內(nèi)核管理。
下圖是 32 位系統(tǒng)典型的虛擬地址空間分布(來(lái)自《深入理解計(jì)算機(jī)系統(tǒng)》)。
32 位系統(tǒng)有 4G 的地址空間,其中0x08048000~0xbfffffff?是用戶空間,0xc0000000~0xffffffff?是內(nèi)核空間,包括內(nèi)核代碼和數(shù)據(jù)、與進(jìn)程相關(guān)的數(shù)據(jù)結(jié)構(gòu)(如頁(yè)表、內(nèi)核棧)等。另外, %esp 執(zhí)行棧頂,往低地址方向變化; brk/sbrk 函數(shù)控制堆頂往高地址方向變化。
可通過(guò)以下代碼驗(yàn)證進(jìn)程的地址空間分布,其中 sbrk(0) 函數(shù)用于返回棧頂指針。
#include #include #include #include int global_num = 0;char global_str_arr [65536] = {'a'};int main(int argc, char** argv){ char* heap_var = NULL; int local_var = 0; printf("Address of function main 0x%lx\n", main); printf("Address of global_num 0x%lx\n", &global_num); printf("Address of global_str_arr 0x%lx ~ 0x%lx\n", &global_str_arr[0], &global_str_arr[65535]); printf("Top of stack is 0x%lx\n", &local_var); printf("Top of heap is 0x%lx\n", sbrk(0)); heap_var = malloc(sizeof(char) * 127 * 1024); printf("Address of heap_var is 0x%lx\n", heap_var); printf("Top of heap after malloc is 0x%lx\n", sbrk(0)); free(heap_var); heap_var = NULL; printf("Top of heap after free is 0x%lx\n", sbrk(0)); return 1;}
32 位系統(tǒng)的結(jié)果如下,與上圖的劃分保持一致,并且棧頂指針在 mallloc 和 free 一個(gè) 127K 的存儲(chǔ)空間時(shí)都發(fā)生了變化(增大和縮?。?/p>
Address of function main 0x8048474Address of global_num 0x8059904Address of global_str_arr 0x8049900 ~ 0x80598ffTop of stack is 0xbfd0886cTop of heap is 0x805a000Address of heap_var is 0x805a008Top of heap after malloc is 0x809a000Top of heap after free is 0x807b000
但是, 64 位系統(tǒng)結(jié)果怎樣呢? 64 位系統(tǒng)是否擁有 2^64 的地址空間嗎?
64 位系統(tǒng)運(yùn)行結(jié)果如下:
Address of function main 0x400594Address of global_num 0x610b90Address of global_str_arr 0x600b80 ~ 0x610b7fTop of stack is 0x7fff2e9e4994Top of heap is 0x8f5000Address of heap_var is 0x8f5010Top of heap after malloc is 0x935000Top of heap after free is 0x916000
從結(jié)果知,與上圖的分布并不一致。而事實(shí)上, 64 位系統(tǒng)的虛擬地址空間劃分發(fā)生了改變:
地址空間大小不是 2^32 ,也不是 2^64 ,而一般是 2^48 。因?yàn)椴⒉恍枰?2^64 這么大的尋址空間,過(guò)大空間只會(huì)導(dǎo)致資源的浪費(fèi)。 64 位 Linux 一般使用 48 位來(lái)表示虛擬地址空間, 40 位表示物理地址,這可通過(guò) /proc/cpuinfo 來(lái)查看
address sizes : 40 bits physical, 48 bits virtual
其中,?0x0000000000000000~0x00007fffffffffff表示用戶空間,0xFFFF800000000000~ 0xFFFFFFFFFFFFFFFF表示內(nèi)核空間,共提供 256TB(2^48) 的尋址空間。這兩個(gè)區(qū)間的特點(diǎn)是,第 47 位與 48~63 位相同,若這些位為 0 表示用戶空間,否則表示內(nèi)核空間。
用戶空間由低地址到高地址仍然是只讀段、數(shù)據(jù)段、堆、文件映射區(qū)域和棧
二.malloc 是如何分配內(nèi)存的?
malloc 是 glibc 中內(nèi)存分配函數(shù),也是最常用的動(dòng)態(tài)內(nèi)存分配函數(shù),其內(nèi)存必須通過(guò) free 進(jìn)行釋放,否則導(dǎo)致內(nèi)存泄露。
關(guān)于 malloc 獲得虛存空間的實(shí)現(xiàn),與 glibc 的版本有關(guān),但大體邏輯是:
若分配內(nèi)存小于 128k ,調(diào)用 sbrk() ,將堆頂指針向高地址移動(dòng),獲得新的虛存空間。
若分配內(nèi)存大于 128k ,調(diào)用 mmap() ,在文件映射區(qū)域中分配匿名虛存空間。
這里討論的是簡(jiǎn)單情況,如果涉及并發(fā)可能會(huì)復(fù)雜一些,不過(guò)先不討論。
其中 sbrk 就是修改棧頂指針位置,而 mmap 可用于生成文件的映射以及匿名頁(yè)面的內(nèi)存,這里指的是匿名頁(yè)面。
而這個(gè) 128k ,是 glibc 的默認(rèn)配置,可通過(guò)函數(shù) mallopt 來(lái)設(shè)置,可通過(guò)以下例子說(shuō)明。
#include #include #include #include #include #include void print_info( char* var_name, char* var_ptr, size_t size_in_kb){ printf("Address of %s(%luk) 0x%lx, now heap top is 0x%lx\n", var_name, size_in_kb, var_ptr, sbrk(0));}int main(int argc, char** argv){ char *heap_var1, *heap_var2, *heap_var3 ; char *mmap_var1, *mmap_var2, *mmap_var3 ; char *maybe_mmap_var; printf("Orginal heap top is 0x%lx\n", sbrk(0)); heap_var1 = malloc(32*1024); print_info("heap_var1", heap_var1, 32); heap_var2 = malloc(64*1024); print_info("heap_var2", heap_var2, 64); heap_var3 = malloc(127*1024); print_info("heap_var3", heap_var3, 127); printf("\n"); maybe_mmap_var = malloc(128*1024); print_info("maybe_mmap_var", maybe_mmap_var, 128); //mmap mmap_var1 = malloc(128*1024); print_info("mmap_var1", mmap_var1, 128); // set M_MMAP_THRESHOLD to 64k mallopt(M_MMAP_THRESHOLD, 64*1024); printf("set M_MMAP_THRESHOLD to 64k\n"); mmap_var2 = malloc(64*1024); print_info("mmap_var2", mmap_var2, 64); mmap_var3 = malloc(127*1024); print_info("mmap_var3", mmap_var3, 127); return 1;}
這個(gè)例子很簡(jiǎn)單,通過(guò) malloc 申請(qǐng)多個(gè)不同大小的動(dòng)態(tài)內(nèi)存,同時(shí)通過(guò)接口 print_info 打印變量大小和地址等相關(guān)信息,其中 sbrk(0) 可返回堆頂指針位置。另外,粗體部分是將 MMAP 分配的臨界點(diǎn)由 128k 轉(zhuǎn)為 64k ,再打印變量地址的不同。
下面是 Linux 64 位機(jī)器的執(zhí)行結(jié)果(后文所有例子都是通過(guò) 64 位機(jī)器上的測(cè)試結(jié)果)。
Orginal heap top is 0x17da000Address of heap_var1(32k) 0x17da010, now heap top is 0x1803000Address of heap_var2(64k) 0x17e2020, now heap top is 0x1803000Address of heap_var3(127k) 0x17f2030, now heap top is 0x1832000Address of maybe_mmap_var(128k) 0x1811c40, now heap top is 0x1832000Address of mmap_var1(128k) 0x7f4a0b1f2010, now heap top is 0x1832000set M_MMAP_THRESHOLD to 64kAddress of mmap_var2(64k) 0x7f4a0b1e1010, now heap top is 0x1832000Address of mmap_var3(127k) 0x7f4a0b1c1010, now heap top is 0x1832000
三.malloc 分配多大的內(nèi)存,就占用多大的物理內(nèi)存空間嗎?
我們知道, malloc 分配的的內(nèi)存是虛擬地址空間,而虛擬地址空間和物理地址空間使用進(jìn)程頁(yè)表進(jìn)行映射,那么分配了空間就是占用物理內(nèi)存空間了嗎?
首先,進(jìn)程使用多少內(nèi)存可通過(guò) ps aux 命令 查看,其中關(guān)鍵的兩信息(第五、六列)為:
VSZ , virtual memory size ,表示進(jìn)程總共使用的虛擬地址空間大小,包括進(jìn)程地址空間的代碼段、數(shù)據(jù)段、堆、文件映射區(qū)域、棧、內(nèi)核空間等所有虛擬地址使用的總和,單位是 K
RSS , resident set size ,表示進(jìn)程實(shí)際使用的物理內(nèi)存空間, RSS 總小于 VSZ 。
可通過(guò)一個(gè)例子說(shuō)明這個(gè)問(wèn)題:
#include #include #include #include #include #include char ps_cmd[1024];void print_info( char* var_name, char* var_ptr, size_t size_in_kb){ printf("Address of %s(%luk) 0x%lx, now heap top is 0x%lx\n", var_name, size_in_kb, var_ptr, sbrk(0)); system(ps_cmd);}int main(int argc, char** argv){ char *non_set_var, *set_1k_var, *set_5k_var, *set_7k_var; pid_t pid; pid = getpid(); sprintf(ps_cmd, "ps aux | grep %lu | grep -v grep", pid); non_set_var = malloc(32*1024); print_info("non_set_var", non_set_var, 32); set_1k_var = malloc(64*1024); memset(set_1k_var, 0, 1024); print_info("set_1k_var", set_1k_var, 64); set_5k_var = malloc(127*1024); memset(set_5k_var, 0, 5*1024); print_info("set_5k_var", set_5k_var, 127); set_7k_var = malloc(64*1024); memset(set_1k_var, 0, 7*1024); print_info("set_7k_var", set_7k_var, 64); return 1;}
該代碼擴(kuò)展了上一個(gè)例子print_info能力,處理打印變量信息,同時(shí)通過(guò) ps aux 命令獲得當(dāng)前進(jìn)程的 VSZ 和 RSS 值。并且程序 malloc 一塊內(nèi)存后,會(huì) memset 內(nèi)存的若干 k 內(nèi)容。
執(zhí)行結(jié)果為
Address of non_set_var(32k) 0x502010, now heap top is 0x52b000mysql 12183 0.0 0.0 2692 452 pts/3 S+ 20:29 0:00 ./test_vszAddress of set_1k_var(64k) 0x50a020, now heap top is 0x52b000mysql 12183 0.0 0.0 2692 456 pts/3 S+ 20:29 0:00 ./test_vszAddress of set_5k_var(127k) 0x51a030, now heap top is 0x55a000mysql 12183 0.0 0.0 2880 464 pts/3 S+ 20:29 0:00 ./test_vszAddress of set_7k_var(64k) 0x539c40, now heap top is 0x55a000mysql 12183 0.0 0.0 2880 472 pts/3 S+ 20:29 0:00 ./test_vsz
由以上結(jié)果知:
VSZ 并不是每次 malloc 后都增長(zhǎng),是與上一節(jié)說(shuō)的堆頂沒(méi)發(fā)生變化有關(guān),因?yàn)榭芍赜枚秧攦?nèi)剩余的空間,這樣的 malloc 是很輕量快速的。
但如果 VSZ 發(fā)生變化,基本與分配內(nèi)存量相當(dāng),因?yàn)?VSZ 是計(jì)算虛擬地址空間總大小。
RSS 的增量很少,是因?yàn)?malloc 分配的內(nèi)存并不就馬上分配實(shí)際存儲(chǔ)空間,只有第一次使用,如第一次 memset 后才會(huì)分配。
由于每個(gè)物理內(nèi)存頁(yè)面大小是 4k ,不管 memset 其中的 1k 還是 5k 、 7k ,實(shí)際占用物理內(nèi)存總是 4k 的倍數(shù)。所以 RSS 的增量總是 4k 的倍數(shù)。
因此,不是 malloc 后就馬上占用實(shí)際內(nèi)存,而是第一次使用時(shí)發(fā)現(xiàn)虛存對(duì)應(yīng)的物理頁(yè)面未分配,產(chǎn)生缺頁(yè)中斷,才真正分配物理頁(yè)面,同時(shí)更新進(jìn)程頁(yè)面的映射關(guān)系。這也是 Linux 虛擬內(nèi)存管理的核心概念之一。
四. 如何查看進(jìn)程虛擬地址空間的使用情況?
進(jìn)程地址空間被分為了代碼段、數(shù)據(jù)段、堆、文件映射區(qū)域、棧等區(qū)域,那怎么查詢這些虛擬地址空間的使用情況呢?
Linux 提供了 pmap 命令來(lái)查看這些信息,通常使用?pmap -d $pid?(高版本可提供?pmap -x $pid)查詢,如下所示:
mysql@ TLOG_590_591:~/vin/test_memory> pmap -d 1786717867: test_mmapSTART SIZE RSS DIRTY PERM OFFSET DEVICE MAPPING00400000 8K 4K 0K r-xp 00000000 08:01 /home/mysql/vin/test_memory/test_mmap00501000 68K 8K 8K rw-p 00001000 08:01 /home/mysql/vin/test_memory/test_mmap00512000 76K 0K 0K rw-p 00512000 00:00 [heap]0053e000 256K 0K 0K rw-p 0053e000 00:00 [anon]2b3428f97000 108K 92K 0K r-xp 00000000 08:01 /lib64/ld-2.4.so2b3428fb2000 8K 8K 8K rw-p 2b3428fb2000 00:00 [anon]2b3428fc1000 4K 4K 4K rw-p 2b3428fc1000 00:00 [anon]2b34290b1000 8K 8K 8K rw-p 0001a000 08:01 /lib64/ld-2.4.so2b34290b3000 1240K 248K 0K r-xp 00000000 08:01 /lib64/libc-2.4.so2b34291e9000 1024K 0K 0K ---p 00136000 08:01 /lib64/libc-2.4.so2b34292e9000 12K 12K 12K r--p 00136000 08:01 /lib64/libc-2.4.so2b34292ec000 8K 8K 8K rw-p 00139000 08:01 /lib64/libc-2.4.so2b34292ee000 1048K 36K 36K rw-p 2b34292ee000 00:00 [anon]7fff81afe000 84K 12K 12K rw-p 7fff81afe000 00:00 [stack]ffffffffff600000 8192K 0K 0K ---p 00000000 00:00 [vdso]Total: 12144K 440K 96K
從這個(gè)結(jié)果可以看到進(jìn)程虛擬地址空間的使用情況,包括起始地址、大小、實(shí)際使用內(nèi)存、臟頁(yè)大小、權(quán)限、偏移、設(shè)備和映射文件等。 pmap 命令就是基于下面兩文件內(nèi)容進(jìn)行解析的:
/proc/$pid/maps /proc/$pid/smaps
并且對(duì)于上述每個(gè)內(nèi)存塊區(qū)間,內(nèi)核會(huì)使用一個(gè) vm_area_struct 結(jié)構(gòu)來(lái)維護(hù),同時(shí)通過(guò)頁(yè)面建立與物理內(nèi)存的映射關(guān)系,如下圖所示。
?
評(píng)論
查看更多