0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

linux內(nèi)核中percpu變量的實現(xiàn)

Linux閱碼場 ? 來源:Linuxer ? 作者:Linuxer ? 2021-01-04 13:39 ? 次閱讀

我們在使用各種編程語言進行多線程編程時,經(jīng)常會用到thread local變量。

所謂thread local變量,就是對于同一個變量,每個線程都有自己的一份,對該變量的訪問是線程隔離的,它們之間不會相互影響,所以也就不會有各種多線程問題。

正確的使用thread local變量,能極大的簡化多線程開發(fā)。所以不管是c/c++/rust,還是java/c#等,都內(nèi)置了對thread local變量的支持。

但你知道嗎,不僅是在編程語言中,在linux內(nèi)核中,也有一個類似的機制,用來實現(xiàn)類似的目的,它叫做percpu變量。

percpu變量,顧名思義,就是對于同一個變量,每個cpu都有自己的一份,它可以被用來存放一些cpu獨有的數(shù)據(jù),比如cpu的id,cpu上正在運行的線程等等,因該機制可以非常方便的解決一些特定問題,所以在內(nèi)核編程中被廣泛使用。

好奇的你們肯定都在問,它是怎么實現(xiàn)的呢?

我們先不管細節(jié),先來看一張圖,這樣從全局的角度來了解下它的實現(xiàn)。

095e34cc-4e4d-11eb-8b86-12bb97331649.png

從上圖中我們可以看到,各種源文件中通過DEFINE_PER_CPU的方式,定義了很多percpu變量,這些變量根據(jù)vmlinux.lds.S中的相關定義,會被linker聚合在一起,然后放到最終vmlinux文件的,一個名叫.data..percpu的section里。

這些變量的地址也是被特殊處理過的,它們從零開始依次遞增,這樣一個變量的地址,就是該變量在整個vmlinux的.data..percpu區(qū)里的位置,有了這個位置,然后再知道某個cpu的percpu內(nèi)存塊的起始地址,就可以很方便的計算出該cpu對應的該變量的運行時內(nèi)存地址。

linux內(nèi)核在啟動時,會先把vmlinux文件加載到內(nèi)存中,然后根據(jù)cpu的個數(shù),為每個cpu都分配一塊用于存放percpu變量的內(nèi)存區(qū)域,之后把vmlinux中的.data..percpu section里的內(nèi)容,拷貝到各個cpu的percpu內(nèi)存塊的static區(qū)域里,最后將各percpu內(nèi)存塊的起始地址放到對應cpu的gs寄存器里。

到這里有關percpu變量的初始化工作就已經(jīng)結(jié)束了。

當我們在訪問percpu變量時,只需要將gs寄存器里的地址,加上我們想要訪問的percpu變量的地址,就能得到在該cpu上,該percpu變量真實的內(nèi)存地址。

有了這個地址,我們就可以方便的操作這個percpu變量了。

上圖中重點描述的是那些,在內(nèi)核編譯期就已經(jīng)確定的percpu變量,這些變量是靜態(tài)的,是不會隨著時間的推移而動態(tài)的增加或減少的,所以它們在內(nèi)核初始化時,就直接被拷貝到了各個percpu內(nèi)存塊的static區(qū)。

除了這種靜態(tài)percpu變量,還有另外兩種percpu變量。

其中一種是內(nèi)核模塊中的靜態(tài)percpu變量,它雖然也是在編譯期就能確定的,但由于內(nèi)核模塊動態(tài)加載的特性,它不是完全靜態(tài)的,內(nèi)核為這種percpu變量在percpu內(nèi)存塊中單獨開辟了一個區(qū)域,叫reserved區(qū),當內(nèi)核模塊被加載到內(nèi)存時,其靜態(tài)percpu變量就會在這個區(qū)域分配內(nèi)存。

另外一種percpu變量就是純動態(tài)的percpu變量,它是在運行時動態(tài)分配的,它使用的內(nèi)存是上圖中的dynamic區(qū)。

static區(qū)的大小是在編譯期就算好的,是固定不變的,reserved區(qū)也是固定不變的,但其大小是預估的,dynamic區(qū)是可以動態(tài)增加的。

雖然這三種percpu變量的分配方式不同,但它們的內(nèi)在機制本質(zhì)上都是一樣的,所以這里我們只講內(nèi)核里的靜態(tài)percpu變量,對其他兩種方式感興趣的同學,可以參考內(nèi)核源碼自己研究下。

下面我們就用一個具體的例子,來看下percpu變量到底是怎么實現(xiàn)的。

098e7696-4e4d-11eb-8b86-12bb97331649.png

上圖中的current表示要獲取當前線程對象,它其實是一個宏,具體定義如下:

09d1f36c-4e4d-11eb-8b86-12bb97331649.png

由上可見,current獲取的當前線程對象其實是一個名為current_task的percpu變量。

在get_current方法中,通過this_cpu_read_stable方法,獲取屬于當前cpu的current_task。

this_cpu_read_stable方法其實也是一個宏,它全部展開后是下面這個樣子:

0a0caba6-4e4d-11eb-8b86-12bb97331649.png

在這里,我們先不講宏展開后各語句到底是什么意思,我們先跑個題。 讀過linux內(nèi)核源碼的同學都知道,在linux內(nèi)核中,宏使用的非常多,且比較復雜,如果我們對自己進行宏展開的正確性沒有信心的話,可以使用下面我介紹的這個方式,使用它,你可以非常容易的得到任意文件宏展開后的結(jié)果。

我們知道,一個程序的構建分為預處理、編譯、匯編、鏈接這些階段,而宏展開就發(fā)生在預處理階段。 各個階段在完成后,一般都會生成一個臨時文件給下一階段使用,這些臨時文件默認是不會保存到磁盤上的,但我們可以通過指定一些參數(shù),告知gcc幫我們保留下來這些臨時文件,這樣我們就可以查看各個階段的生成內(nèi)容了。

依據(jù)該思路,我們只要在編譯比如上面的net/socket.c文件時,加上這些參數(shù),我們就能得到這些臨時文件,也就可以查看其預處理之后的宏展開是什么樣子的了。 但是,如果只是為了查看單個文件的宏展開后結(jié)果,就保存下整個內(nèi)核中,所有源文件編譯時的臨時文件,這是非常耗時且不劃算的,那有沒有辦法可以想查看哪個文件的宏展開,就單獨編譯一次那個文件呢? 還真有。

其實說起來該方法也很簡單,我們只需要知道編譯某個文件時使用的編譯命令是什么,這樣當我們需要查看這個文件的宏展開時,再使用這個編譯命令,且加上一些特定的參數(shù),再編譯一遍,這樣就能得到該文件編譯過程中,各階段的臨時文件了。 那如何找到編譯各個源文件時使用的命令呢?

這個內(nèi)核其實已經(jīng)幫我們做好了。 當我們在編譯內(nèi)核時,內(nèi)核中每個文件被編譯時使用的命令,都會保存到一個對應的臨時文件里,比如上面net/socket.c文件的編譯命令就保存在下面的文件里:

0a40bcc0-4e4d-11eb-8b86-12bb97331649.png

net/socket.c的編譯命令就是上圖中的第一行,從gcc開始到該行結(jié)束的部分。 這個編譯命令夠復雜吧,但我們不用管,我們只用知道,使用該命令,就可以將net/socket.c編譯成net/socket.o。 現(xiàn)在我們在該命令的基礎上,加上-save-temps=obj參數(shù),告知gcc在編譯時保留下各階段的臨時文件,具體操作流程如下:

0a7fdec8-4e4d-11eb-8b86-12bb97331649.png

由上可見,加上-save-temps=obj參數(shù)后,該編譯過程多生成兩個文件,而net/socket.i就是gcc預處理之后的文件。 打開net/socket.i,并找到我們需要的get_current方法:

0ac1897c-4e4d-11eb-8b86-12bb97331649.png

看上圖中的選中部分,其內(nèi)容和我們自己宏展開后的結(jié)果,是完全一樣的。 這個方法還不錯吧。 當然,我們還可以通過反編譯的方式,進一步確認下宏展開后確實是這樣:

0aecae04-4e4d-11eb-8b86-12bb97331649.png

由上可見,宏展開后其實主要就是一條mov指令,其中current_task變量地址的值為0x16d00。 該指令的意思是,將gs寄存器里的地址,和current_task的地址相加,然后將相加后地址指向的內(nèi)存空間里的值,移動到rax里。 這個和我們上面提到的,percpu的實現(xiàn)機制是一致的。 好,我們回到上文中斷的部分,來繼續(xù)看下get_current方法里宏展開后各語句的意思。

上文講到,get_current方法里的this_cpu_read_stable方法宏展開后主要是一條asm語句,可能有些同學對該語句不太熟悉,它其實并不是c語言標準規(guī)范里的語法,而是gcc對c標準的擴展,通過asm語句,我們可以在c中直接執(zhí)行匯編指令。 有關其詳細的語法規(guī)則,可以參考以下鏈接: https://gcc.gnu.org/onlinedocs/gcc/Using-Assembly-Language-with-C.html#Using-Assembly-Language-with-C

不關心細節(jié)的同學可以不用去看具體語法,我們只要知道該asm語句的意思是,獲取current_task的地址,將該地址與gs段寄存器里的基礎地址值相加,得到一個最終的地址,然后通過mov指令,將該最終地址指向的內(nèi)存的值,放到pfo_val__變量里。 該指令執(zhí)行完畢后,pfo_val__變量里存放的值,就是當前cpu執(zhí)行的當前線程對象struct task_struct的地址,也就是說,pfo_val__變量為當前正在執(zhí)行的線程對象的指針。

那為什么通過這種方式,得到的就是當前cpu正在執(zhí)行的當前線程對象的指針呢? 這個其實上文我們已經(jīng)講過了,關鍵點在于gs寄存器中存放的是當前cpu的percpu內(nèi)存塊的起始地址,而current_task的地址表示的又是,current_task變量在任意percpu內(nèi)存塊的位置,所以這兩個地址一相加,得到的自然就是當前cpu的current_task變量的當前值了。 理論上是如此,不過我們還是通過源碼角度再看下。 首先我們來看下current_task變量的定義:

0b59deb6-4e4d-11eb-8b86-12bb97331649.png

DEFINE_PER_CPU還是一個宏,其展開后如下:

0b89d1de-4e4d-11eb-8b86-12bb97331649.png

在宏展開后的變量定義中,最重要的是指定該變量的section為.data..percpu。 我們再看什么地方使用了這個section:

0bb45e36-4e4d-11eb-8b86-12bb97331649.png

由上圖可見,PERCPU_INPUT宏里使用了該section,而PERCPU_INPUT宏又被下面的PERCPU_VADDR宏使用。 我們再來看下PERCPU_VADDR宏在哪里使用:

0c2ee5fc-4e4d-11eb-8b86-12bb97331649.png

由上可見PERCPU_VADDR宏又在vmlinux.lds.S文件中使用。 vmlinux.lds.S是一個鏈接腳本,在鏈接階段,linker會根據(jù)vmlinux.lds.S里的定義,把相同section的內(nèi)核變量或方法,聚合起來,放到最終輸出文件vmlinux的對應section里。 比如上面的PERCPU_VADDR宏就是說,把所有源文件中的屬于各種.data..percpu section的變量提取出來,然后依次放入到輸出文件vmlinux的.data..percpu的section中。

上圖中需要注意的是,在調(diào)用PERCPU_VADDR時,傳入的vaddr參數(shù)是0,它表示vmlinux中.data..percpu section里存放的變量地址是從0開始,依次遞增的。 這個我們之前也說過,該地址是用來表示該變量在.data..percpu section里的位置,也就是說,該地址表示的是該變量在運行時的,各cpu的percpu內(nèi)存塊里的位置。 vmlinux里.data..percpu section存放的變量地址是從0開始的,這個我們可以通過__per_cpu_start的值得到確認:

0c512b58-4e4d-11eb-8b86-12bb97331649.png

另一個需要注意的是,__per_cpu_load的地址值是正常的內(nèi)核編譯地址,它用來指定,當vmlinux被加載到內(nèi)存后,vmlinux里的.data..percpu section所處內(nèi)存的位置:

0c75ebdc-4e4d-11eb-8b86-12bb97331649.png

綜上可知,PERCPU_VADDR宏的作用是,將所有源文件中屬于各個.data..percpu section的變量聚合起來,然后依次放到輸出文件vmlinux的.data..percpu section中,且section中的變量地址是從0開始的,這樣這些變量的地址就表示其所處的該section的位置。

另外,PERCPU_VADDR宏里還定義了三個地址值: __per_cpu_load表示當vmlinux被加載到內(nèi)存時,vmlinux中的.data..percpu section所處內(nèi)存位置。 __per_cpu_start的值是0。 __per_cpu_end的值是vmlinux中的.data..percpu section的結(jié)束地址。 這樣通過__per_cpu_load就可以知道當vmlinux被加載到內(nèi)存時,.data..percpu section所處位置,通過__per_cpu_end -__per_cpu_start,就可以知道.data..percpu section的大小。

0c958636-4e4d-11eb-8b86-12bb97331649.png

由上可見,內(nèi)核中的percpu變量占用內(nèi)存大小差不多是170KiB。 到這里,有關percpu變量的所有準備工作都已做好,下面我們來看下,在內(nèi)核vmlinux文件啟動過程中,它是怎么利用這些信息,為各個cpu分配percpu內(nèi)存塊,初始化內(nèi)存塊數(shù)據(jù),及設置內(nèi)存塊地址到gs寄存器的。 通過搜索__per_cpu_load,__per_cpu_start,__per_cpu_end我們可以知道,這些內(nèi)存分配工作是在setup_per_cpu_areas方法里完成的:

0cc992aa-4e4d-11eb-8b86-12bb97331649.png

該方法的文件路徑和大致樣子就如上圖所示,為了方便查看,我刪除了很多不必要的代碼。 由于該方法的邏輯非常復雜,這里我們就不詳細講解每行代碼了,只看些關鍵部分。 該方法及相關方法的主要作用是為每個cpu分配自己的percpu內(nèi)存塊:

0d00dcc4-4e4d-11eb-8b86-12bb97331649.png

然后將vmlinux的.data..percpu section拷貝到各個cpu的percpu內(nèi)存塊里:

0d2962ca-4e4d-11eb-8b86-12bb97331649.png

這里的ai->static_size就是__per_cpu_end減去__per_cpu_start的值。 最后設置各cpu的percpu內(nèi)存塊的起始地址值到各自cpu的gs寄存器里:

0d5d891a-4e4d-11eb-8b86-12bb97331649.png

上圖中需要注意的是gs寄存器的設置方式,我們知道,在x86_64模式下,段寄存器CS, DS, ES, SS基本上是不用了,F(xiàn)S和GS雖然還在用,但使用傳統(tǒng)的mov指令等方式設置FS和GS值,支持的地址空間只能到32位,如果想要支持到64位,必須通過寫MSR的形式來完成。 這個在AMD官方文檔里有詳細說明:

0d7ce4a4-4e4d-11eb-8b86-12bb97331649.png

在設置完gs寄存器的值后,我們再回頭來想想,內(nèi)核是如何獲取當前cpu的current_task變量的地址值的呢: mov %gs:0x16d00, %rax 現(xiàn)在這行代碼的意思你就完全明白了吧。 到這里,percpu部分的內(nèi)容就已經(jīng)完全講完了,但有關如何獲取當前cpu正在運行的當前線程的current_task值,還有一點沒講到。 我們知道,一個cpu是可以運行多個線程的,如果想要讓current_task這個percpu變量,指向當前cpu的當前線程,那在線程切換的時候必須要更新一下current_task:

0da628fa-4e4d-11eb-8b86-12bb97331649.png

如上。 現(xiàn)在,有關percpu變量的知識,你是否已經(jīng)完全了解了呢,如果還有疑問,可以再去看看文章開始我畫的那張圖,或者給我留言,我們可以一起討論。

責任編輯:xj

原文標題:一張圖看懂linux內(nèi)核中percpu變量的實現(xiàn)

文章出處:【微信公眾號:Linuxer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 內(nèi)核
    +關注

    關注

    3

    文章

    1372

    瀏覽量

    40291
  • Linux
    +關注

    關注

    87

    文章

    11304

    瀏覽量

    209521
  • 變量
    +關注

    關注

    0

    文章

    613

    瀏覽量

    28371

原文標題:一張圖看懂linux內(nèi)核中percpu變量的實現(xiàn)

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Linux從零到精通:最簡單的Shell腳本入門教程

    在數(shù)字化時代的浪潮,Linux操作系統(tǒng)憑借其高效、穩(wěn)定、開源的特性,成為了無數(shù)開發(fā)者和系統(tǒng)管理員的首選。 而在Linux的龐大生態(tài)系統(tǒng),Shell編程無疑是連接用戶與系統(tǒng)
    的頭像 發(fā)表于 12-05 09:56 ?441次閱讀
    <b class='flag-5'>Linux</b>從零到精通:最簡單的Shell腳本入門教程

    嵌入式工程師都在找的【Linux內(nèi)核調(diào)試技術】建議收藏!

    在嵌入式系統(tǒng)的開發(fā),Linux內(nèi)核調(diào)試是一個至關重要的環(huán)節(jié)。 隨著處理器技術的不斷進步和嵌入式領域的蓬勃發(fā)展,掌握有效的內(nèi)核調(diào)試技術成為了開發(fā)者們的一項必備技能。本文將介紹幾種常見
    發(fā)表于 11-28 15:37

    linux內(nèi)核通用HID觸摸驅(qū)動

    linux內(nèi)核,為HID觸摸面板實現(xiàn)了一個通用的驅(qū)動程序,位于/drivers/hid/hid-multitouch.c文件。hid觸
    的頭像 發(fā)表于 10-29 10:55 ?615次閱讀
    <b class='flag-5'>linux</b><b class='flag-5'>內(nèi)核</b><b class='flag-5'>中</b>通用HID觸摸驅(qū)動

    Linux環(huán)境變量配置方法

    Linux上環(huán)境變量配置分為設置永久變量和臨時變量兩種。環(huán)境變量設置方法同時要考慮環(huán)境Shell類型,不同類型的SHELL設置臨時
    的頭像 發(fā)表于 10-23 13:39 ?171次閱讀

    詳解linux內(nèi)核的uevent機制

    linux內(nèi)核,uevent機制是一種內(nèi)核和用戶空間通信的機制,用于通知用戶空間應用程序各種硬件更改或其他事件,比如插入或移除硬件設備(如USB驅(qū)動器或網(wǎng)絡接口)。uevent表示
    的頭像 發(fā)表于 09-29 17:01 ?692次閱讀

    linux驅(qū)動程序如何加載進內(nèi)核

    Linux系統(tǒng),驅(qū)動程序是內(nèi)核與硬件設備之間的橋梁。它們允許內(nèi)核與硬件設備進行通信,從而實現(xiàn)對硬件設備的控制和管理。 驅(qū)動程序的編寫 驅(qū)
    的頭像 發(fā)表于 08-30 15:02 ?474次閱讀

    Linux內(nèi)核測試技術

    。內(nèi)核測試技術是實現(xiàn)這一目標的關鍵手段。本文將詳細介紹 Linux 內(nèi)核測試的各種技術,包括單元測試、集成測試、功能測試和性能測試等,并討論不同測試方法的優(yōu)缺點及其適用場景。
    的頭像 發(fā)表于 08-13 13:42 ?493次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>測試技術

    Linux內(nèi)核的頁面分配機制

    Linux內(nèi)核是如何分配出頁面的,如果我們站在CPU的角度去看這個問題,CPU能分配出來的頁面是以物理頁面為單位的。也就是我們計算機中常講的分頁機制。本文就看下Linux
    的頭像 發(fā)表于 08-07 15:51 ?292次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b><b class='flag-5'>中</b>的頁面分配機制

    歡創(chuàng)播報 華為宣布鴻蒙內(nèi)核已超越Linux內(nèi)核

    1 華為宣布鴻蒙內(nèi)核已超越Linux內(nèi)核 ? 6月21日,在華為開發(fā)者大會上, HarmonyOS NEXT(鴻蒙NEXT)——真正獨立于安卓和iOS的鴻蒙操作系統(tǒng),正式登場。這是HarmonyOS
    的頭像 發(fā)表于 06-27 11:30 ?843次閱讀

    使用 PREEMPT_RT 在 Ubuntu 構建實時 Linux 內(nèi)核

    盟通技術干貨構建實時Linux內(nèi)核簡介盟通技術干貨Motrotech如果需要在Linux實現(xiàn)實時計算性能,進而有效地將
    的頭像 發(fā)表于 04-12 08:36 ?2473次閱讀
    使用 PREEMPT_RT 在 Ubuntu <b class='flag-5'>中</b>構建實時 <b class='flag-5'>Linux</b> <b class='flag-5'>內(nèi)核</b>

    微軟發(fā)布Linux內(nèi)核Rust模塊優(yōu)化補丁

    在此之前,Linux 內(nèi)核要想實現(xiàn)模塊初始化,必須先創(chuàng)建一個實例,再將其移至特定內(nèi)存空間。然而,經(jīng)過新補丁調(diào)整后,各模塊可直接在預設定好的內(nèi)存地址上完成初始化工作。
    的頭像 發(fā)表于 04-02 15:11 ?461次閱讀

    Linux系統(tǒng)設置環(huán)境變量的方法和技巧

    Linux中環(huán)境變量是一種保存有關系統(tǒng)環(huán)境配置的信息的對象。它們被廣泛用于存儲有關系統(tǒng)操作的信息比如路徑、文件名等。通過合理配置環(huán)境變量我們可以方便地訪問和執(zhí)行各種命令和程序。
    的頭像 發(fā)表于 02-01 11:09 ?1697次閱讀
    <b class='flag-5'>Linux</b>系統(tǒng)<b class='flag-5'>中</b>設置環(huán)境<b class='flag-5'>變量</b>的方法和技巧

    C++在Linux內(nèi)核開發(fā)從爭議到成熟

    Linux 內(nèi)核郵件列表中一篇已有六年歷史的老帖近日再次引發(fā)激烈討論 —— 主題是建議將 Linux 內(nèi)核的開發(fā)語言從 C 轉(zhuǎn)換為更現(xiàn)代的 C++。
    的頭像 發(fā)表于 01-31 14:11 ?633次閱讀
    C++在<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>開發(fā)<b class='flag-5'>中</b>從爭議到成熟

    Ubuntu 24.04 LTS選用Linux 6.8為默認內(nèi)核

    關于Ubuntu 24.04 LTS使用何種內(nèi)核版本,一直備受關注。Canonical工程師Andrea Righi昨日宣布,Ubuntu 24.04將默認搭載Linux 6.8內(nèi)核
    的頭像 發(fā)表于 01-29 11:27 ?1118次閱讀

    Linux環(huán)境變量配置方法

    想必大家平時工作也會配置Linux的環(huán)境變量,但是可能也僅僅是為解決某些工具的運行環(huán)境,對于Linux環(huán)境變量本身的配置學問還沒深入了解。
    的頭像 發(fā)表于 01-04 09:51 ?546次閱讀