0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

詳解Linux Epoll多線程擴展性問題

xCb1_yikoulinux ? 來源:小梁編程匯 ? 作者:小梁編程匯 ? 2022-07-06 12:05 ? 次閱讀

內(nèi)容目錄

1. 引言2. 脈絡3 epoll 多線程擴展性3.1特定TCP listen fd的accept(2) 的問題3.1.1 水平觸發(fā)的問題:不必要的喚醒3.1.2 邊緣觸發(fā)的問題:不必要的喚醒以及饑餓3.1.3 怎樣才是正確的做法?3.1.4 其他方案3.2 大量TCP連接的read(2)的問題3.2.1 水平觸發(fā)的問題:數(shù)據(jù)亂序3.2.2 邊緣觸發(fā)的問題:數(shù)據(jù)亂序3.2.3 怎樣才是正確的做法?3.3 epoll load balance 總結4. epoll之file descriptor與file description4.1 總結5 引用

1引言

本文來自 Marek’s 博客中 I/O multiplexing part 系列之三和四,原文一共有四篇,主要講 Linux 上 IO 多路復用的一些問題,本文加入了我的一些個人理解,如有不對之處敬請指出。原文鏈接如下:

ThehistoryoftheSelect(2)syscall[1] Select(2)isfundamentallybroken[2] Epollisfundamentallybroken1/2[3] Epollisfundamentallybroken2/2[4]

2脈絡

系列三和系列四分別講 epoll(2) 存在的兩個不同的問題:

  1. 系列三主要講 epoll 的多線程擴展性的問題

  2. 系列四主要講 epoll 所注冊的 fd (file descriptor) 和實際內(nèi)核中控制的結構 file description 擁有不同的生命周期

我們在此也按照該順序進行闡述。

3 epoll 多線程擴展性

epoll 的多線程擴展性的問題主要體現(xiàn)在做多核之間負載均衡上,有兩個典型的場景:

  1. 一個 TCP 服務器,對同一個 listen fd 在多個 CPU 上調(diào)用 accept(2) 系統(tǒng)調(diào)用

  2. 大量 TCP 連接調(diào)用 read(2) 系統(tǒng)調(diào)用上

3.1 特定 TCP listen fd 的 accept(2) 的問題

一個典型的場景是一個需要處理大量短連接的 HTTP 1.0 服務器,由于需要 accept() 大量的 TCP 建連請求,所以希望把這些 accept() 分發(fā)到不同的 CPU 上來處理,以充分利用多 CPU 的能力。

這在實際生產(chǎn)環(huán)境是存在的, Tom Herbert 報告有應用需要處理每秒 4 萬個建連請求;當有這么多請求的時候,很顯然,將其分散到不同的 CPU 上是合理的。

然后實際上,事情并沒有這么簡單,直到 Linux 4.5 內(nèi)核,都無法通過 epoll(2) 把這些請求水平擴展到其他 CPU 上。下面我們來看看 epoll 的兩種模式 LT(level trigger, 水平觸發(fā)) 和 ET(edge trigger, 邊緣觸發(fā)) 在處理這種情況下的問題。

3.1.1 水平觸發(fā)的問題:不必要的喚醒

一個愚蠢的做法是是將同一個 epoll fd 放到不同的線程上來 epoll_wait(),這樣做顯然行不通,同樣,將同一個用于 accept 的 fd 加到不同的線程中的 epoll fd 中也行不通。

這是因為 epoll 的水平觸發(fā)模式和 select(2) 一樣存在 “驚群效應”,在不加特殊標志的水平觸發(fā)模式下,當一個新建連接請求過來時,所有的 worker 線程都都會被喚醒,下面是一個這種 case 的例子:

11. 內(nèi)核:收到一個新建連接的請求
22. 內(nèi)核:由于"驚群效應",喚醒兩個正在 epoll_wait()的線程 A 和線程 B
33. 線程A:epoll_wait()返回
44. 線程B:epoll_wait()返回
55. 線程A:執(zhí)行 accept()并且成功
66. 線程B:執(zhí)行 accept()失敗,accept()返回 EAGAIN

其中,線程 B 的喚醒完全沒有必要,僅僅只是浪費寶貴的 CPU 資源而已,水平觸發(fā)模式的 epoll 的擴展性很差。

3.1.2 邊緣觸發(fā)的問題:不必要的喚醒以及饑餓

既然水平觸發(fā)模式不行,那是不是邊緣觸發(fā)模式會更好呢?實際上并沒有。我們來看看下面這個例子:

11. 內(nèi)核:收到第一個連接請求。線程 A 和線程 B 兩個線程都在 epoll_wait()上等待。由于采用邊緣觸發(fā)模式,所以只有一個線程會收到通知。這里假定線程 A 收到通知
22. 線程A:epoll_wait()返回
33. 線程A:調(diào)用 accpet()并且成功
44. 內(nèi)核:此時 accept queue 為空,所以將邊緣觸發(fā)的 socket 的狀態(tài)從可讀置成不可讀
55. 內(nèi)核:收到第二個建連請求
66. 內(nèi)核:此時,由于線程 A 還在執(zhí)行 accept()處理,只剩下線程 B 在等待 epoll_wait(),于是喚醒線程 B
77. 線程A:繼續(xù)執(zhí)行 accept()直到返回 EAGAIN
88. 線程B:執(zhí)行 accept(),并返回 EAGAIN,此時線程 B 可能有點困惑("明明通知我有事件,結果卻返回 EAGAIN")
99. 線程A:再次執(zhí)行 accept(),這次終于返回 EAGAIN

可以看到在上面的例子中,線程 B 的喚醒是完全沒有必要的。另外,事實上邊緣觸發(fā)模式還存在饑餓的問題,我們來看下面這個例子:

11. 內(nèi)核:接收到兩個建連請求。線程 A 和線程 B 兩個線程都在等在 epoll_wait()。由于采用邊緣觸發(fā)模式,只有一個線程會被喚醒,我們這里假定線程 A 先被喚醒
22. 線程A:epoll_wait()返回
33. 線程A:調(diào)用 accpet()并且成功
44. 內(nèi)核:收到第三個建連請求。由于線程 A 還沒有處理完(沒有返回 EAGAIN),當前 socket 還處于可讀的狀態(tài),由于是邊緣觸發(fā)模式,所有不會產(chǎn)生新的事件
55. 線程A:繼續(xù)執(zhí)行 accept()希望返回 EAGAIN 再進入 epoll_wait()等待,然而它又 accept()成功并處理了一個新連接
66. 內(nèi)核:又收到了第四個建連請求
77. 線程A:又繼續(xù)執(zhí)行 accept(),結果又返回成功

在這個例子中個,這個 socket 只有一次從不可讀狀態(tài)變成可讀狀態(tài),由于 socket 處于邊緣觸發(fā)模式,內(nèi)核只會喚醒 epoll_wait() 一次。在這個例子中個,所有的建連請求全都會給線程 A,導致這個負載均衡根本沒有生效,線程 A 很忙而線程 B 沒有活干。

3.1.3 怎樣才是正確的做法?

既然水平觸發(fā)和邊緣觸發(fā)都不行,那怎樣才是正確的做法呢?有兩種 workaround 的方式:

  1. 最好的也是唯一支持可擴展的方式是使用從 Linux 4.5+ 開始出現(xiàn)的水平觸發(fā)模式新增的 EPOLLEXCLUSIVE 標志,這個標志會保證一個事件只有一個 epoll_wait() 會被喚醒,避免了 “驚群效應”,并且可以在多個 CPU 之間很好的水平擴展。

  2. 當內(nèi)核不支持EPOLLEXCLUSIVE 時,可以通過 ET 模式下的 EPOLLONESHOT模擬 LT + EPOLLEXCLUSIVE 的效果,當然這樣是有代價的,需要在每個事件處理完之后額外多調(diào)用一次 epoll_ctl(EPOLL_CTL_MOD) 重置這個 fd。這樣做可以將負載均分到不同的 CPU 上,但是同一時刻,只能有一個 worker 調(diào)用 accept(2)。顯然,這樣又限制了處理 accept(2) 的吞吐。下面是這樣做的例子:

  3. 內(nèi)核:接收到兩個建連請求。線程 A 和 線程 B 兩個線程都在等在 epoll_wait()。由于采用邊緣觸發(fā)模式,只有一個線程會被喚醒,我們這里假定線程 A 先被喚醒

  4. 線程A:epoll_wait() 返回

  5. 線程A:調(diào)用 accpet() 并且成功

  6. 線程A:調(diào)用 epoll_ctl(EPOLL_CTL_MOD),這樣會重置 EPOLLONESHOT 狀態(tài)并將這個 socket fd 重新準備好 “

3.1.4 其他方案

當然,如果不依賴于 epoll() 的話,也還有其他方案。一種方案是使用 SO_REUSEPORT 這個 socket option,創(chuàng)建多個 listen socket 共用一個端口號,不過這種方案其實也存在問題: 當一個 listen socket fd 被關了,已經(jīng)被分到這個 listen socket fd 的 accept 隊列上的請求會被丟掉,具體可以參考 https://engineeringblog.yelp.com/2015/04/true-zero-downtime-haproxy-reloads.html 和 LWN 上的 comment[5]

從 Linux 4.5 開始引入了 SO_ATTACH_REUSEPORT_CBPFSO_ATTACH_REUSEPORT_EBPF 這兩個 BPF 相關的 socket option。通過巧妙的設計,應該可以避免掉建連請求被丟掉的情況。

3.2 大量 TCP 連接的 read(2) 的問題

除了 3.1 中說的 accept(2) 的問題之外, 普通的 read(2) 在多核系統(tǒng)上也會有擴展性的問題。設想以下場景:一個 HTTP 服務器,需要跟大量的 HTTP client 通信,你希望盡快的處理每個客戶端的請求。而每個客戶端連接的請求的處理時間可能并不一樣,有些快有些慢,并且不可預測,因此簡單的將這些連接切分到不同的 CPU 上,可能導致平均響應時間變長。一種更好的排隊策略可能是:用一個 epoll fd 來管理這些連接并設置 EPOLLEXCLUSIVE,然后多個 worker 線程來 epoll_wait(),取出就緒的連接并處理[注1]。油管上有個視頻介紹這種稱之為 “combined queue” 的模型。

下面我們來看看 epoll 處理這種模型下的問題:

3.2.1 水平觸發(fā)的問題:數(shù)據(jù)亂序

實際上,由于水平觸發(fā)存在的 “驚群效應”,我們并不想用該模型。另外,即使加上 EPOLLEXCLUSIVE 標志,仍然存在數(shù)據(jù)競爭的情況,我們來看看下面這個例子:

11. 內(nèi)核:收到 2047 字節(jié)的數(shù)據(jù)
22. 內(nèi)核:線程 A 和線程 B 兩個線程都在 epoll_wait(),由于設置了 EPOLLEXCLUSIVE,內(nèi)核只會喚醒一個線程,假設這里先喚醒線程 A
33. 線程A:epoll_wait()返回
44. 內(nèi)核:內(nèi)核又收到 2 個字節(jié)的數(shù)據(jù)
55. 內(nèi)核:線程 A 還在干活,當前只有線程 B 在 epoll_wait(),內(nèi)核喚醒線程 B
66. 線程A:調(diào)用 read(2048)并讀走 2048 字節(jié)數(shù)據(jù)
77. 線程B:調(diào)用 read(2048)并讀走剩下的 1 字節(jié)數(shù)據(jù)

這上述場景中,數(shù)據(jù)會被分片到兩個不同的線程,如果沒有鎖保護的話,數(shù)據(jù)可能會存在亂序。

3.2.2 邊緣觸發(fā)的問題:數(shù)據(jù)亂序

既然水平觸發(fā)模型不行,那么邊緣觸發(fā)呢?實際上也存在相同的競爭,我們看看下面這個例子:

 11. 內(nèi)核:收到 2048 字節(jié)的數(shù)據(jù)
 22. 內(nèi)核:線程 A 和線程 B 兩個線程都在 epoll_wait(),由于設置了 EPOLLEXCLUSIVE,內(nèi)核只會喚醒一個線程,假設這里先喚醒線程 A
 33. 線程A:epoll_wait()返回
 44. 線程A:調(diào)用 read(2048)并返回 2048 字節(jié)數(shù)據(jù)
 55. 內(nèi)核:緩沖區(qū)數(shù)據(jù)全部已經(jīng)讀完,又重新將該 fd 掛到 epoll 隊列上
 66. 內(nèi)核:收到 1 字節(jié)的數(shù)據(jù)
 77. 內(nèi)核:線程 A 還在干活,當前只有線程 B 在 epoll_wait(),內(nèi)核喚醒線程 B
 88. 線程B:epoll_wait()返回
 99. 線程B:調(diào)用 read(2048)并且只讀到了 1 字節(jié)數(shù)據(jù)
1010. 線程A:再次調(diào)用 read(2048),此時由于內(nèi)核緩沖區(qū)已經(jīng)沒有數(shù)據(jù),返回 EAGAIN

3.2.3 怎樣才是正確的做法?

實際上,要保證同一個連接的數(shù)據(jù)始終落到同一個線程上,在上述 epoll 模型下,唯一的方法就是 epoll_ctl 的時候加上 EPOLLONESHOT 標志,然后在每次處理完重新把這個 socket fd 加到 epoll 里面去。

3.3 epoll load balance 總結

要正確的用好 epoll(2) 并不容易,要用 epoll 實現(xiàn)負載均衡并且避免數(shù)據(jù)競爭,必須掌握好 EPOLLONESHOTEPOLLEXCLUSIVE 這兩個標志。而 EPOLLEXCLUSIVE 又是個 epoll 后來新加的標志,所以我們可以說 epoll 最初設計時,并沒有想著支持這種多線程負載均衡的場景。

4. epoll 之 file descriptor 與 file description

這一章我們主要討論 epoll 的另一個大問題:file descriptor 與 file description 生命周期不一致的問題。

Foom 在 LWN[6] 上說道:

1顯然 epoll 存在巨大的設計缺陷,任何懂得 file descriptor 的人應該都能看得出來。事實上當你回望 epoll 的歷史,你會發(fā)現(xiàn)當時實現(xiàn) epoll 的人們顯然并不怎么了解 file descriptor 和 file description 的區(qū)別。:(

實際上,epoll() 的這個問題主要在于它混淆了用戶態(tài)的 file descriptor (我們平常說的數(shù)字 fd) 和內(nèi)核態(tài)中真正用于實現(xiàn)的 file description。當進程調(diào)用 close(2) 關閉一個 fd 時,這個問題就會體現(xiàn)出來。

epoll_ctl(EPOLL_CTL_ADD) 實際上并不是注冊一個 file descriptor (fd),而是將 fd 和 一個指向內(nèi)核 file description 的指針的對 (tuple) 一塊注冊給了 epoll,導致問題的根源在于,epoll 里管理的 fd 的生命周期,并不是 fd 本身的,而是內(nèi)核中相應的 file description 的。

當使用 close(2) 這個系統(tǒng)調(diào)用關掉一個 fd 時,如果這個 fd 是內(nèi)核中 file description 的唯一引用時,內(nèi)核中的 file description 也會跟著一并被刪除,這樣是 OK 的;但是當內(nèi)核中的 file description 還有其他引用時,close 并不會刪除這個 file descrption。這樣會導致當這個 fd 還沒有從 epoll 中挪出就被直接 close 時,epoll() 還會在這個已經(jīng) close() 掉了的 fd 上上報事件。

這里以 dup(2) 系統(tǒng)調(diào)用為例來展示這個問題:

 1rfd,wfd=pipe()
 2write(wfd,"a")#Makethe"rfd"readable
 3
 4epfd=epoll_create()
 5epoll_ctl(efpd,EPOLL_CTL_ADD,rfd,(EPOLLIN,rfd))
 6
 7rfd2=dup(rfd)
 8close(rfd)
 9
10r=epoll_wait(epfd,-1ms)#Whatwillhappen?

由于 close(rfd) 關掉了這個 rfd,你可能會認為這個 epoll_wait() 會一直阻塞不返回,而實際上并不是這樣。由于調(diào)用了 dup(),內(nèi)核中相應的 file description 仍然還有一個引用計數(shù)而沒有被刪除,所以這個 file descption 的事件仍然會上報給 epoll。因此 epoll_wait() 會給一個已經(jīng)不存在的 fd 上報事件。更糟糕的是,一旦你 close() 了這個 fd,再也沒有機會把這個死掉的 fd 從 epoll 上摘除了,下面的做法都不行:

1epoll_ctl(efpd,EPOLL_CTL_DEL,rfd)
2epoll_ctl(efpd,EPOLL_CTL_DEL,rfd2)

Marc Lehmann 也提到這個問題:

1因此,存在 close 掉了一個 fd,卻還一直從這個 fd 上收到 epoll 事件的可能性。并且這種情況一旦發(fā)生,不管你做什么都無法恢復了。

因此,并不能依賴于 close() 來做清理工作,一旦調(diào)用了 close(),而正好內(nèi)核里面的 file description 還有引用,這個 epoll fd 就再也修不好了,唯一的做法是把的 epoll fd 給干掉,然后創(chuàng)建一個新的并將之前那些 fd 全部再加到這個新的 epoll fd 上。所以記住這條忠告:

1永遠記著先在調(diào)用close()之前,顯示的調(diào)用epoll_ctl(EPOLL_CTL_DEL)

4.1 總結

顯式的將 fd 從 epoll 上面刪掉在調(diào)用 close() 的話可以工作的很好,前提是你對所有的代碼都有掌控力。然后在一些場景里并不一直是這樣,譬如當寫一個封裝 epoll 的庫,有時你并不能禁止用戶調(diào)用 close(2) 系統(tǒng)調(diào)用。因此,要寫一個基于 epoll 的輕量級的抽象層并不是一個輕松的事情。

另外,Illumos 也實現(xiàn)了一套 epoll() 機制,在他們的手冊上,明確提到 Linux 上這個 epoll()/close() 的奇怪語義,并且拒絕支持。

希望本所提到的問題對于使用 Linux 上這個糟糕的 epoll() 設計的人有所幫助。


注1:筆者認為該場景下或許直接用一個 master 線程來做分發(fā),多個 worker 線程做處理 或者采用每個 worker 線程一個自己獨立的 epoll fd 可能是更好的方案。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Linux
    +關注

    關注

    87

    文章

    11314

    瀏覽量

    209807
  • 多線程
    +關注

    關注

    0

    文章

    278

    瀏覽量

    20016
  • epoll
    +關注

    關注

    0

    文章

    28

    瀏覽量

    2967

原文標題:盤點Linux Epoll那些致命弱點

文章出處:【微信號:yikoulinux,微信公眾號:一口Linux】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Linux多線程編程手冊

    Linux多線程編程手冊
    發(fā)表于 11-07 10:17

    提高Linux 內(nèi)核的穩(wěn)定性、可擴展性核心點有哪些?

    /應用程序服務器的企業(yè)用戶環(huán)境相關的工作負荷,也著重于提高 Linux 內(nèi)核的穩(wěn)定性、可擴展性以及 (內(nèi)核) 與 Web 服務器/實用程序服務器的兼容性。最重要的并不是識別 Web 服務器和應用程序服務器的缺陷。
    發(fā)表于 07-08 06:19

    Facebook的擴展性挑戰(zhàn)討論

    今天我們一起來了解Facebook背后的軟件,看看作為當今世界上訪問量最大的網(wǎng)站之一,F(xiàn)acebook是如何保證5億用戶的系統(tǒng)一直穩(wěn)定可靠的運行。 Facebook的擴展性挑戰(zhàn)
    發(fā)表于 07-17 07:22

    請問處理器擴展性有什么重要之處?

    處理器擴展性有什么重要之處?
    發(fā)表于 06-17 09:51

    linux多線程編程課件

    電子發(fā)燒友為您提供了linux多線程編程課件,希望對您學習 linux 有所幫助。部分內(nèi)容如下: *1、多線程模型在單處理器模型和多處理器系統(tǒng)上,都能改善響應時間和吞吐量。 *2、
    發(fā)表于 07-10 11:58 ?0次下載

    linux多線程編程開發(fā)

    本文中我們針對 Linux多線程編程的主要特性總結出 5 條經(jīng)驗,用以改善 Linux 多線程編程的習慣和避免其中的開發(fā)陷阱。在本文中,我們穿插一些 Windows 的編程用例用以
    發(fā)表于 12-26 14:24 ?55次下載
    <b class='flag-5'>linux</b><b class='flag-5'>多線程</b>編程開發(fā)

    VC-MFC多線程編程詳解

    VC編程中關于 MFC多線程編程的詳解文檔
    發(fā)表于 09-01 15:01 ?0次下載

    linux多線程編程技術

    (process)中只允許有一個線程,這樣多線程就意味著多進程?,F(xiàn)在,多線程技術已經(jīng)被許多操作系統(tǒng)所支持,包括Windows/NT,當然,也包括Linux。 為什么有了進程的概念后,還
    發(fā)表于 10-24 16:01 ?5次下載

    基于軟件定義網(wǎng)絡控制可擴展性研究

    軟件定義網(wǎng)絡(software-defined networking,簡稱SDN)遵循控制轉發(fā)分離的設計原則,其控制平面采用集中的控制邏輯,在提供靈活高效的網(wǎng)絡控制的同時,也面臨著嚴重的可擴展性問題
    發(fā)表于 12-19 18:07 ?0次下載
    基于軟件定義網(wǎng)絡控制可<b class='flag-5'>擴展性</b>研究

    如何解決區(qū)塊鏈的可擴展性問題

    “可擴展性三難困境”是由以太坊聯(lián)合創(chuàng)始人維塔利克·布特林創(chuàng)造的一個術語。假設區(qū)塊鏈系統(tǒng)只能具有以下三種屬性中的兩種: · 去中心化——系統(tǒng)中的每個參與者只能訪問O(c)資源 · 可擴展性
    發(fā)表于 03-20 10:30 ?2209次閱讀

    Linux下的多線程編程

    進程(process)中只允許有一個線程,這樣多線程就意味著多進程?,F(xiàn)在,多線程技術已經(jīng)被許多操作系統(tǒng)所支持,包括Windows/NT,當然,也包括Linux?! 槭裁从辛诉M程的概念
    發(fā)表于 04-02 14:43 ?609次閱讀

    信標鏈將如何解決以太坊的擴展性問題

    信標鏈,英文名叫 Beacon Chain,Beacon ,意思就是燈塔,信號浮標。它其實是以太坊 2.0 系統(tǒng)的核心。 信標鏈是一種全新的權益證明( PoS )區(qū)塊鏈,它是為了解決共識問題,而分片鏈( Shard Chains )的目的是解決以太坊的擴展性問題。
    發(fā)表于 08-04 10:58 ?739次閱讀

    影響軟件高可擴展性的六大因素

    軟件可擴展性是一個有趣的話題。實現(xiàn)軟件可擴展性涉及很多因素,我們在本文將討論一些與開發(fā)和運維方面相關的因素。
    的頭像 發(fā)表于 02-17 16:13 ?8761次閱讀
    影響軟件高可<b class='flag-5'>擴展性</b>的六大因素

    Linux多線程編程的知識點

    Hello、Hello大家好,我是木榮,今天我們繼續(xù)來聊一聊Linux多線程編程中的重要知識點,詳細談談多線程中同步和互斥機制。
    發(fā)表于 04-26 17:27 ?607次閱讀
    <b class='flag-5'>Linux</b>中<b class='flag-5'>多線程</b>編程的知識點

    擴展性對物聯(lián)網(wǎng)管理系統(tǒng)有哪些影響?

    擴展性對于物聯(lián)網(wǎng)管理系統(tǒng)的設計和開發(fā)非常重要,它直接影響著系統(tǒng)的性能、可靠性和能耗等方面,是評估一個系統(tǒng)優(yōu)劣的重要因素之一???b class='flag-5'>擴展性對物聯(lián)網(wǎng)管理系統(tǒng)的影響主要體現(xiàn)在以下幾個方面:
    的頭像 發(fā)表于 10-11 15:15 ?528次閱讀