0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么有時(shí)進(jìn)程莫名奇妙就沒(méi)有了?

Linux閱碼場(chǎng) ? 來(lái)源:卯時(shí)卯刻 ? 作者:KINGYT ? 2021-05-24 17:25 ? 次閱讀

先來(lái)看段代碼:

566b5b06-bc29-11eb-bf61-12bb97331649.png

這段代碼非常簡(jiǎn)單,就是先用mmap的方式,為該進(jìn)程分配10GiB的虛擬內(nèi)存,然后再用page寫的方式,讓操作系統(tǒng)為這10GiB虛擬內(nèi)存,分配對(duì)應(yīng)的物理內(nèi)存,最后sleep,等待我們測(cè)試。

運(yùn)行下。

沒(méi)啥問(wèn)題,和我們預(yù)期的一樣,正常執(zhí)行。

打開(kāi)另一個(gè)終端,執(zhí)行以下命令,看下它的內(nèi)存占用:

56883a6e-bc29-11eb-bf61-12bb97331649.png

上圖中的VSZ指的是虛擬內(nèi)存,RSS指的是物理內(nèi)存,單位都是KiB,所以該進(jìn)程虛擬內(nèi)存和物理內(nèi)存的使用,都約等于10GiB,沒(méi)問(wèn)題。

我們?cè)匍_(kāi)個(gè)終端,再執(zhí)行下這個(gè)程序。

第二次執(zhí)行這個(gè)程序也沒(méi)問(wèn)題,但奇怪的是,此時(shí)第一次執(zhí)行的那個(gè)程序卻被kill掉了。

這是為什么呢?

上面我們說(shuō)到,該程序的邏輯是分配10GiB的物理內(nèi)存,所以運(yùn)行兩次,也就是要分配20GiB的物理內(nèi)存。

但在我們的測(cè)試機(jī)器上,物理內(nèi)存一共才16GiB,所以,運(yùn)行兩個(gè)這樣的進(jìn)程肯定是不行的。

在第二次執(zhí)行該程序,且向操作系統(tǒng)申請(qǐng)物理內(nèi)存時(shí),操作系統(tǒng)會(huì)發(fā)現(xiàn),物理內(nèi)存已經(jīng)沒(méi)有了。

此時(shí),為了防止整個(gè)系統(tǒng)crash掉,linux內(nèi)核會(huì)觸發(fā) OOM/Out of Memory killing 機(jī)制,即按照一定的規(guī)則選擇一個(gè)進(jìn)程,將其kill掉,以便回收物理內(nèi)存,以此來(lái)保證機(jī)器整體的穩(wěn)定運(yùn)行。

同時(shí),該kill事件,也會(huì)被記錄到內(nèi)核日志中,且可通過(guò)dmesg命令等方式查看。

比如上面第一個(gè)進(jìn)程被kill掉的事件記錄如下:

56e61c06-bc29-11eb-bf61-12bb97331649.png

看上面紅色字體行,該行是說(shuō),進(jìn)程14134因?yàn)閛ut of memory被linux內(nèi)核kill掉了,該進(jìn)程正是上面我們第一次執(zhí)行的那個(gè)程序。

linux內(nèi)核的oom killing機(jī)制,其實(shí)是一種棄車保帥的做法,因?yàn)槿绻覀儾籯ill掉某進(jìn)程,來(lái)釋放物理內(nèi)存的話,那很有可能會(huì)導(dǎo)致后續(xù)系統(tǒng)級(jí)別的crash,兩害相權(quán)取其輕,操作系統(tǒng)只能這樣處理,歸根結(jié)底,是我們對(duì)進(jìn)程使用物理內(nèi)存的規(guī)劃不足,才導(dǎo)致了這種情況。

那為什么不在第二次執(zhí)行該程序時(shí),在調(diào)用mmap分配虛擬內(nèi)存時(shí)就直接報(bào)錯(cuò),返回?zé)o法分配內(nèi)存呢?

這是因?yàn)?,?jīng)過(guò)多年觀察,linux內(nèi)核的開(kāi)發(fā)人員發(fā)現(xiàn),絕大部分程序在分配了很大的虛擬內(nèi)存之后,在大部分時(shí)間里,并不會(huì)一直使用這么多的物理內(nèi)存。

所以,為了更合理更高效的利用物理內(nèi)存資源,linux內(nèi)核允許虛擬內(nèi)存的overcommit,即,例如在上面執(zhí)行mmap分配虛擬內(nèi)存時(shí),linux內(nèi)核并不會(huì)嚴(yán)格檢查,所有運(yùn)行中的進(jìn)程分配的虛擬內(nèi)存加起來(lái),是否超過(guò)了整個(gè)物理內(nèi)存大小。

這也就解釋了為什么上面第二次運(yùn)行該程序時(shí),mmap是沒(méi)有報(bào)錯(cuò)的。

但是,雖然mmap的虛擬內(nèi)存分配成功了,但當(dāng)真正使用該內(nèi)存時(shí),比如上面的寫內(nèi)存,此時(shí)要分配物理內(nèi)存,則是有可能失敗的,因?yàn)樘摂M內(nèi)存的overcommit,很可能導(dǎo)致后續(xù)的物理內(nèi)存不足。

如果真的發(fā)生了這種情況,就會(huì)觸發(fā)linux內(nèi)核的oom killing機(jī)制,即linux內(nèi)核中的oom killer會(huì)按一定的規(guī)則,選一個(gè)進(jìn)程,將其kill掉,這個(gè)上面我們已經(jīng)演示過(guò)了。

那為什么不kill掉第二個(gè)進(jìn)程,而是kill掉第一個(gè)呢?

這個(gè)和linux內(nèi)核中oom killer的選擇策略有關(guān),我們直接看源碼:

5716408e-bc29-11eb-bf61-12bb97331649.png

當(dāng)進(jìn)程請(qǐng)求操作系統(tǒng)為其分配物理內(nèi)存時(shí),如果此時(shí)物理內(nèi)存已經(jīng)沒(méi)有了,則會(huì)觸發(fā)上圖中的out_of_memory函數(shù)。

該函數(shù)中,會(huì)使用select_bad_process選擇要被kill掉的進(jìn)程,然后使用oom_kill_process將其kill掉,來(lái)釋放物理內(nèi)存。

在看select_bad_process之前,我們先看下oom_kill_process:

5745f928-bc29-11eb-bf61-12bb97331649.png

該函數(shù)調(diào)用了__oom_kill_process:

575389b2-bc29-11eb-bf61-12bb97331649.png

在上面的函數(shù)中,通過(guò)向victim進(jìn)程發(fā)送SIGKILL這個(gè)signal(我們平時(shí)使用的kill -9命令,就是用的這個(gè)signal),將其kill掉,然后該kill事件,會(huì)被記錄到內(nèi)核日志中。

注意,這里記錄的日志格式,正好和我們上面用dmesg輸出的,14134進(jìn)程被kill掉事件日志格式完全一樣。

kill掉進(jìn)程的過(guò)程就是這樣,我們?cè)賮?lái)看下select_bad_process函數(shù)是如何選擇要被kill掉進(jìn)程的:

576449b4-bc29-11eb-bf61-12bb97331649.png

在該函數(shù)中,會(huì)遍歷系統(tǒng)中的所有進(jìn)程,然后使用oom_evaluate_task這個(gè)函數(shù),對(duì)各個(gè)進(jìn)程進(jìn)行評(píng)估:

57b3a3ba-bc29-11eb-bf61-12bb97331649.png

oom_evaluate_task函數(shù)中,會(huì)使用oom_badness,計(jì)算某進(jìn)程badness的點(diǎn)數(shù),點(diǎn)數(shù)越高,越容易被kill掉。

如果badness的點(diǎn)數(shù)是LONG_MIN這個(gè)特殊值,則直接跳過(guò)該進(jìn)程,即該進(jìn)程不會(huì)成為被kill掉的對(duì)象,如果badness點(diǎn)數(shù)小于之前選擇進(jìn)程的badness點(diǎn)數(shù),同樣也跳過(guò)該進(jìn)程,即被kill掉的進(jìn)程badness點(diǎn)數(shù)要是最大的。

遍歷中選擇的進(jìn)程,及其badness的點(diǎn)數(shù),會(huì)被賦值到oc->chosen和oc->chosen_points里,oc->chosen最終指向的進(jìn)程,就是上面oom_kill_process里kill掉的進(jìn)程。

我們?cè)賮?lái)看下badness點(diǎn)數(shù)是如何計(jì)算的:

57d364c0-bc29-11eb-bf61-12bb97331649.png

該函數(shù)主體邏輯分成兩部分,一部分是,在某些情況下,該進(jìn)程的badness點(diǎn)數(shù)直接返回LONG_MIN,即不會(huì)被kill掉。

這些情況包括,oom_score_adj的值為OOM_SCORE_ADJ_MIN,即-1000,或者該進(jìn)程已經(jīng)在被kill的過(guò)程中了,或者該進(jìn)程在vfork過(guò)程中。

該函數(shù)邏輯的另外一部分就是計(jì)算進(jìn)程的badness點(diǎn)數(shù),其大致計(jì)算規(guī)則為:

points = 該進(jìn)程占用的物理內(nèi)存總數(shù) +總物理內(nèi)存 * oom_score_adj值的千分比。

oom_score_adj的值,是進(jìn)程獨(dú)有的,是可以通過(guò)寫 /proc/[pid]/oom_score_adj 的方式調(diào)整的,取值范圍為 -1000 到 1000。

該值越大,進(jìn)程總的badness點(diǎn)數(shù)就會(huì)越大,進(jìn)程也就越容易被kill掉。

該值越小,進(jìn)程總的badness點(diǎn)數(shù)就會(huì)越小,該進(jìn)程也就越不容易被kill掉。

上面我們還提到oom_score_adj有一個(gè)特殊值為OOM_SCORE_ADJ_MIN,即-1000,表示該進(jìn)程不能被kill掉。

各進(jìn)程的oom_score_adj的值默認(rèn)為0。

綜上可知,linux內(nèi)核中oom killer選擇被kill進(jìn)程的方式,就是看各進(jìn)程badness點(diǎn)數(shù)的大小。

默認(rèn)情況下,因?yàn)楦鬟M(jìn)程的oom_score_adj的值都為0,所以進(jìn)程占用的物理內(nèi)存越大,其badness點(diǎn)數(shù)也就越大,其也就越容易被kill掉。

這也就解釋了,為什么上面在第二次執(zhí)行那個(gè)程序時(shí),被kill掉的是第一次執(zhí)行的那個(gè)進(jìn)程,而不是第二次執(zhí)行的進(jìn)程,因?yàn)榈谝淮螆?zhí)行的那個(gè)進(jìn)程,占用的物理內(nèi)存更大。

其實(shí),調(diào)整linux內(nèi)核中oom killer行為的方式有很多,不止修改oom_score_adj值這一種方法。

比如,通過(guò)修改 /proc/sys/vm/panic_on_oom 的值,可以讓整個(gè)系統(tǒng)在物理內(nèi)存不夠時(shí),直接panic,而不是選擇性的kill掉某個(gè)進(jìn)程。

比如,通過(guò)修改 /proc/sys/vm/overcommit_memory 的值,可以使上面第二次執(zhí)行的測(cè)試程序,在使用mmap分配虛擬內(nèi)存時(shí),就直接報(bào)錯(cuò),說(shuō)內(nèi)存不夠。

比如,通過(guò)修改/proc/[pid]/oom_adj 值的方式,同樣可以達(dá)到修改/proc/[pid]/oom_score_adj 的目的,不過(guò)這個(gè)在內(nèi)核2.6.36版本之后已經(jīng)不推薦使用。

oom killer行為調(diào)整的相關(guān)參數(shù),其具體詳解可以看proc的man文檔:

https://man.archlinux.org/man/proc.5

聊了這么多,那理解linux內(nèi)核的oom killer機(jī)制,對(duì)于我們實(shí)際應(yīng)用有哪些幫助呢?

我們假設(shè)以下場(chǎng)景:

假如,我們有一臺(tái)機(jī)器,上面跑著一個(gè)非常重要的服務(wù),比如數(shù)據(jù)庫(kù),或者某個(gè)應(yīng)用進(jìn)程等。

它非常耗內(nèi)存,但是正常情況下,它使用的物理內(nèi)存肯定不會(huì)高于實(shí)際總物理內(nèi)存大小。

有一天我們需要在這臺(tái)機(jī)器上執(zhí)行一項(xiàng)任務(wù),如果這個(gè)任務(wù)也比較耗內(nèi)存,那很可能在執(zhí)行這項(xiàng)任務(wù)時(shí),整臺(tái)機(jī)器的物理內(nèi)存就完全不夠用了,此時(shí),就會(huì)觸發(fā)linux內(nèi)核的oom killing機(jī)制。

又因?yàn)樵诓徽{(diào)整oom_score_adj值的情況下,linux內(nèi)核中的oom killer默認(rèn)kill掉的,就是占用物理內(nèi)存最多的那個(gè)進(jìn)程,一般來(lái)說(shuō),就是我們數(shù)據(jù)庫(kù)進(jìn)程,或其他應(yīng)用進(jìn)程,假設(shè)這個(gè)進(jìn)程又是線上的一個(gè)重要服務(wù),那它被kill掉了,你想一下這會(huì)是多么嚴(yán)重的一個(gè)事故。

那怎么避免呢?

此時(shí),我們就可以使用上面提到的,用于調(diào)整進(jìn)程badness點(diǎn)數(shù)的,oom_score_adj 這個(gè)參數(shù)。

比如,我們可以通過(guò) echo -1000 > /proc/[pid]/oom_score_adj 命令,將oom_score_adj的值設(shè)置為-1000,即該進(jìn)程不能被kill掉。

又比如,還是通過(guò)上面的echo命令,將oom_score_adj的值修改為一個(gè)較小的值,來(lái)降低它被kill掉的概率。

但是,這些方法其實(shí)都不是完美的解決方式。

雖然該機(jī)器上的這個(gè)重要服務(wù)不被kill掉了,但操作系統(tǒng)為了保證整個(gè)系統(tǒng)不crash,還是會(huì)kill掉其他各種進(jìn)程。

如果那些進(jìn)程不重要還好,萬(wàn)一重要的話,還是會(huì)相當(dāng)嚴(yán)重的。

甚至,如果操作系統(tǒng)找不到可以kill掉的進(jìn)程,那整個(gè)系統(tǒng)就會(huì)crash,這個(gè)就更嚴(yán)重了。

所以,最好的方式,還是人為去避免物理內(nèi)存不足的情況,在機(jī)器上跑各種程序時(shí),要提前對(duì)整個(gè)物理內(nèi)存的使用,有個(gè)規(guī)劃和預(yù)判,最好是能預(yù)留出一些內(nèi)存,以防各種誤操作。

好了,該篇文章就講這些內(nèi)容,如果以后你發(fā)現(xiàn)你的進(jìn)程,莫名奇妙就沒(méi)有了,可以通過(guò)dmesg等方式看下內(nèi)核日志,確定下你的進(jìn)程是否被oom kill掉了。

原文標(biāo)題:為什么我的進(jìn)程被kill掉了

文章出處:【微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4823

    瀏覽量

    68953
  • 進(jìn)程
    +關(guān)注

    關(guān)注

    0

    文章

    204

    瀏覽量

    13980

原文標(biāo)題:為什么我的進(jìn)程被kill掉了

文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    在程序運(yùn)行時(shí)會(huì)偶爾出現(xiàn)ads1247寄存器數(shù)據(jù)莫名其妙丟失的現(xiàn)象,為什么?

    最近遇到一個(gè)莫名其妙的問(wèn)題,我的ads1247可以正常工作,得到的轉(zhuǎn)化溫度也是正常的,但是在程序運(yùn)行時(shí)會(huì)偶爾出現(xiàn)ads1247寄存器數(shù)據(jù)莫名其妙丟失的現(xiàn)象,很讓人費(fèi)解,不知道各位有沒(méi)有遇到過(guò)
    發(fā)表于 01-06 07:49

    ADS1247上電初始化時(shí),有時(shí)會(huì)失敗,為什么?

    我在使用ADS1247的時(shí)候發(fā)現(xiàn)幾個(gè)問(wèn)題: 1.上電初始化時(shí),有時(shí)會(huì)失敗,即內(nèi)部基準(zhǔn)沒(méi)有建立! 2.AD采樣過(guò)程中會(huì)發(fā)生數(shù)據(jù)莫名其妙變?yōu)?的情況,之后數(shù)據(jù)就不會(huì)再發(fā)生變化了!
    發(fā)表于 12-30 08:24

    使用TVP5158對(duì)640x480的逐行視頻進(jìn)行解碼時(shí),運(yùn)行一段時(shí)間后就沒(méi)有時(shí)鐘信號(hào),為什么?

    在使用TVP5158對(duì)640x480的逐行視頻進(jìn)行解碼時(shí),運(yùn)行一段時(shí)間后(時(shí)間長(zhǎng)短不一,在1-7小時(shí)之間)就沒(méi)有時(shí)鐘信號(hào),這時(shí)讀到TVP5158里的寄存器的值顯示有視頻數(shù)據(jù),這會(huì)是什么原因?qū)е碌模?
    發(fā)表于 12-18 07:55

    用PCM1870采樣電話中的聲音,采得的數(shù)據(jù)有時(shí)沒(méi)有的,為什么?

    我用PCM1870(16位音頻AD)采樣電話中的聲音,但采得的數(shù)據(jù)有時(shí)沒(méi)有的,是0,就丟數(shù)據(jù),但我用示波器看輸入的信號(hào),信號(hào)確實(shí)是輸入了的,但輸出就是沒(méi)有?。???
    發(fā)表于 11-08 06:43

    一文搞懂Linux進(jìn)程的睡眠和喚醒

    的代碼和數(shù)據(jù),進(jìn)而去執(zhí)行這個(gè)進(jìn)程。下面列舉了一些進(jìn)程狀態(tài): 注意:沒(méi)有+時(shí),默認(rèn)是后臺(tái)進(jìn)程 進(jìn)程調(diào)度(
    發(fā)表于 11-04 15:15

    Python中多線程和多進(jìn)程的區(qū)別

    Python作為一種高級(jí)編程語(yǔ)言,提供多種并發(fā)編程的方式,其中多線程與多進(jìn)程是最常見(jiàn)的兩種方式之一。在本文中,我們將探討Python中多線程與多進(jìn)程的概念、區(qū)別以及如何使用線程池與進(jìn)程
    的頭像 發(fā)表于 10-23 11:48 ?476次閱讀
    Python中多線程和多<b class='flag-5'>進(jìn)程</b>的區(qū)別

    【軟件干貨】Android應(yīng)用進(jìn)程如何?;??

    在Android應(yīng)用程序中,為了保證應(yīng)用的正常運(yùn)行和穩(wěn)定性,有時(shí)需要對(duì)應(yīng)用進(jìn)程進(jìn)行?;?。以下是一些實(shí)現(xiàn)進(jìn)程保活的方法:
    的頭像 發(fā)表于 10-15 17:05 ?553次閱讀
    【軟件干貨】Android應(yīng)用<b class='flag-5'>進(jìn)程</b>如何保活?

    TPA3221功放工作后莫名其妙就燒掉了,為什么?

    各位大神好,現(xiàn)在這個(gè)功放工作后莫名其妙就燒掉了,有時(shí)候工作中又無(wú)故不工作(需要重新復(fù)位)。內(nèi)部LDO正常,MUTE正常工作有5V,不正常的時(shí)候2V左右。輸出正常1/2VCC,不正常時(shí)有時(shí)候4V,
    發(fā)表于 10-11 06:09

    pads打印彩色貼片圖時(shí),為什么有時(shí)有顏色選擇,有時(shí)沒(méi)有顏色選擇?

    pads打印彩色貼片圖時(shí),這個(gè)位置,為什么有時(shí)有顏色選擇,有時(shí)沒(méi)有顏色選擇?
    發(fā)表于 09-13 14:48

    PGA2310沒(méi)有程控時(shí),輸入信號(hào)100mV,11腳輸出2.4V,有時(shí)沒(méi)有信號(hào)輸出有時(shí)只能輸出幾百毫伏的原因?

    沒(méi)有程控時(shí),輸入信號(hào)100mV,11腳輸出2.4V,但有時(shí)沒(méi)有信號(hào)輸出,有時(shí)只能輸出幾百毫伏,請(qǐng)問(wèn)高手。
    發(fā)表于 08-30 08:16

    探秘LED顯示屏背后的秘密:數(shù)字信號(hào)與數(shù)字電路的奇妙世界

    探秘LED顯示屏背后的秘密:數(shù)字信號(hào)與數(shù)字電路的奇妙世界
    的頭像 發(fā)表于 08-02 02:36 ?458次閱讀

    測(cè)試STM8的UART的時(shí)候,STM8S003好像燒不進(jìn)程,為什么?

    小弟剛學(xué)STM8,遇到個(gè)問(wèn)題,望不吝賜教我剛剛在測(cè)試STM8的UART的時(shí)候,發(fā)現(xiàn)我所使用的STM8S003好像燒不進(jìn)程,就是進(jìn)入debug界面的時(shí)候的程序更新,然后也跳出busy那個(gè)對(duì)話框
    發(fā)表于 05-11 08:18

    IAR for stm8編譯很慢很慢有時(shí)候就無(wú)響應(yīng)是怎么回事?

    小弟第一次用這個(gè)編譯器,IAR for stm8編譯很慢很慢有時(shí)候就無(wú)響應(yīng),有遇到過(guò)得嗎?
    發(fā)表于 05-08 06:00

    使用STM32F401的單片機(jī)移植ucosii操作系統(tǒng)后,在循環(huán)中調(diào)用sprintf函數(shù)時(shí)莫名卡死的原因?

    使用STM32F401的單片機(jī)移植ucosii操作系統(tǒng)后。在編寫任務(wù)函數(shù)時(shí),在循環(huán)中調(diào)用sprintf函數(shù)時(shí)莫名卡死的原因?
    發(fā)表于 04-02 06:12

    在進(jìn)行ad9626的配置后,測(cè)試DCO并沒(méi)有時(shí)鐘的輸出的原因?

    在進(jìn)行ad9626的配置后,測(cè)試DCO并沒(méi)有時(shí)鐘的輸出,然后進(jìn)行寄存器ID數(shù)據(jù)的讀出,讀出了ID地址的數(shù)據(jù),然后再次進(jìn)行了配置寄存器,DCO還是沒(méi)有時(shí)鐘的輸出。
    發(fā)表于 02-27 07:25