0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用NMT和pmap來解決JVM的資源泄漏問題

openEuler ? 來源:openEuler ? 作者:宋堯飛 ? 2021-09-24 16:00 ? 次閱讀

編者按:筆者使用 JDK 自帶的內存跟蹤工具 NMT 和 Linux 自帶的 pmap 解決了一個非常典型的資源泄漏問題。這個資源泄漏是由于 Java 程序員不正確地使用 Java API 導致的,使用 Files.list 打開的文件描述符必須關閉。本案例一方面介紹了怎么使用 NMT 解決 JVM 資源泄漏問題,如果讀者遇到類似問題,可以嘗試用 NMT 來解決;另一方面也提醒 Java 開發(fā)人員使用 Java API 時需要必須弄清楚 API 使用規(guī)范,希望大家通過這個案例有所收獲。

背景知識:

NMT

NMT 是 Native Memory Tracking 的縮寫,一個 JDK 自帶的小工具,用來跟蹤 JVM 本地內存分配情況(本地內存指的是 non-heap,例如 JVM 在運行時需要分配一些輔助數據結構用于自身的運行)。

NMT 功能默認關閉,可以在 Java 程序啟動參數中加入以下參數來開啟:

-XX:NativeMemoryTracking=[summary | detail]

其中,“summary” 和 “detail” 的差別主要在輸出信息的詳細程度。

3cb43d90-10ac-11ec-8fb8-12bb97331649.png

開啟 NMT 功能后,就可以使用 JDK 提供的 jcmd 命令來讀取 NMT 采集的數據了,具體命令如下:

jcmd 《pid》 VM.native_memory [summary | detail | baseline | summary.diff | detail.diff | shutdown]

NMT 參數的含義可以通過 “jcmd 《pid》 help VM.native_memory” 命令查詢。通過 NMT 工具,我們可以快速區(qū)分內存泄露是否源自 JVM 分配。

pmap

對于非 JVM 分配的內存,經常需要用到 pmap 這個工具了,這是一個 linux 系統(tǒng)自帶工具,能夠從系統(tǒng)層面輸出目標進程內存使用的詳細情況,用法非常簡單:

pmap [參數] 《pid》

常用的選項是 “-x” 或 “-X”,都是用來控制輸出信息的詳細程度。

上圖是 pmap 部分輸出信息,每列含義為

pYYBAGFNe46AXEijAACM5oGR0ow649.png

現象:

某業(yè)務集群中,多個節(jié)點出現業(yè)務進程內存消耗緩慢增長現象,以其中一個節(jié)點為例:

3cd60e48-10ac-11ec-8fb8-12bb97331649.png

如圖所示,這個業(yè)務進程當前占用了 4.7G 的虛擬內存空間,以及 2.2G 的物理內存。已知正常狀態(tài)下該業(yè)務進程的物理內存占用量不超過 1G。

分析:

使用命令 “jcmdVM.native_memory detail” 可以看到所有受 JVM 監(jiān)控的內存分布情況:

3cfaa4e2-10ac-11ec-8fb8-12bb97331649.png

上圖只是截取了 nmt(Native Memory Tracking) 命令展示的概覽信息,這個業(yè)務進程占用的 2.2G 物理內存中,受 JVM 監(jiān)控的大概只占了 0.7G(上圖中的 committed),意味著有 1.5G 物理內存不受 JVM 管控。JVM 可以監(jiān)控到 Java 堆、元空間、CodeCache、直接內存等區(qū)域,但無法監(jiān)控到那些由 JVM 之外的 Native Code 申請的內存,例如典型的場景:第三方 so 庫中調用 malloc 函數申請一塊內存的行為無法被 JVM 感知到。

nmt 除了會展示概覽之外,還會詳細羅列每一片受 JVM 監(jiān)控的內存,包括其地址,將這些 JVM 監(jiān)控到的內存布局和用 pmap 得到的完整的進程內存布局做一個對比篩查,這里忽略 nmt 和 pmap(下圖 pmap 命令中 25600 是進程號)詳細內存地址的信息,直接給出最可疑的那塊內存:

3d0e578a-10ac-11ec-8fb8-12bb97331649.png

由圖可知,這片 1.7G 左右的內存區(qū)域屬于系統(tǒng)層面的堆區(qū)。

備注:這片系統(tǒng)堆區(qū)之所以稍大于上面計算得到的差值,原因大概是 nmt 中顯示的 committed 內存并不對應真正占用的物理內存(linux 使用 Lazy 策略管理進程內存),實際通常會稍小。

系統(tǒng)堆區(qū)主要就是由 libc 庫接口 malloc 申請的內存組合而成,所以接下來就是去跟蹤業(yè)務進程中的每次 malloc 調用,可以借助 GDB:

3d235a5e-10ac-11ec-8fb8-12bb97331649.png

實際上會有大量的干擾項,這些干擾項一方面來自 JVM 內部,比如:

3d3cc782-10ac-11ec-8fb8-12bb97331649.png

這部分干擾項很容易被排除,凡是調用棧中存在 “os::malloc” 這個棧幀的干擾項就可以直接忽視,因為這些 malloc 行為都會被 nmt 監(jiān)控到,而上面已經排除了受 JVM 監(jiān)控內存泄漏的可能。

另一部分干擾項則來自 JDK,比如:

3d6b9ee0-10ac-11ec-8fb8-12bb97331649.png

有如上圖所示,不少 JDK 的本地方法中直接或間接調用了 malloc,這部分 malloc 行為通常是不受 JVM 監(jiān)控的,所以需要根據具體情況逐個排查,還是以上圖為例,排查過程如下:

3dac2b22-10ac-11ec-8fb8-12bb97331649.png

注意圖中臨時中斷的值(0x0000ffff5fc55d00)來自于第一個中斷 b malloc 中斷發(fā)生后的結果。

這里稍微解釋一下上面 GDB 在做的排查過程,就是檢查 malloc 返回的內存地址后續(xù)是否有通過 free 釋放(通過 tb free if X3 這個命令,具體用法可以參考 GDB 調試),顯然在這個例子中是有釋放的。

通過這種排查方式,幾經篩選,最終找到了一個可疑的 malloc 場景:

3dbaf18e-10ac-11ec-8fb8-12bb97331649.png

從調用棧信息可以知道,這是一個 JDK 中的本地方法 sun.nio.fs.UnixNativeDispatcher.opendir0,作用是打開一個目錄,但后續(xù)始終沒有進行關閉操作。進一步分析可知,該可疑 opendir 操作會周期性執(zhí)行,而且都是操作同一個目錄 “/xxx/nginx/etc/nginx/conf”,看來,是有個業(yè)務線程在定時訪問 nginx 的配置目錄,每次訪問完卻沒有關閉打開的目錄。

分析到這里,其實這個問題已經差不多水落石出。和業(yè)務方確認,存在一個定時器線程在周期性讀取 nginx 的配置文件,代碼大概是這樣子的:

3dfba080-10ac-11ec-8fb8-12bb97331649.png

翻了一下相關 JDK 源碼,Files.list 方法是有在末尾注冊一個關閉鉤子的:

3e0bb2b8-10ac-11ec-8fb8-12bb97331649.png

也就是說,Files.list 方法返回的目錄資源是需要手動釋放的,否則就會發(fā)生資源泄漏。

由于這個目錄資源底層是會關聯一個 fd 的,所以泄漏問題還可以通過另一個地方進行佐證:

3e3fafaa-10ac-11ec-8fb8-12bb97331649.png

該業(yè)務進程目前已經消耗了 51116 個 fd!

假設這些 fd 都是 opendir 關聯的,每個 opendir 消耗 32K,則總共消耗 1.6G,顯然可以跟上面泄漏的內存值基本對上。

總結:

稍微了解了一下,發(fā)現幾乎沒人知道 JDK 方法 Files.list 是需要關閉的,這個案例算是給大家都提了個醒。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • Linux
    +關注

    關注

    87

    文章

    11324

    瀏覽量

    209949
  • 源碼
    +關注

    關注

    8

    文章

    648

    瀏覽量

    29306
  • JVM
    JVM
    +關注

    關注

    0

    文章

    158

    瀏覽量

    12241
  • JDK
    JDK
    +關注

    關注

    0

    文章

    81

    瀏覽量

    16604

原文標題:使用 NMT 和 pmap 解決 JVM 資源泄漏問題

文章出處:【微信號:openEulercommunity,微信公眾號:openEuler】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何利用氣體壓力傳感器監(jiān)測氣體泄漏

    在化工、石油、天然氣等行業(yè)中,氣體泄漏可能導致嚴重的安全事故和環(huán)境污染。因此,及時準確地監(jiān)測氣體泄漏對于保障人員安全和環(huán)境保護至關重要。氣體壓力傳感器作為一種有效的監(jiān)測工具,能夠通過檢測壓力變化
    的頭像 發(fā)表于 12-09 18:03 ?450次閱讀

    什么是泄漏電流試驗?

    泄漏電流的概念泄漏電流(leakagecurrent)也叫接觸電流,是指在沒有故障施加電壓的情況下,電氣中相互絕緣的金屬零件之間,或帶電零件與接地零件之間,通過其周圍介質或絕緣表面所形成的電流。泄漏
    的頭像 發(fā)表于 11-26 11:48 ?458次閱讀
    什么是<b class='flag-5'>泄漏</b>電流試驗?

    從原理聊JVM(一):染色標記和垃圾回收算法

    導讀 JAVA簡單易用的特性,能夠讓研發(fā)人員在不了解JVM的底層運行機制的情況下依舊能夠編寫出功能完善的代碼。 但是對JVM的理解,是一個程序員普通和優(yōu)秀的分水嶺。全面地了解JVM的工作原理,能夠
    的頭像 發(fā)表于 08-20 15:25 ?265次閱讀
    從原理聊<b class='flag-5'>JVM</b>(一):染色標記和垃圾回收算法

    聊聊JVM如何優(yōu)化

    首先應該明確的是JVM調優(yōu)不是常規(guī)手段,JVM的存在本身就是為了減輕開發(fā)對于內存管理的負擔,當出現性能問題的時候第一時間考慮的是代碼邏輯與設計方案,以及是否達到依賴中間件的瓶頸,最后才是針對JVM
    的頭像 發(fā)表于 08-05 17:49 ?508次閱讀
    聊聊<b class='flag-5'>JVM</b>如何優(yōu)化

    如何檢測內存泄漏

    檢測內存泄漏是軟件開發(fā)過程中一項至關重要的任務,它有助于識別和解決那些導致程序占用過多內存資源,從而影響程序性能甚至導致程序崩潰的問題。以下將詳細闡述幾種常見的內存泄漏檢測方法,每種方法都會結合具體步驟和工具進行說明。
    的頭像 發(fā)表于 07-30 11:50 ?2090次閱讀

    化工廠液體泄漏識別預警算法

    化工廠液體泄漏識別預警基于圖像識別算法是計算機視覺的基礎算法,例如VGG,GoogLeNet,ResNet等,化工廠液體泄漏識別這類算法主要是判斷圖片中目標的種類液體泄漏識別預警自動識別監(jiān)控視頻中機械管道是否存在液體
    的頭像 發(fā)表于 07-03 08:35 ?447次閱讀
    化工廠液體<b class='flag-5'>泄漏</b>識別預警算法

    密封性測試泄漏值是怎么的,氣密儀大漏中漏微漏如何分析判定?

    能釀成大禍患。所以說,對產品密封性的把控,直接關系到質量和使用安全。那密封性如何評判呢?關鍵就看「泄漏值」這個指標了。根據泄漏值的大小,可將其分為「大漏」、「中漏」
    的頭像 發(fā)表于 05-19 08:30 ?1942次閱讀
    密封性測試<b class='flag-5'>泄漏</b>值是怎么<b class='flag-5'>來</b>的,氣密儀大漏中漏微漏如何分析判定?

    深入理解Java 8內存管理機制及故障排查實戰(zhàn)指南

    Java的自動內存管理機制是由 JVM 中的垃圾收集器實現的,垃圾收集器會定期掃描堆內存中的對象,檢測并清除不再使用的對象,以釋放內存資源。
    的頭像 發(fā)表于 04-04 08:10 ?1024次閱讀
    深入理解Java 8內存管理機制及故障排查實戰(zhàn)指南

    密封試驗儀為什么會有泄漏

    的數據?簡而言之,泄漏是指在一定條件下,根據被測物體的微小漏洞或間隙、蒸汽或液體逃逸的量化表達。這種情況通常是由于物理結構不全面,材料特性不理想造成的。從微觀的角度
    的頭像 發(fā)表于 03-22 11:40 ?491次閱讀
    密封試驗儀為什么會有<b class='flag-5'>泄漏</b>量

    C語言內存泄漏問題原理

    內存泄漏問題只有在使用堆內存的時候才會出現,棧內存不存在內存泄漏問題,因為棧內存會自動分配和釋放。C語言代碼中堆內存的申請函數是malloc。
    發(fā)表于 03-19 11:38 ?547次閱讀
    C語言內存<b class='flag-5'>泄漏</b>問題原理

    紅外熱成像技術在管道泄漏檢測中的應用

    在全球范圍內,管道泄漏問題一直是一個頭疼的問題,它不僅直接威脅到人民的生命財產安全,同時還會導致重大的資源浪費。無論是工業(yè)生產中的化工管道,還是日常生活中的供水、供熱管道,一旦發(fā)生泄漏,后果都是
    的頭像 發(fā)表于 03-06 11:03 ?652次閱讀
    紅外熱成像技術在管道<b class='flag-5'>泄漏</b>檢測中的應用

    煤氣柜泄漏問題如何解決

    電子發(fā)燒友網站提供《煤氣柜泄漏問題如何解決.docx》資料免費下載
    發(fā)表于 03-05 17:49 ?0次下載

    揭示真空泄漏測試儀的原理和優(yōu)點

    的檢測方案。原理:真空泄漏測試儀的核心是創(chuàng)造一個低壓環(huán)境,并使用高靈敏度的壓力傳感器檢測小泄漏。在工作過程中,儀器首先將待測產品放置在一個封閉的測試腔中,然后去除腔
    的頭像 發(fā)表于 03-04 11:57 ?476次閱讀
    揭示真空<b class='flag-5'>泄漏</b>測試儀的原理和優(yōu)點

    變壓器如何減小泄漏感應呢?

    變壓器如何減小泄漏感應呢? 變壓器是一種用來改變交流電壓的重要設備。在變壓器中,存在著一種稱為泄漏感應的現象。泄漏感應是指變壓器在工作過程中,由于磁場的存在產生的感應電動勢,但是這部分電動勢并不
    的頭像 發(fā)表于 01-30 17:04 ?1401次閱讀

    什么是氣密性泄漏設備

    氣密性泄漏設備是指用于檢測氣體或液體密封性能的設備,其工作原理是通過檢測設備內部壓力的變化判斷密封是否完好。這種設備廣泛應用于航空航天、石油化工、電力等領域,用于檢測各種管道、閥門、壓力容器等設備
    的頭像 發(fā)表于 01-19 11:34 ?700次閱讀
    什么是氣密性<b class='flag-5'>泄漏</b>設備