0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一圖解析K8S OOM和CPU節(jié)流

馬哥Linux運維 ? 來源:sysdig ? 2023-02-15 17:17 ? 次閱讀

介紹

使用 Kubernetes 時,內(nèi)存不足 (OOM) 錯誤和 CPU 節(jié)流是云應(yīng)用程序中資源處理的主要難題。

這是為什么?

云應(yīng)用程序中的 CPU 和內(nèi)存要求變得越來越重要,因為它們與您的云成本直接相關(guān)。

通過 limits 和 requests ,您可以配置 pod 應(yīng)如何分配內(nèi)存和 CPU 資源,以防止資源匱乏并調(diào)整云成本。

如果節(jié)點沒有足夠的資源, Pod 可能會通過搶占或節(jié)點壓力被驅(qū)當(dāng)一個進程運行內(nèi)存不足 (OOM) 時,它會被終止,因為它沒有所需的資源。

如果 CPU 消耗高于實際限制,進程將開始節(jié)流。

但是,如何主動監(jiān)控 Kubernetes Pod 到達 OOM 和 CPU 節(jié)流的距離有多近?

Kubernetes OOM

Pod 中的每個容器都需要內(nèi)存才能運行。

Kubernetes limits 是在 Pod 定義或 Deployment 定義中為每個容器設(shè)置的。

所有現(xiàn)代 Unix 系統(tǒng)都有一種方法來終止進程,以防它們需要回收內(nèi)存。這將被標(biāo)記為錯誤 137 或OOMKilled.

State:Running
Started:Thu,10Oct20191113+0200
LastState:Terminated
Reason:OOMKilled
ExitCode:137
Started:Thu,10Oct20191103+0200
Finished:Thu,10Oct20191111+0200

此退出代碼 137 表示該進程使用的內(nèi)存超過允許的數(shù)量,必須終止。

這是 Linux 中存在的一個特性,內(nèi)核oom_score為系統(tǒng)中運行的進程設(shè)置一個值。此外,它允許設(shè)置一個名為 oom_score_adj 的值,Kubernetes 使用該值來允許服務(wù)質(zhì)量。它還具有一個 OOM Killer功能,它將審查進程并終止那些使用比他們應(yīng)該使用上限更多的內(nèi)存的進程。

請注意,在 Kubernetes 中,進程可以達到以下任何限制:

在容器上設(shè)置的 Kubernetes Limit。

在命名空間上設(shè)置的 Kubernetes ResourceQuota。

節(jié)點的實際內(nèi)存大小。

de371d70-aa86-11ed-bfe3-dac502259ad0.png

內(nèi)存過量使用

Limits 可以高于 requests,因此所有限制的總和可以高于節(jié)點容量。這稱為過度使用,這很常見。實際上,如果所有容器使用的內(nèi)存都比請求的多,它可能會耗盡節(jié)點中的內(nèi)存。這通常會導(dǎo)致一些 pod 被殺死以釋放一些內(nèi)存。

監(jiān)控 Kubernetes OOM

在 Prometheus 中使用 node exporter 時,有一個指標(biāo)稱為node_vmstat_oom_kill. 跟蹤 OOM 終止發(fā)生的時間很重要,但您可能希望在此類事件發(fā)生之前提前了解此類事件。

相反,您可以檢查進程與 Kubernetes 限制的接近程度:

(sumby(namespace,pod,container)
(rate(container_cpu_usage_seconds_total{container!=""}[5m]))/sumby
(namespace,pod,container)
(kube_pod_container_resource_limits{resource="cpu"}))>0.8

Kubernetes CPU 節(jié)流

CPU 節(jié)流 是一種行為,當(dāng)進程即將達到某些資源限制時,進程會變慢。

與內(nèi)存情況類似,這些限制可能是:

在容器上設(shè)置的 Kubernetes Limit。

在命名空間上設(shè)置的 Kubernetes ResourceQuota。

節(jié)點的實際CPU大小。

想想下面的類比。我們有一條有一些交通的高速公路,其中:

CPU 就是路。

車輛代表進程,每個車輛都有不同的大小。

多條通道代表有多個核心。

一個 request 將是一條專用道路,如自行車道。這里的節(jié)流表現(xiàn)為交通堵塞:最終,所有進程都會運行,但一切都會變慢。

de476a90-aa86-11ed-bfe3-dac502259ad0.gif

Kubernetes 中的 CPU 進程

CPU 在 Kubernetes 中使用 shares 處理。每個 CPU 核心被分成 1024 份,然后使用 Linux 內(nèi)核的 cgroups(控制組)功能在所有運行的進程之間分配。

deffc478-aa86-11ed-bfe3-dac502259ad0.png

如果 CPU 可以處理所有當(dāng)前進程,則不需要任何操作。如果進程使用超過 100% 的 CPU,那么份額就會到位。與任何 Linux Kernel 一樣,Kubernetes 使用 CFS(Completely Fair Scheduler)機制,因此擁有更多份額的進程將獲得更多的 CPU 時間。

與內(nèi)存不同,Kubernetes 不會因為節(jié)流而殺死 Pod。

df11bdea-aa86-11ed-bfe3-dac502259ad0.png

可以在 /sys/fs/cgroup/cpu/cpu.stat 中查看 CPU 統(tǒng)計信息

CPU 過度使用

正如我們在 限制和請求一文 中看到的,當(dāng)我們想要限制進程的資源消耗時,設(shè)置限制或請求很重要。然而,請注意不要將請求總數(shù)設(shè)置為大于實際 CPU 大小,因為這意味著每個容器都應(yīng)該有一定數(shù)量的 CPU。

監(jiān)控 Kubernetes CPU 節(jié)流

您可以檢查進程與 Kubernetes 限制的接近程度:

(sumby(namespace,pod,container)(rate(container_cpu_usage_seconds_total
{container!=""}[5m]))/sumby(namespace,pod,container)
(kube_pod_container_resource_limits{resource="cpu"}))>0.8

如果我們想跟蹤集群中發(fā)生的節(jié)流量,cadvisor 提供container_cpu_cfs_throttled_periods_total和container_cpu_cfs_periods_total. 有了這兩個,你就可以輕松計算出所有 CPU 周期的 throttling 百分比。

最佳實踐

注意 limits 和 requests

限制是在節(jié)點中設(shè)置最大資源上限的一種方法,但需要謹(jǐn)慎對待這些限制,因為您可能最終會遇到一個進程被限制或終止的情況。

做好被驅(qū)逐的準(zhǔn)備

通過設(shè)置非常低的請求,您可能認(rèn)為這會為您的進程授予最少的 CPU 或內(nèi)存。但是kubelet會首先驅(qū)逐那些使用率高于請求的 Pod,因此您將它們標(biāo)記為第一個被殺死!

如果您需要保護特定 Pod 免遭搶占(當(dāng)kube-scheduler需要分配新 Pod 時),請為最重要的進程分配優(yōu)先級。

節(jié)流是無聲的敵人

通過設(shè)置不切實際的限制或過度使用,您可能沒有意識到您的進程正在受到限制,并且性能受到影響。主動監(jiān)控您的 CPU 使用率并了解您在容器和命名空間中的實際限制。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10890

    瀏覽量

    212430
  • Unix系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    9684
  • LINUX內(nèi)核
    +關(guān)注

    關(guān)注

    1

    文章

    316

    瀏覽量

    21688
  • CFS
    CFS
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    9058

原文標(biāo)題:圖解 K8S OOM 和 CPU 節(jié)流

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    OpenStack與K8s結(jié)合的兩種方案的詳細(xì)介紹和比較

    OpenStack與K8S結(jié)合主要有兩種方案。K8S部署在OpenStack平臺之上,二是K8S和OpenStack組件集成。
    的頭像 發(fā)表于 10-14 09:38 ?2.7w次閱讀

    如何使用kubernetes client-go實踐個簡單的與K8s交互過程

    【導(dǎo)讀】Kubernetes項目使用Go語言編寫,對Go api原生支持非常便捷。 本篇文章介紹了如何使用kubernetes client-go實踐個簡單的與K8s交互過程
    的頭像 發(fā)表于 02-02 11:16 ?6898次閱讀
    如何使用kubernetes client-go實踐<b class='flag-5'>一</b>個簡單的與<b class='flag-5'>K8s</b>交互過程

    關(guān)于K8s最詳細(xì)的解析

    個目標(biāo):容器操作;兩地三中心;四層服務(wù)發(fā)現(xiàn);五種Pod共享資源;六個CNI常用插件;七層負(fù)載均衡;八種隔離維度;九個網(wǎng)絡(luò)模型原則;十類IP地址;百級產(chǎn)品線;千級物理機;萬級容器;相如無億,K8s有億:億級日服務(wù)人次。
    的頭像 發(fā)表于 04-08 13:55 ?7328次閱讀
    關(guān)于<b class='flag-5'>K8s</b>最詳細(xì)的<b class='flag-5'>解析</b>

    Docker不香嗎為什么還要用K8s

    Docker 雖好用,但面對強大的集群,成千上萬的容器,突然感覺不香了。 這時候就需要我們的主角 Kubernetes 上場了,先來了解K8s 的基本概念,后面再介紹實踐,由淺入深步步為營
    的頭像 發(fā)表于 06-02 11:56 ?3465次閱讀

    簡單說明k8s和Docker之間的關(guān)系

    這篇文章主要介紹了k8s和Docker關(guān)系簡單說明,本文利用圖文講解的很透徹,有需要的同學(xué)可以研究下 最近項目用到kubernetes(以下簡稱k8s,ks之間有
    的頭像 發(fā)表于 06-24 15:48 ?3438次閱讀

    K8S集群服務(wù)訪問失敗怎么辦 K8S故障處理集錦

    問題1:K8S集群服務(wù)訪問失敗? ? ? 原因分析:證書不能被識別,其原因為:自定義證書,過期等。 解決方法:更新證書即可。 問題2:K8S集群服務(wù)訪問失??? curl: (7) Failed
    的頭像 發(fā)表于 09-01 11:11 ?1.6w次閱讀
    <b class='flag-5'>K8S</b>集群服務(wù)訪問失敗怎么辦 <b class='flag-5'>K8S</b>故障處理集錦

    K8S(kubernetes)學(xué)習(xí)指南

    K8S(kubernetes)學(xué)習(xí)指南
    發(fā)表于 06-29 14:14 ?0次下載

    mysql部署在k8s上的實現(xiàn)方案

    的 RDBMS (Relational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng)) 應(yīng)用軟件之。這里主要講 mysql 部署在 k8s 上,mysql 部署在 k8s 上的優(yōu)勢主要有以下幾點。
    的頭像 發(fā)表于 09-26 10:39 ?2539次閱讀

    k8s是什么意思?kubeadm部署k8s集群(k8s部署)|PetaExpres

    k8s是什么意思? kubernetes簡稱K8s,是個開源的,用于管理云平臺中多個主機上的容器化的應(yīng)用,Kubernetes的目標(biāo)是讓部署容器化的應(yīng)用簡單并且高效(powerful
    發(fā)表于 07-19 13:14 ?1132次閱讀

    什么是K3sK8sK3sK8s有什么區(qū)別?

    Kubernetes,通??s寫為 K8s,是領(lǐng)先的容器編排工具。該開源項目最初由 Google 開發(fā),幫助塑造了現(xiàn)代編排的定義。該系統(tǒng)包括了部署和運行容器化系統(tǒng)所需的切。
    的頭像 發(fā)表于 08-03 10:53 ?7648次閱讀

    k8s生態(tài)鏈包含哪些技術(shù)

    1. Apache APISIX Ingress 定義 ? 在 K8s 生態(tài)中,Ingress 作為表示 K8s 流量入口的種資源,想要讓其生效,就需要有個 Ingress Con
    的頭像 發(fā)表于 08-07 10:56 ?1271次閱讀
    <b class='flag-5'>k8s</b>生態(tài)鏈包含哪些技術(shù)

    跑大模型AI的K8s與普通K8s的區(qū)別分析

    Kubernetes是個在大量節(jié)點上管理容器的系統(tǒng),其主要功能總結(jié)起來,就是在想要啟動容器的時候,負(fù)責(zé)“找個「空閑」節(jié)點,啟動容器”。但是它默認(rèn)考慮的啟動因素(資源類)主要就是“CPU+內(nèi)存”。就是容器指定“我要多少
    發(fā)表于 09-03 12:07 ?956次閱讀

    K8S落地實踐經(jīng)驗分享

    k8s 即 Kubernetes,是個開源的容器編排引擎,用來對容器化應(yīng)用進行自動化部署、 擴縮和管理。
    的頭像 發(fā)表于 01-02 11:45 ?1226次閱讀
    <b class='flag-5'>K8S</b>落地實踐經(jīng)驗分享

    k8s云原生開發(fā)要求

    Kubernetes(K8s)云原生開發(fā)對硬件有定要求。CPU方面,建議至少配備2個邏輯核心,高性能CPU更佳。內(nèi)存至少4GB,但8GB或
    的頭像 發(fā)表于 10-24 10:03 ?243次閱讀
    <b class='flag-5'>k8s</b>云原生開發(fā)要求

    k8s和docker區(qū)別對比,哪個更強?

    Docker和Kubernetes(K8s)是容器化技術(shù)的兩大流行工具。Docker關(guān)注構(gòu)建和打包容器,適用于本地開發(fā)和單主機管理;而K8s則提供容器編排和管理平臺,適用于多主機或云環(huán)境,具備自動化
    的頭像 發(fā)表于 12-11 13:55 ?157次閱讀