0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深入研究Kubernetes調(diào)度

阿銘linux ? 來源:K8sMeetup社區(qū) ? 作者:Ron Sobol ? 2021-08-23 10:39 ? 次閱讀

“本文從 Pod 和節(jié)點的配置開始,介紹了 Kubernetes Scheduler 框架、擴展點、API 以及可能發(fā)生的與資源相關(guān)的瓶頸,并展示了性能調(diào)整設置,涵蓋了 Kubernetes 中調(diào)度的大多方面。

Kubernetes Scheduler 是 Kubernetes 控制平面的核心組件之一。它在控制平面上運行,將 Pod 分配給節(jié)點,同時平衡節(jié)點之間的資源利用率。將 Pod 分配給新節(jié)點后,在該節(jié)點上運行的 kubelet 會在 Kubernetes API 中檢索 Pod 定義,根據(jù)節(jié)點上的 Pod 規(guī)范創(chuàng)建資源和容器。換句話說,Scheduler 在控制平面內(nèi)運行,并將工作負載分配給 Kubernetes 集群。

本文將對 Kubernetes Scheduler 進行深入研究,首先概述一般的調(diào)度以及具有親和力(affinity)和 taint 的驅(qū)逐調(diào)度,然后討論調(diào)度程序的瓶頸以及生產(chǎn)中可能遇到的問題,最后研究如何微調(diào)調(diào)度程序的參數(shù)以適合集群。

調(diào)度簡介

Kubernetes 調(diào)度是將 Pod 分配給集群中匹配節(jié)點的過程。Scheduler 監(jiān)控新創(chuàng)建的 Pod,并為其分配最佳節(jié)點。它會根據(jù) Kubernetes 的調(diào)度原則和我們的配置選項選擇最佳節(jié)點。最簡單的配置選項是直接在 PodSpec 設置 nodeName:

apiVersion: v1

kind: Pod

metadata:

name: nginx

spec:

containers

- name: nginx

image: nginx

nodeName: node-01

上面的 nginx pod 默認情況下將在 node-01 上運行,但是 nodeName 有許多限制導致無法正常運行 Pod,例如云中節(jié)點名稱未知、資源節(jié)點不足以及節(jié)點網(wǎng)絡間歇性問題等。因此,除了測試或開發(fā)期間,我們最好不使用 nodeName。

如果要在一組特定的節(jié)點上運行 Pod,可以使用 nodeSelector。我們在 PodSpec 中將 nodeSelector 定義為一組鍵值對:

apiVersion: v1

kind: Pod

metadata:

name: nginx

spec:

containers:

- name: nginx

image: nginx

nodeSelector:

disktype: ssd

對于上面的 nginx pod,Kubernetes Scheduler 將找到一個磁盤類型為 ssd 的節(jié)點。當然,該節(jié)點可以具有其他標簽。我們可以在 Kubernetes 參考文檔中查看標簽的完整列表。

地址:https://kubernetes.io/docs/reference/kubernetes-api/labels-annotations-taints/

使用 nodeSelector 有約束 Pod 可以在有特定標簽的節(jié)點上運行。但它的使用僅受標簽及其值限制。Kubernetes 中有兩個更全面的功能來表達更復雜的調(diào)度需求:節(jié)點親和力(node affinity),標記容器以將其吸引到一組節(jié)點上;taint 和 toleration,標記節(jié)點以排斥 Pod。這些功能將在下面討論。

節(jié)點親和力

節(jié)點親和力(Node Affinity)是在 Pod 上定義的一組約束,用于確定哪些節(jié)點適合進行調(diào)度,即使用親和性規(guī)則為 Pod 的節(jié)點分配定義硬性要求和軟性要求。例如可以將 Pod 配置為僅運行帶有 GPU 的節(jié)點,并且最好使用 NVIDIA_TESLA_V100 運行深度學習工作負載。Scheduler 會評估規(guī)則,并在定義的約束內(nèi)找到合適的節(jié)點。與 nodeSelectors 相似,節(jié)點親和性規(guī)則可與節(jié)點標簽一起使用,但它比 nodeSelectors 更強大。

我們可以為 podspec 添加四個相似性規(guī)則:

requiredDuringSchedulingIgnoredDuringExecution

requiredDuringSchedulingRequiredDuringExecution

preferredDuringSchedulingIgnoredDuringExecution

preferredDuringSchedulingRequiredDuringExecution

這四個規(guī)則由兩個條件組成:必需或首選條件,以及兩個階段:計劃和執(zhí)行。以 required 開頭的規(guī)則描述了必須滿足的嚴格要求。以 preferred 開頭的規(guī)則是軟性要求,將強制執(zhí)行但不能保證。調(diào)度階段是指將 Pod 首次分配給節(jié)點。執(zhí)行階段適用于在調(diào)度分配后節(jié)點標簽發(fā)生更改的情況。

如果規(guī)則聲明為 IgnoredDuringExecution,Scheduler 在第一次分配后不會檢查其有效性。但如果使用 RequiredDuringExecution 指定了規(guī)則,Scheduler 會通過將容器移至合適的節(jié)點來確保規(guī)則的有效性。

以下是示例:

apiVersion: v1kind: Pod

metadata:

name: nginx

spec:

affinity:

nodeAffinity:

requiredDuringSchedulingIgnoredDuringExecution:

nodeSelectorTerms

- matchExpressions:

- key: topology.kubernetes.io/region

operator: In

values:

- us-east

preferredDuringSchedulingIgnoredDuringExecution:

- weight: 1

preference:

matchExpressions:

- key: topology.kubernetes.io/zone

operator: In

values:

- us-east-1

- us-east-2

containers:

- name: nginx

image: nginx

上面的 Nginx Pod 具有節(jié)點親和性規(guī)則,該規(guī)則讓 Kubernetes Scheduler 將 Pod 放置在 us-east 的節(jié)點上。第二條規(guī)則指示優(yōu)先使用 us-east-1 或 us-east-2。

使用親和性規(guī)則,我們可以讓 Kubernetes 調(diào)度決策適用于自定義需求。

Taint 與 Toleration

集群中并非所有 Kubernetes 節(jié)點都相同。某些節(jié)點可能具有特殊的硬件,例如 GPU、磁盤或網(wǎng)絡功能。同樣,我們可能需要將一些節(jié)點專用于測試、數(shù)據(jù)保護或用戶組。我們可以將 Taint 添加到節(jié)點以排斥 Pod,如以下示例所示:

kubectl taint nodes node1 test-environment=true:NoSchedule

使用 test-environment=true:NoScheduletaint 時,除非在 podspec 具有匹配的 toleration,否則 Kubernetes Scheduler 將不會分配任何 pod:

apiVersion: v1kind: Pod

metadata:

name: nginx

spec:

containers:

- name: nginx

image: nginx

tolerations:

- key: “test-environment”

operator: “Exists”

effect: “NoSchedule”

taint 和 tolerations 共同發(fā)揮作用,讓 Kubernetes Scheduler 專用于某些節(jié)點并分配特定 Pod。

調(diào)度瓶頸

盡管 Kubernetes Scheduler 能選擇最佳節(jié)點,但是在 Pod 開始運行之后,“最佳節(jié)點”可能會改變。所以從長遠來看,Pod 的資源使用及其節(jié)點分配可能存在問題。

資源請求(Request)和限制(Limit):“Noisy Neighbor”

“Noisy Neighbor”并不特定于 Kubernetes。任何多租戶系統(tǒng)都是它們的潛在地。假設有兩個容器 A 和 B,它們在同一節(jié)點上運行。如果 Pod B 試圖通過消耗所有 CPU 或內(nèi)存來創(chuàng)造 noise,Pod A 將出現(xiàn)問題。如果我們?yōu)槿萜髟O置了資源請求和限制就能控制住 neighbor。Kubernetes 將確保為容器安排其請求的資源,并且不會消耗超出其資源限制的資源。如果在生產(chǎn)中運行 Kubernetes,最好設置資源請求和限制以確保系統(tǒng)可靠。

系統(tǒng)進程資源不足

Kubernetes 節(jié)點主要是連接到 Kubernetes 控制平面的虛擬機。因此,節(jié)點上也有自己的操作系統(tǒng)和相關(guān)進程。如果 Kubernetes 工作負載消耗了所有資源,則這些節(jié)點將無法運行,并會發(fā)生各種問題問題。我們需要在 kubelet 中使用 –system -reserved 設置保留資源,以防止發(fā)生這種情況。

搶占或調(diào)度 Pod

如果 Kubernetes Scheduler 無法將 Pod 調(diào)度到可用節(jié)點,則可以從節(jié)點搶占(preempt)或驅(qū)逐(evict)一些 Pod 以分配資源。如果看到 Pod 在集群中移動而沒有發(fā)現(xiàn)特定原因,可以使用優(yōu)先級類對其進行定義。同樣,如果沒有調(diào)度好 Pod,并且正在等待其他 Pod,也需要檢查其優(yōu)先級。

以下是示例:

apiVersion: scheduling.k8s.io/v1kind: PriorityClass

metadata:

name: high-priority-nonpreempting

value: 100000preemptionPolicy: NeverglobalDefault: false

description: “This priority class will not preempt other pods.”

可以通過以下方式在 podspec 中為分配優(yōu)先級:

apiVersion: v1kind: Pod

metadata:

name: nginx

spec:

containers:

- name: nginx

image: nginx

priorityClassName: high-priority-nonpreempting

調(diào)度框架

Kubernetes Scheduler 具有可插拔的調(diào)度框架架構(gòu),可向框架添加一組新的插件。插件實現(xiàn) Plugin API,并被編譯到調(diào)度程序中。下面我們將討論調(diào)度框架的工作流、擴展點和 Plugin API。

工作流和擴展點

調(diào)度 Pod 包括兩個階段:調(diào)度周期(scheduling cycle)和綁定周期(binding cycle)。在調(diào)度周期中,Scheduler 會找到一個可用節(jié)點,然后在綁定過程中,將決策應用于集群。

工作流中的以下幾點對插件擴展開放:

QueueSort:對隊列中的 Pod 進行排序

PreFilter:檢查預處理 Pod 的相關(guān)信息以安排調(diào)度周期

Filter:過濾不適合該 Pod 的節(jié)點

PostFilter:如果找不到可用于 Pod 的可行節(jié)點,調(diào)用該插件

PreScore:運行 PreScore 任務以生成一個可共享狀態(tài)供 Score 插件使用

Score:通過調(diào)用每個 Score 插件對過濾的節(jié)點進行排名

NormalizeScore:合并分數(shù)并計算節(jié)點的最終排名

Reserve:在綁定周期之前選擇保留的節(jié)點

Permit:批準或拒絕調(diào)度周期結(jié)果

PreBind:執(zhí)行任何先決條件工作,例如配置網(wǎng)絡卷

Bind:將 Pod 分配給 Kubernetes API 中的節(jié)點

PostBind:通知綁定周期的結(jié)果

插件擴展實現(xiàn)了 Plugin API,是 Kubernetes Scheduler 的一部分。我們可以在 Kubernetes 存儲庫中檢查。插件應使用以下名稱進行注冊:

// Plugin is the parent type for all the scheduling framework plugins.

type Plugin interface {

Name() string

}

插件還實現(xiàn)了相關(guān)的擴展點,如下所示:

// QueueSortPlugin is an interface that must be implemented by “QueueSort” plugins.

// These plugins are used to sort pods in the scheduling queue. Only one queue sort plugin may be enabled at a time.

type QueueSortPlugin interface {

Plugin

// Less are used to sort pods in the scheduling queue.

Less(*QueuedPodInfo, *QueuedPodInfo) bool

}

Scheduler 性能調(diào)整

Kubernetes Scheduler 有一個工作流來查找和綁定 Pod 的可行節(jié)點。當集群中的節(jié)點數(shù)量非常多時,Scheduler 的工作量將成倍增加。在大型集群中,可能需要很長時間才能找到最佳節(jié)點,因此要微調(diào)調(diào)度程序的性能,以在延遲和準確性之間找到折中方案。

percentageOfNodesToScore 將限制節(jié)點的數(shù)量來計算自己的分數(shù)。默認情況下,Kubernetes 在 100 節(jié)點集群的 50% 和 5000 節(jié)點集群的 10% 之間設置線性閾值。默認最小值為 5%,它要確保至少考慮集群中 5% 節(jié)點的調(diào)度。

下面的示例展示了如何通過性能調(diào)整 kube-scheduler 來手動設置閾值:

apiVersion: kubescheduler.config.k8s.io/v1alpha1

kind: KubeSchedulerConfiguration

algorithmSource:

provider: DefaultProvider

percentageOfNodesToScore: 50

如果有一個龐大的集群并且 Kubernetes 工作負載不能承受 Kubernetes Scheduler 引起的延遲,那么更改百分比是個好主意。

總結(jié)

本文涵蓋了 Kubernetes 調(diào)度的大多方面,從 Pod 和節(jié)點的配置開始,包括 nodeSelector、親和性規(guī)則、taint 和 toleration,然后介紹了 Kubernetes Scheduler 框架、擴展點、API 以及可能發(fā)生的與資源相關(guān)的瓶頸,最后展示了性能調(diào)整設置。盡管 Kubernetes Scheduler 能簡單地將 Pod 分配給節(jié)點,但是了解其動態(tài)性并對其進行配置以實現(xiàn)可靠的生產(chǎn)級 Kubernetes 設置至關(guān)重要。

原文鏈接:https://thenewstack.io/a-deep-dive-into-kubernetes-scheduling/

作者:Ron Sobol. 翻譯:Bach(才云)

校對:星空下的文仔(才云)、bot(才云)

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • kubernetes
    +關(guān)注

    關(guān)注

    0

    文章

    236

    瀏覽量

    8903

原文標題:Kubernetes 調(diào)度詳解

文章出處:【微信號:aming_linux,微信公眾號:阿銘linux】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    直流電機控制方法的Matlab仿真研究

    針對無刷直流電機的控制方法進行了深入研究 。根據(jù)無刷直流電機實際物理模型建立相應的數(shù)學模型,電機使用雙閉環(huán)進行控制 。根據(jù)電機的實際工作特點,使用模糊自適應 PID 算法替代常規(guī) PID 算法建立
    發(fā)表于 03-27 12:15

    Kubernetes中部署MySQL集群

    一般情況下 Kubernetes 可以通過 ReplicaSet 以一個 Pod 模板創(chuàng)建多個 pod 副本,但是它們都是無狀態(tài)的,任何時候它們都可以被一個全新的 pod 替換。
    的頭像 發(fā)表于 03-18 16:22 ?181次閱讀
    <b class='flag-5'>Kubernetes</b>中部署MySQL集群

    Kubernetes包管理工具Helm的安裝和使用

    Helm 可以幫助我們管理 Kubernetes 應用程序 - Helm Charts 可以定義、安裝和升級復雜的 Kubernetes 應用程序,Charts 包很容易創(chuàng)建、版本管理、分享和分布。
    的頭像 發(fā)表于 03-13 16:06 ?309次閱讀

    Kubernetes Pod常用管理命令詳解

    Kubernetes Pod常用管理命令詳解
    的頭像 發(fā)表于 02-17 14:06 ?318次閱讀
    <b class='flag-5'>Kubernetes</b> Pod常用管理命令詳解

    電容器深入研究:電路保護、濾波和能量存儲

    校參加了一些課程,并獲得了一些關(guān)于何時使用電容器以及它們?nèi)绾喂ぷ鞯恼鎸嵤纠?。從電路保護到濾波,從能量存儲到傳感,我正在深入研究簡單而復雜的電容器世界。 這些東西是如何運作的? 事實上,構(gòu)成電容器的只是由絕緣體隔開的兩個導體。
    的頭像 發(fā)表于 01-25 15:13 ?397次閱讀
    電容器<b class='flag-5'>深入研究</b>:電路保護、濾波和能量存儲

    Kubernetes:構(gòu)建高效的容器化應用平臺

    Kubernetes 作為容器編排的事實標準,在容器化應用部署中發(fā)揮著關(guān)鍵作用。 搭建 Kubernetes 集群是應用的基礎。可以使用kubeadm工具快速搭建。在主節(jié)點執(zhí)行kubeadm
    的頭像 發(fā)表于 01-23 15:22 ?237次閱讀

    Kubernetes的CNI網(wǎng)絡插件之flannel

    Kubernetes設計了網(wǎng)絡模型,但卻將它的實現(xiàn)講給了網(wǎng)絡插件,CNI網(wǎng)絡插件最重要的功能就是實現(xiàn)Pod資源能夠跨主機通信。
    的頭像 發(fā)表于 01-02 09:43 ?629次閱讀

    電力系統(tǒng)中電動車充電樁布局與調(diào)度的優(yōu)化策略探究

    15821697760 摘要:本文深入鉆研電動車充電樁于電力系統(tǒng)布局及調(diào)度的問題,融合地理信息系統(tǒng)與電網(wǎng)模型,綜合考慮電力供應能力、民眾電動車出行需求以及充電設備安全等要素,構(gòu)建多因多目標優(yōu)化模型
    的頭像 發(fā)表于 12-13 16:39 ?961次閱讀
    電力系統(tǒng)中電動車充電樁布局與<b class='flag-5'>調(diào)度</b>的優(yōu)化策略探究

    對于電力系統(tǒng)中新能源電動車充電樁布局與調(diào)度優(yōu)化方法的研究

    本文針對電動車充電樁在電力系統(tǒng)布局及調(diào)度方面進行深入研究,借鑒地理信息系統(tǒng)與電網(wǎng)模型,綜合考量電力供應的能力,大眾對電動車出行需求,以及充電設備的安全,多因多目標優(yōu)化模型誕生。有效地確定充電樁的*優(yōu)布局方案。
    的頭像 發(fā)表于 12-12 08:39 ?641次閱讀
    對于電力系統(tǒng)中新能源電動車充電樁布局與<b class='flag-5'>調(diào)度</b>優(yōu)化方法的<b class='flag-5'>研究</b>

    基于量子計算技術(shù)的AGV調(diào)度問題研究

    由于自動化和智能化的普及,AGV(自動導引車)調(diào)度問題在物流、運輸和生產(chǎn)領域有著廣泛的應用。 隨著AGV數(shù)量的增加,經(jīng)典計算方法難以滿足大規(guī)模調(diào)度的需求,而玻色量子自研的相干光量子計算技術(shù)具有強大
    的頭像 發(fā)表于 11-11 09:36 ?621次閱讀
    基于量子計算技術(shù)的AGV<b class='flag-5'>調(diào)度</b>問題<b class='flag-5'>研究</b>

    構(gòu)建語音控制機器人 - 深入研究電路

    2024-07-29 |Annabel Ng S1XT33N項目 正如[之前的博客文章]中提到的,加州大學伯克利分校的 EECS 16B 課程重點關(guān)注構(gòu)建名為 S1XT33N 的語音控制機器人的為期一個學期的項目。然而,這個機器人并不是你在初中或高中時建造的標準機器人汽車。我和我的實驗室伙伴只獲得了基本的兩輪機器人組件,包括輪子、電機、底盤、Arduino Leonardo、電池和面包板,我們必須自己構(gòu)建和連接其他所有組件。如果您有興趣了解有關(guān)該課程的更多信息,請訪問課程網(wǎng)站[https://www.eec
    的頭像 發(fā)表于 10-02 16:40 ?438次閱讀
    構(gòu)建語音控制機器人 - <b class='flag-5'>深入研究</b>電路

    深入探討Linux的進程調(diào)度

    Linux操作系統(tǒng)作為一個開源且廣泛應用的操作系統(tǒng),其內(nèi)核設計包含了許多核心功能,而進程調(diào)度器(Scheduler)就是其中一個至關(guān)重要的模塊。進程調(diào)度器負責決定在任何給定的時刻哪個進程可以運行
    的頭像 發(fā)表于 08-13 13:36 ?1115次閱讀
    <b class='flag-5'>深入</b>探討Linux的進程<b class='flag-5'>調(diào)度</b>器

    使用Velero備份Kubernetes集群

    Velero 是 heptio 團隊(被 VMWare 收購)開源的 Kubernetes 集群備份、遷移工具。
    的頭像 發(fā)表于 08-05 15:43 ?495次閱讀
    使用Velero備份<b class='flag-5'>Kubernetes</b>集群

    如何使用Kubeadm命令在PetaExpress Ubuntu系統(tǒng)上安裝Kubernetes集群

    Kubernetes,通??s寫為K8s,是一個開源的容器編排平臺,旨在自動化容器化應用的部署、擴展和管理。有了Kubernetes,您可以輕松地部署、更新和擴展應用,而無需擔心底層基礎設施。
    的頭像 發(fā)表于 07-15 13:31 ?1003次閱讀
    如何使用Kubeadm命令在PetaExpress Ubuntu系統(tǒng)上安裝<b class='flag-5'>Kubernetes</b>集群

    倫敦商學院深入研究中國神州數(shù)碼戰(zhàn)略轉(zhuǎn)型

    China)數(shù)字化轉(zhuǎn)型歷程的深入研究為基礎,共同撰寫了案例研究「神州數(shù)碼的轉(zhuǎn)型:駕馭數(shù)據(jù)、云和人工智能的潛力(The Transformation of Digital China
    的頭像 發(fā)表于 07-02 11:25 ?657次閱讀
    倫敦商學院<b class='flag-5'>深入研究</b>中國神州數(shù)碼戰(zhàn)略轉(zhuǎn)型

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品