在docker/k8s時代,經(jīng)常聽到CRI, OCI,containerd和各種shim等名詞,看完本篇博文,您會有個徹底的理解。
典型的K8S Runtime架構(gòu)
從最常見的Docker說起,kubelet和Docker的集成方案圖如下:
當kubelet要創(chuàng)建一個容器時,需要以下幾步:
Kubelet 通過 CRI 接口(gRPC)調(diào)用 dockershim,請求創(chuàng)建一個容器。CRI 即容器運行時接口(Container Runtime Interface),這一步中,Kubelet 可以視作一個簡單的 CRI Client,而 dockershim 就是接收請求的 Server。目前 dockershim 的代碼其實是內(nèi)嵌在 Kubelet 中的,所以接收調(diào)用的湊巧就是 Kubelet 進程;
dockershim 收到請求后,轉(zhuǎn)化成 Docker Daemon 能聽懂的請求,發(fā)到 Docker Daemon 上請求創(chuàng)建一個容器。
Docker Daemon 早在 1.12 版本中就已經(jīng)將針對容器的操作移到另一個守護進程——containerd 中了,因此 Docker Daemon 仍然不能幫我們創(chuàng)建容器,而是要請求 containerd 創(chuàng)建一個容器;
containerd 收到請求后,并不會自己直接去操作容器,而是創(chuàng)建一個叫做 containerd-shim 的進程,讓 containerd-shim 去操作容器。這是因為容器進程需要一個父進程來做諸如收集狀態(tài),維持 stdin 等 fd 打開等工作。而假如這個父進程就是 containerd,那每次 containerd 掛掉或升級,整個宿主機上所有的容器都得退出了。而引入了 containerd-shim 就規(guī)避了這個問題(containerd 和 shim 并不是父子進程關(guān)系);
我們知道創(chuàng)建容器需要做一些設置 namespaces 和 cgroups,掛載 root filesystem 等等操作,而這些事該怎么做已經(jīng)有了公開的規(guī)范了,那就是 OCI(Open Container Initiative,開放容器標準)。它的一個參考實現(xiàn)叫做 runC。于是,containerd-shim 在這一步需要調(diào)用 runC 這個命令行工具,來啟動容器;
runC 啟動完容器后本身會直接退出,containerd-shim 則會成為容器進程的父進程,負責收集容器進程的狀態(tài),上報給 containerd,并在容器中 pid 為 1 的進程退出后接管容器中的子進程進行清理,確保不會出現(xiàn)僵尸進程。
這個過程乍一看像是在搞我們:Docker Daemon 和 dockershim 看上去就是兩個不干活躺在中間劃水的啊,Kubelet 為啥不直接調(diào)用 containerd 呢?
當然可以,先看下現(xiàn)在的架構(gòu)為什么如此繁雜。
容器歷史小敘
早期的k8s runtime架構(gòu),遠沒這么復雜,kubelet創(chuàng)建容器,直接調(diào)用docker daemon,docker daemon自己調(diào)用libcontainer就把容器運行起來。
但往往,事情不會如此簡單,一系列政治斗爭開始了,先是大佬們認為運行時標準不能被 Docker 一家公司控制,于是就攛掇著搞了開放容器標準 OCI。Docker 則把 libcontainer 封裝了一下,變成 runC 捐獻出來作為 OCI 的參考實現(xiàn)。
再接下來就是 rkt(coreos推出的,類似docker) 想從 Docker 那邊分一杯羹,希望 Kubernetes 原生支持 rkt 作為運行時,而且 PR 還真的合進去了。維護過一塊業(yè)務同時接兩個需求方的讀者老爺應該都知道類似的事情有多坑,Kubernetes 中負責維護 kubelet 的小組 sig-node 也是被狠狠坑了一把。
大家一看這么搞可不行,今天能有 rkt,明天就能有更多幺蛾子出來,這么搞下去我們小組也不用干活了,整天搞兼容性的 bug 就夠嗆。于是乎,Kubernetes 1.5 推出了 CRI 機制,即容器運行時接口(Container Runtime Interface),Kubernetes 告訴大家,你們想做 Runtime 可以啊,我們也資瓷歡迎,實現(xiàn)這個接口就成,成功反客為主。
不過 CRI 本身只是 Kubernetes 推的一個標準,當時的 Kubernetes 尚未達到如今這般武林盟主的地位,容器運行時當然不能說我跟 Kubernetes 綁死了只提供 CRI 接口,于是就有了 shim(墊片)這個說法,一個 shim 的職責就是作為 Adapter 將各種容器運行時本身的接口適配到 Kubernetes 的 CRI 接口上。
接下來就是 Docker 要搞 Swarm 進軍 PaaS 市場,于是做了個架構(gòu)切分,把容器操作都移動到一個單獨的 Daemon 進程 containerd 中去,讓 Docker Daemon 專門負責上層的封裝編排??上?Swarm 在 Kubernetes 面前實在是不夠打,慘敗之后 Docker 公司就把 containerd 項目捐給 CNCF 縮回去安心搞 Docker 企業(yè)版了。
最后就是我們在上一張圖里看到的這一坨東西了,盡管現(xiàn)在已經(jīng)有 CRI-O,containerd-plugin 這樣更精簡輕量的 Runtime 架構(gòu),dockershim 這一套作為經(jīng)受了最多生產(chǎn)環(huán)境考驗的方案,迄今為止仍是 Kubernetes 默認的 Runtime 實現(xiàn)。
OCI, CRI
OCI(開放容器標準),規(guī)定了2點:
容器鏡像要長啥樣,即 ImageSpec。里面的大致規(guī)定就是你這個東西需要是一個壓縮了的文件夾,文件夾里以 xxx 結(jié)構(gòu)放 xxx 文件;
容器要需要能接收哪些指令,這些指令的行為是什么,即 RuntimeSpec。這里面的大致內(nèi)容就是“容器”要能夠執(zhí)行 “create”,“start”,“stop”,“delete” 這些命令,并且行為要規(guī)范。
runC 為啥叫參考實現(xiàn)呢,就是它能按照標準將符合標準的容器鏡像運行起來,標準的好處就是方便搞創(chuàng)新,反正只要我符合標準,生態(tài)圈里的其它工具都能和我一起愉快地工作(……當然 OCI 這個標準本身制定得不怎么樣,真正工程上還是要做一些 adapter 的),那我的鏡像就可以用任意的工具去構(gòu)建,我的“容器”就不一定非要用 namespace 和 cgroups 來做隔離。這就讓各種虛擬化容器可以更好地參與到游戲當中,我們暫且不表。
而 CRI 更簡單,單純是一組 gRPC 接口,掃一眼 kubelet/apis/cri/services.go 就能歸納出幾套核心接口:
一套針對容器操作的接口,包括創(chuàng)建,啟停容器等等;
一套針對鏡像操作的接口,包括拉取鏡像刪除鏡像等;
一套針對 PodSandbox(容器沙箱環(huán)境)的操作接口,我們之后再說。
現(xiàn)在我們可以找到很多符合 OCI 標準或兼容了 CRI 接口的項目,而這些項目就大體構(gòu)成了整個 Kuberentes 的 Runtime 生態(tài):
OCI Compatible:runC,Kata(以及它的前身 runV 和 Clear Containers),gVisor。其它比較偏門的還有 Rust 寫的 railcar
CRI Compatible:Docker(借助 dockershim),containerd(借助 CRI-containerd),CRI-O,F(xiàn)rakti,etc
OCI, CRI 確實不是一個好名字,在這篇文章的語境中更準確的說法:cri-runtime 和 oci-runtime。通過這個粗略的分類,我們其實可以總結(jié)出整個 Runtime 架構(gòu)萬變不離其宗的三層抽象:
Orchestration API -> Container API(cri-runtime) -> Kernel API(oci-runtime)
根據(jù)這個思路,我們就很容易理解下面這兩種東西:
各種更為精簡的 cri-runtime(反正就是要干掉 Docker)
各種“強隔離”容器方案
Containerd和CRI-O
上一節(jié)看到現(xiàn)在的 Runtime 實在是有點復雜了,而復雜是萬惡之源(其實本質(zhì)上就是想干掉 Docker),于是就有了直接拿 containerd 做 oci-runtime 的方案。當然,除了 Kubernetes 之外,containerd 還要接諸如 Swarm 等調(diào)度系統(tǒng),因此它不會去直接實現(xiàn) CRI,這個適配工作當然就要交給一個 shim 了。
containerd 1.0 中,對 CRI 的適配通過一個單獨的進程 CRI-containerd 來完成:
containerd 1.1 中做的又更漂亮一點,砍掉了 CRI-containerd 這個進程,直接把適配邏輯作為插件放進了 containerd 主進程中:
但在 containerd 做這些事情前,社區(qū)就已經(jīng)有了一個更為專注的 cri-runtime:CRI-O,它非常純粹,就是兼容 CRI 和 OCI,做一個 Kubernetes 專用的運行時:
其中 conmon 就對應 containerd-shim,大體意圖是一樣的。
CRI-O 和(直接調(diào)用)containerd 的方案比起默認的 dockershim 確實簡潔很多,但沒啥生產(chǎn)環(huán)境的驗證案例,我所知道的僅僅是 containerd 在 GKE 上是 beta 狀態(tài)。因此假如你對 Docker 沒有特殊的政治恨意,大可不必把 dockershim 這套換掉。
強隔離容器:Kata,gVisor,F(xiàn)irecracker
一直以來,K8S都難以實現(xiàn)真正的多租戶。
理想來說,平臺的各個租戶(tenant)之間應該無法感受到彼此的存在,表現(xiàn)得就像每個租戶獨占這整個平臺一樣。具體來說,我不能看到其它租戶的資源,我的資源跑滿了不能影響其它租戶的資源使用,我也無法從網(wǎng)絡或內(nèi)核上攻擊其它租戶。
Kubernetes 當然做不到,其中最大的兩個原因是:
kube-apiserver 是整個集群中的單例,并且沒有多租戶概念
默認的 oci-runtime 是 runC,而 runC 啟動的容器是共享內(nèi)核的
對于第二個問題,一個典型的解決方案就是提供一個新的 OCI 實現(xiàn),用 VM 來跑容器,實現(xiàn)內(nèi)核上的硬隔離。runV 和 Clear Containers 都是這個思路。因為這兩個項目做得事情是很類似,后來就合并成了一個項目 Kata Container。Kata 的一張圖很好地解釋了基于虛擬機的容器與基于 namespaces 和 cgroups 的容器間的區(qū)別:
當然,沒有系統(tǒng)是完全安全的,假如 hypervisor 存在漏洞,那么用戶仍有可能攻破隔離。但所有的事情都要對比而言,在共享內(nèi)核的情況下,暴露的攻擊面是非常大的,做安全隔離的難度就像在美利堅和墨西哥之間修 The Great Wall,而當內(nèi)核隔離之后,只要守住 hypervisor 這道關(guān)子就后顧無虞了。
嗯,一個 VM 里跑一個容器,聽上去隔離性很不錯,但不是說虛擬機又笨重又不好管理才切換到容器的嗎,怎么又要走回去了?
Kata 告訴你,虛擬機沒那么邪惡,只是以前沒玩好:
不好管理是因為沒有遵循“不可變基礎設施”,大家都去虛擬機上這摸摸那碰碰,這臺裝 Java 8 那臺裝 Java 6,Admin 是要 angry 的。Kata 則支持 OCI 鏡像,完全可以用上 Dockerfile + 鏡像,讓不好管理成為了過去時;
笨重是因為之前要虛擬化整個系統(tǒng),現(xiàn)在我們只著眼于虛擬化應用,那就可以裁剪掉很多功能,把 VM 做得很輕量,因此即便用虛擬機來做容器,Kata 還是可以將容器啟動時間壓縮得非常短,啟動后在內(nèi)存上和 IO 上的 overhead 也盡可能去優(yōu)化。
不過話說回來,Kubernetes 上的調(diào)度單位是 Pod,是容器組啊,Kata 這樣一個虛擬機里一個容器,同一個 Pod 間的容器還怎么做 namespace 的共享?
這就要說回我們前面講到的 CRI 中針對 PodSandbox(容器沙箱環(huán)境)的操作接口了。第一節(jié)中,我們刻意簡化了場景,只考慮創(chuàng)建一個容器,而沒有討論創(chuàng)建一個 Pod。大家都知道,真正啟動 Pod 里定義的容器之前,kubelet 會先啟動一個 infra 容器,并執(zhí)行 /pause 讓 infra 容器的主進程永遠掛起。這個容器存在的目的就是維持住整個 Pod 的各種 namespace,真正的業(yè)務容器只要加入 infra 容器的 network 等 namespace 就能實現(xiàn)對應 namespace 的共享。而 infra 容器創(chuàng)造的這個共享環(huán)境則被抽象為 PodSandbox。每次 kubelet 在創(chuàng)建 Pod 時,就會先調(diào)用 CRI 的 RunPodSandbox 接口啟動一個沙箱環(huán)境,再調(diào)用 CreateContainer 在沙箱中創(chuàng)建容器。
這里就已經(jīng)說出答案了,對于 Kata Container 而言,只要在 RunPodSandbox 調(diào)用中創(chuàng)建一個 VM,之后再往 VM 中添加容器就可以了。最后運行 Pod 的樣子就是這樣的:
說完了 Kata,其實 gVisor 和 Firecracker 都不言自明了,大體上都是類似的,只是:
gVisor 并不會去創(chuàng)建一個完整的 VM,而是實現(xiàn)了一個叫 “Sentry” 的用戶態(tài)進程來處理容器的 syscall,而攔截 syscall 并重定向到 Sentry 的過程則由 KVM 或 ptrace 實現(xiàn)。
Firecracker 稱自己為 microVM,即輕量級虛擬機,它本身還是基于 KVM 的,不過 KVM 通常使用 QEMU 來虛擬化除 CPU 和內(nèi)存外的資源,比如 IO 設備,網(wǎng)絡設備。Firecracker 則使用 rust 實現(xiàn)了最精簡的設備虛擬化,為的就是壓榨虛擬化的開銷,越輕量越好。
責任編輯:xj
原文標題:淺析 k8s 容器運行時演進
文章出處:【微信公眾號:Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
容器
+關(guān)注
關(guān)注
0文章
495瀏覽量
22062 -
CRI
+關(guān)注
關(guān)注
1文章
16瀏覽量
12238 -
Docker
+關(guān)注
關(guān)注
0文章
458瀏覽量
11857
原文標題:淺析 k8s 容器運行時演進
文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論