推理因其靈活性而成為邊緣計(jì)算的殺手級(jí)應(yīng)用。今天,邊緣推理(也稱為邊緣 AI)解決了各個(gè)行業(yè)的問(wèn)題:防止盜竊、發(fā)現(xiàn)疾病和減少農(nóng)田中除草劑的使用。但對(duì)許多人來(lái)說(shuō),管理分布式邊緣服務(wù)器的復(fù)雜性可能會(huì)侵蝕業(yè)務(wù)價(jià)值。
邊緣人工智能數(shù)據(jù)中心在一個(gè)位置上沒(méi)有 10000 臺(tái)服務(wù)器。它在 10000 個(gè)位置有一個(gè)或多個(gè)服務(wù)器,通常位于沒(méi)有物理安全或訓(xùn)練有素的 It 人員的位置。因此,邊緣人工智能服務(wù)器必須安全、有彈性,并且易于大規(guī)模管理。
圖 1 。使用 edge AI 的數(shù)據(jù)中心到云工作流
這就是為什么組織正在轉(zhuǎn)向云本地技術(shù)來(lái)管理其邊緣 AI 數(shù)據(jù)中心。
什么是云本機(jī)?
定義 Cloud Native 就像一個(gè)關(guān)于蒙著眼睛描述大象的笑話。你是在摸象牙、鼻子還是尾巴?
對(duì)于 IT 管理員來(lái)說(shuō),云本機(jī)意味著以代碼形式管理基礎(chǔ)設(shè)施。
軟件開(kāi)發(fā)人員使用云本地工具和技術(shù)來(lái)編寫可移植應(yīng)用程序。
IT 主管們擁抱云文化以降低成本并提高效率。
結(jié)合這些觀點(diǎn), Cloud Native 是一種現(xiàn)代的軟件開(kāi)發(fā)方法,它使用抽象和自動(dòng)化來(lái)支持可擴(kuò)展性、可移植性和快速交付。
容器化微服務(wù)是云本地應(yīng)用程序的有效標(biāo)準(zhǔn)。Kubernetes是容器編排的市場(chǎng)領(lǐng)先平臺(tái)。它使用 de Clara 動(dòng)態(tài) API 支持大規(guī)模自動(dòng)化。
Cloud native 誕生于公共云,但它正在企業(yè)中迅速傳播。 Gartner 預(yù)測(cè),容器編排市場(chǎng)將增長(zhǎng)到到 2024 年為 9 。 44 億美元。
云計(jì)算基礎(chǔ)( CNCF )為生態(tài)系統(tǒng)提供供應(yīng)商中立的治理。 CNCF 策劃并支持開(kāi)源、云本地軟件項(xiàng)目。 Containerd 、 Prometheus 和 Kubernetes 是 CNCF 維護(hù)的熱門項(xiàng)目。
為什么邊緣 AI 使用云計(jì)算?
云本機(jī)與邊緣計(jì)算有何關(guān)聯(lián)?為大規(guī)模公共云構(gòu)建的工具能否使具有一個(gè)或兩個(gè)節(jié)點(diǎn)的邊緣位置受益?
簡(jiǎn)而言之,答案是肯定的。云本機(jī)架構(gòu)提供的不僅僅是巨大的可擴(kuò)展性。它還提供性能、恢復(fù)力和易管理性,這些都是 edge AI 的關(guān)鍵功能。
性能
在過(guò)去 15 年中,企業(yè)傾向于使用虛擬機(jī)( VM )將應(yīng)用程序整合到更少的服務(wù)器上。但是虛擬化開(kāi)銷會(huì)降低應(yīng)用程序性能。
邊緣 AI 偏愛(ài)容器。在邊緣,性能是王者。自動(dòng)駕駛汽車必須在“看到”行人時(shí)猛踩剎車。容器以***金屬性能運(yùn)行。而且許多容器可以共享同一臺(tái)服務(wù)器,從而整合應(yīng)用程序,而無(wú)需虛擬化帶來(lái)的性能開(kāi)銷。
Kubernetes 還可以通過(guò)優(yōu)化工作負(fù)載布局來(lái)提高邊緣 AI 性能。 CPU 管理策略為特定工作負(fù)載隔離 CPU。這減少了上下文切換和緩存未命中。設(shè)備插件框架將加速器(如 GPU 或 FPGA )暴露在吊艙中。拓?fù)涔芾砥鲗?CPU 、內(nèi)存和加速器資源沿 NUMA 域?qū)R,從而減少昂貴的跨 NUMA 流量。
業(yè)務(wù)和管理
邊緣人工智能數(shù)據(jù)中心 MIG ht 跨越數(shù)百個(gè)位置。云原生工具支持公共云的大規(guī)??蓴U(kuò)展性,管理員可以使用相同的工具來(lái)管理邊緣 AI 數(shù)據(jù)中心。
圖 2 。邊緣人工智能數(shù)據(jù)中心的高級(jí)體系結(jié)構(gòu)
第一天的操作包括初始部署和測(cè)試。 Kubernetes 具有足夠的靈活性,能夠在第一天就支持不同的體系結(jié)構(gòu)。
在一個(gè)極端,整個(gè) edge 數(shù)據(jù)中心是一個(gè) Kubernetes 集群。此體系結(jié)構(gòu)需要在集中式 API 端點(diǎn)和遠(yuǎn)程工作者之間進(jìn)行可靠通信。 API 端點(diǎn)通常是基于云的。
在另一個(gè)極端,每個(gè)邊緣節(jié)點(diǎn)都是一個(gè)獨(dú)立的集群,并維護(hù)自己的控制平面和應(yīng)用程序。這種體系結(jié)構(gòu)適用于間歇性或不可靠的集中式通信。
Kubernetes 還支持集群聯(lián)合。聯(lián)邦集群共享單一的應(yīng)用程序配置源,但在其他方面是獨(dú)立的。聯(lián)合適用于松散耦合的邊緣站點(diǎn)。例如,醫(yī)院系統(tǒng)可以聯(lián)合起來(lái)共享患者數(shù)據(jù)。
部署第一天之后,邊緣數(shù)據(jù)中心管理將轉(zhuǎn)移到第二天操作。更新、升級(jí)和監(jiān)視是第二天的操作。自動(dòng)化和遠(yuǎn)程第二天操作對(duì)于缺乏本地支持人員的邊緣位置的穩(wěn)定性和安全性至關(guān)重要。
云本機(jī)生態(tài)系統(tǒng)包括許多用于集中觀察的流行工具。Prometheus是一個(gè)開(kāi)源的監(jiān)視和警報(bào)工具包。Grafana是一個(gè)開(kāi)源的可觀察性工具,可以在圖形儀表板中顯示數(shù)據(jù)。
軟件生命周期管理也是第二天操作的一個(gè)重要方面。修補(bǔ) VM 映像需要長(zhǎng)時(shí)間的測(cè)試。容器與其依賴項(xiàng)捆綁在一起,并通過(guò)穩(wěn)定的接口與內(nèi)核交互。這使 CI / CD 和其他支持邊緣快速變化的云本機(jī)實(shí)踐成為可能。
應(yīng)用彈性
彈性是指應(yīng)用程序克服問(wèn)題的能力。這是 cloud native 讓 edge AI 受益的另一個(gè)領(lǐng)域。
云本地應(yīng)用程序通常通過(guò)擴(kuò)展提供恢復(fù)能力。同一應(yīng)用程序的多個(gè)克隆在負(fù)載平衡器后面運(yùn)行,當(dāng)克隆失敗時(shí),服務(wù)將繼續(xù)。
這種方法在應(yīng)用程序跨越兩個(gè)或多個(gè)節(jié)點(diǎn)的邊緣 AI 部署中效果良好。但許多邊緣人工智能數(shù)據(jù)中心每個(gè)位置只有一個(gè)節(jié)點(diǎn)。
Kubernetes 還支持單節(jié)點(diǎn)上的應(yīng)用程序恢復(fù)能力。容器重啟策略自動(dòng)重新啟動(dòng)故障吊艙, Kubelet 可以使用活性探針檢測(cè)需要重新啟動(dòng)的非故障條件。
edge AI 基礎(chǔ)設(shè)施軟件也應(yīng)該具有彈性。Kubernetes 算子模式將基礎(chǔ)設(shè)施管理置于自動(dòng)駕駛狀態(tài),自動(dòng)執(zhí)行人工通常執(zhí)行的任務(wù)。例如,在邊緣節(jié)點(diǎn)上檢測(cè)到內(nèi)核升級(jí)的 Kubernetes 操作符將自動(dòng)將節(jié)點(diǎn)的驅(qū)動(dòng)程序重新編譯為新的內(nèi)核版本。
挑戰(zhàn)
Cloud native 提供了彈性和性能,同時(shí)簡(jiǎn)化了操作。這些是邊緣 AI 的關(guān)鍵考慮因素。然而,仍有一些領(lǐng)域必須繼續(xù)發(fā)展云計(jì)算。
超低延遲邊緣應(yīng)用程序需要更好地了解底層硬件。例如,確定 CPU 中哪個(gè)內(nèi)核的延遲最低。容器編排平臺(tái)還希望改進(jìn)多租戶的工作負(fù)載隔離。云原生邊緣 AI 的好處和挑戰(zhàn)只是我們?cè)诩磳⒌絹?lái)的虛擬 GTC 人工智能會(huì)議十一月會(huì)議上探討的邊緣計(jì)算主題之一。
-
cpu
+關(guān)注
關(guān)注
68文章
10891瀏覽量
212455 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5059瀏覽量
103413 -
邊緣計(jì)算
+關(guān)注
關(guān)注
22文章
3110
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論