摘要:現(xiàn)如今,數(shù)據(jù)中心正成為算力中心,為千行百業(yè)提供數(shù)字化底座,并基于海量數(shù)據(jù)挖掘其中的商業(yè)價值。超融合數(shù)據(jù)中心網(wǎng)絡以全無損以太網(wǎng)來構(gòu)建新型的數(shù)據(jù)中心網(wǎng)絡,使通用計算、高性能計算、存儲三大業(yè)務均能融合部署在同一張以太網(wǎng)上,同時實現(xiàn)全生命周期自動化和全網(wǎng)智能運維,可在服務器規(guī)模不變的情況下,顯著提升數(shù)據(jù)中心的整體算力水平。
01.?智能時代促使數(shù)據(jù)中心向算力中心演進
人類社會正邁入萬物感知、萬物互聯(lián)、萬物智能的智能時代,物聯(lián)網(wǎng)、大數(shù)據(jù)、5G、AI等新技術和各類創(chuàng)新應用層出不窮。 ? 我國在《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》中再一次明確了“加快數(shù)字化發(fā)展,打造數(shù)字經(jīng)濟新優(yōu)勢,協(xié)同推進數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,加快數(shù)字社會建設步伐,提高數(shù)字政府建設水平,營造良好數(shù)字生態(tài),建設數(shù)字中國”的戰(zhàn)略方針。 ? 作為構(gòu)建數(shù)字化社會的信息基石——數(shù)據(jù)中心,他承擔著各類應用的數(shù)據(jù)存儲、數(shù)據(jù)分析與數(shù)據(jù)計算的重任。
從數(shù)據(jù)中挖掘商業(yè)價值已成為企業(yè)經(jīng)營的核心任務之一,因此數(shù)據(jù)中心也越來越聚焦對數(shù)據(jù)的高效處理,這種處理能力我們通常稱為“算力”。算力成為衡量現(xiàn)代數(shù)字生產(chǎn)力的重要指標。大家熟知的人臉識別、無人駕駛汽車、智慧工廠等,其背后都是數(shù)據(jù)中心對數(shù)字基礎設施的高效整合與使用,并將其轉(zhuǎn)化為某種應用維度的算力。從這個意義上說,數(shù)據(jù)中心又可以被稱為“算力中心”。 ? ?
圖1-1 數(shù)字化社會的信息基石——數(shù)據(jù)中心
數(shù)據(jù)中心算力是服務器對數(shù)據(jù)進行處理后實現(xiàn)結(jié)果輸出的能力,這是數(shù)據(jù)中心內(nèi)計算、存儲、網(wǎng)絡三大資源協(xié)同能力的綜合衡量指標。 ? 根據(jù)ODCC(Open Data Center Committee,開放數(shù)據(jù)中心委員會)的定義,數(shù)據(jù)中心算力指標包含4大核心要素,即:通用計算能力、高性能計算能力、存儲能力、網(wǎng)絡能力。在服務器規(guī)模不變的情況下,提升網(wǎng)絡能力可顯著改善數(shù)據(jù)中心單位能耗下的算力水平。
02.?什么是超融合數(shù)據(jù)中心網(wǎng)絡
數(shù)據(jù)中心內(nèi)存在三大資源區(qū):通用計算區(qū)、高性能計算(HPC)區(qū)和存儲區(qū)。 ? 圖1-2 數(shù)據(jù)中心內(nèi)存在的三大資源區(qū)
通用計算區(qū):與數(shù)據(jù)中心外部的用戶對接,提供指定的應用服務。這個區(qū)域中的服務器大量使用虛擬化、容器等技術,形成靈活的資源池來承載應用。本區(qū)域中的網(wǎng)絡被稱為應用網(wǎng)絡、業(yè)務網(wǎng)絡或前端網(wǎng)絡,當前部署的是以太網(wǎng)。
高性能計算區(qū):配備了專用的高性能單元(如CPU、GPU)的服務器,完成指定的高性能計算任務或AI訓練。這個區(qū)域中的服務器一般很少使用虛擬技術。本區(qū)域中的網(wǎng)絡被稱為高性能計算互聯(lián)網(wǎng)絡,當前部署的是IB(InfiniBand)網(wǎng)絡。
存儲區(qū):采用專用的存儲服務器,對各類數(shù)據(jù)進行存儲、讀寫和備份。本區(qū)域中的網(wǎng)絡一般被稱為存儲網(wǎng)絡,通常部署的是FC(Fibre Channel)網(wǎng)絡。
算力持續(xù)穩(wěn)定的輸出,離不開三大資源區(qū)的相互配合。作為聯(lián)接數(shù)據(jù)中心各類資源的大動脈,數(shù)據(jù)中心網(wǎng)絡承載著保障數(shù)據(jù)高效流通的職責。 ? 圖1-3 三大區(qū)域之間的數(shù)據(jù)流
當前,通用計算區(qū)部署的傳統(tǒng)以太網(wǎng)、高性能計算區(qū)部署的IB網(wǎng)、存儲區(qū)部署的FC網(wǎng),是三張異構(gòu)網(wǎng)絡,他們協(xié)議各異、架構(gòu)割裂,帶來了運維困難、專網(wǎng)生態(tài)封閉、成本高、無法實現(xiàn)全生命周期管理等問題。數(shù)據(jù)中心里這三張網(wǎng)絡的融合,成為算力提升的必然要求。
? 華為超融合數(shù)據(jù)中心網(wǎng)絡以全無損以太網(wǎng)來構(gòu)建新型的數(shù)據(jù)中心網(wǎng)絡,使通用計算、高性能計算、存儲三大業(yè)務均能融合部署在同一張以太網(wǎng)上,同時實現(xiàn)全生命周期自動化和全網(wǎng)智能運維。
? IT 架構(gòu)層面:從本地集中式走向云端分布式 ? 當前一些新興的應用,如區(qū)塊鏈、工業(yè)仿真、人工智能、大數(shù)據(jù)等,基本都建立在云計算的底座中。近些年,企業(yè)各類業(yè)務上云的步伐不斷加速,云可以提供按需自助服務、快速彈性伸縮、多租戶安全隔離、降低項目前期投資等價值優(yōu)勢。另外,在企業(yè)的數(shù)字化轉(zhuǎn)型中,以金融和互聯(lián)網(wǎng)企業(yè)為代表,大量的應用系統(tǒng)逐漸遷移到分布式系統(tǒng)上,也就是通過海量的 PC 平臺來替代傳統(tǒng)的小型機。這么做帶來了高性價比、易擴展、自主可控等好處,但分布式系統(tǒng)架構(gòu)同時也帶來了服務器節(jié)點之間大量的網(wǎng)絡互通需求。以太網(wǎng)已經(jīng)成為云化分布式場景中的事實網(wǎng)絡標準: ?
以太網(wǎng)已具有很高的開放性,可以與各種云融合部署、可被云靈活調(diào)用管理。
以太網(wǎng)具有很好的擴展性、互通性、彈性、敏捷性和多租戶安全能力。
以太網(wǎng)可以滿足新業(yè)務超大帶寬的需求。
以太網(wǎng)從業(yè)人員多,用戶基礎好。
而傳統(tǒng)數(shù)據(jù)中心高性能計算使用的 IB 網(wǎng)絡,以及集中式存儲使用的 FC 網(wǎng)絡,生態(tài)封閉,資源割裂,演進緩慢,已無法匹配云化的發(fā)展訴求。根據(jù) IDC 數(shù)據(jù)顯示,近年來 FC 和 IB 市場逐步萎縮,數(shù)據(jù)中心的云化趨勢助長了對以太網(wǎng)的需求,以太網(wǎng)是當前以及未來主要的數(shù)據(jù)中心內(nèi)部網(wǎng)絡互聯(lián)技術。 ? 計算層面:CPU/GPU 出以太接口提升性能 ? 以人工智能為代表的一系列創(chuàng)新應用正在快速發(fā)展,而人工智能后臺算法依賴海量的樣本數(shù)據(jù)和高性能的計算能力。為了滿足海量數(shù)據(jù)訓練的大算力要求,一方面可以提升 CPU 單核性能,但是目前單核芯片工藝在 3nm 左右,且成本較高;另外一方面,可以疊加多核來提升算力,但隨著核數(shù)的增加,單位算力功耗也會顯著增長,且總算力并非線性增長。據(jù)測算,當 128 核增至 256 核時,總算力水平無法提升 1.2倍。 ?
隨著算力需求的不斷增長,從 P 級(PFLOPS,一秒 1015 次浮點運算)向 E 級 (EFLOPS,一秒 1018 次浮點運算)演進,計算集群的規(guī)模不斷擴大,對集群之間互聯(lián)的網(wǎng)絡性能要求也越來越高,這使得計算和網(wǎng)絡深度融合成為必然。 ? 在計算處理器上,傳統(tǒng)的 PCIe 的總線標準由于單通道傳輸帶寬有限,且通道擴展數(shù)量也有限,已經(jīng)無法滿足目前大吞吐高性能計算場景的要求。當前業(yè)界的主流是在計算處理器內(nèi)集成 RoCE(Remote Direct Memory Access over Converged Ethernet,基于融合以太的遠程內(nèi)存直接訪問協(xié)議)以太端口,從而讓數(shù)據(jù)通過標準以太網(wǎng)在傳輸速度和可擴展性上獲得了巨大的提升。
? 這里的 Remote Direct Memory Access(RDMA)是相對于 TCP 而言的,如下圖所示,在服務器內(nèi)部,傳統(tǒng)的 TCP 協(xié)議棧在接收/發(fā)送報文,以及對報文進行內(nèi)部處理時,會產(chǎn)生數(shù)十微秒的固定時延,這使得在 AI 數(shù)據(jù)運算這類微秒級系統(tǒng)中,TCP 協(xié)議棧時延成為最明顯的瓶頸。另外,隨著網(wǎng)絡規(guī)模的擴大和帶寬的提高,寶貴的 CPU 資源越來越地多被用于傳輸數(shù)據(jù)。 ?
? RDMA 允許應用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫,將服務器內(nèi)的數(shù)據(jù)傳輸時延降低到接近 1μs。同時,RDMA 允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大地減少了 CPU 的負擔。 ? 在 高 性 能 計 算 場 景 中 , 當 前 有 兩 種 主 流 方 案 來 承 載 RDMA :專用 IB(InfiniBand)網(wǎng)絡和以太網(wǎng)絡。然而,IB 網(wǎng)絡采用私有協(xié)議,架構(gòu)封閉,難以與現(xiàn)網(wǎng)大規(guī)模的 IP 網(wǎng)絡實現(xiàn)很好的兼容互通,同時 IB 網(wǎng)絡運維復雜,OPEX 居高不下。用以太網(wǎng)承載 RDMA 數(shù)據(jù)流,即上文提到的 RoCE,已應用在越來越多的高性能計算場景。
? 存儲層面:升級為全閃存 NVMe 接口 ? 新業(yè)務對海量數(shù)據(jù)的存儲和讀寫需求,催生了存儲介質(zhì)的革新,由 HDD(Hard Disk Drive,機械硬盤)快速向 SSD(Solid-State Drive,固態(tài)硬盤)切換,這帶來了存儲性能近 100?倍的提升。在此過程中,出現(xiàn)了 NVMe(Non-Volatile Memory express,非易失性內(nèi)存主機控制器接口規(guī)范)存儲協(xié)議,NVMe 極大提升了存儲系統(tǒng)內(nèi)部的存儲吞吐性能,降低了傳輸時延。 ? 相比而言,原來承載存儲業(yè)務的 FC 網(wǎng)絡,無論從帶寬還是時延上,均已經(jīng)成為當前存儲網(wǎng)絡的瓶頸。完成革新后的全新存儲系統(tǒng),需要一個更快、更高質(zhì)量的網(wǎng)絡。為此,存儲與網(wǎng)絡從架構(gòu)和協(xié)議層進行了深度重構(gòu),新一代存儲網(wǎng)絡技術 NVMe over Fabric(簡稱 NVMe-oF)應運而生。NVMe-oF 將 NVMe 協(xié)議應用到服務器主機前端,作為存儲陣列與前端主機連接的通道,可端到端取代 SAN 網(wǎng)絡中的 SCSI(Small Computer System Interface,小型計算機系統(tǒng)接口)協(xié)議。 ?
NVMe over Fabric 中的“Fabric”,是 NVMe 的承載網(wǎng)絡,這個網(wǎng)絡可以是FC、TCP 或 RMDA。? ?
對于 FC,其技術封閉、產(chǎn)業(yè)生態(tài)不及以太網(wǎng);產(chǎn)業(yè)規(guī)模有限,技術發(fā)展相對遲緩,帶寬不及以太網(wǎng);從業(yè)人員稀缺、運維成本高、故障排除效率低。
對于 TCP,在追求應用高性能的網(wǎng)絡大潮中,RDMA 替換 TCP 已成為大勢所趨。
對于 RDMA,主流技術是 RoCE(RDMA over Converged Ethernet),即 NVMe over RoCE,他是基于融合以太網(wǎng)的 RDMA 技術來承載 NVMe。
綜上所述,基于以太網(wǎng)的 RoCE 比 FC 性能更高(更高的帶寬、更低的時延),同時兼具 TCP 的優(yōu)勢(全以太化、全 IP 化),因此 NVMe over RoCE 作為新一代存儲網(wǎng)絡已經(jīng)脫穎而出,成為業(yè)界 NVMe-oF 的主流技術。 ? 網(wǎng)絡運維層面:部署與運維的全方位升級 ? 在數(shù)據(jù)中心網(wǎng)絡,當前存在幾個較為突出的問題與挑戰(zhàn): ?
管理難:數(shù)據(jù)中心網(wǎng)絡里常常存在多個廠商的不同設備,接口不統(tǒng)一,很難統(tǒng)一管控。
易出錯:新業(yè)務的下發(fā)或老業(yè)務的變更,工作流程復雜,往往涉及多部門聯(lián)動設計、調(diào)測,人工操作不僅效率低,而且容易出錯。
定位慢:如果發(fā)生異常,據(jù)統(tǒng)計,故障的定位平均時長達 76 分鐘,嚴重影響業(yè)務的連續(xù)性,給企業(yè)帶來損失。
這些都呼喚一個全新的數(shù)據(jù)中心網(wǎng)絡的到來。華為超融合數(shù)據(jù)中心網(wǎng)絡,在實現(xiàn)“三網(wǎng)合一”的基礎上,在開放性、業(yè)務部署、運維層面進行變革,全方位應對上述挑戰(zhàn)。 ?
編輯:黃飛
評論
查看更多