0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中心解耦架構(gòu)的技術(shù)路線解析

架構(gòu)師技術(shù)聯(lián)盟 ? 來(lái)源:架構(gòu)師技術(shù)聯(lián)盟 ? 2023-10-09 10:18 ? 次閱讀

隨著網(wǎng)絡(luò)與硬件技術(shù)地快速發(fā)展,資源解耦架構(gòu)因其資源利用率高、硬件拓展性好等諸多優(yōu)勢(shì),成為了未來(lái)數(shù)據(jù)中心的主要發(fā)展方向之一,從資源管理的角度出發(fā),目前的方案主要分為三個(gè)技術(shù)路線,包括“以CPU為中心”、“以內(nèi)存為中心”和“資源去中心化”。

第七屆未來(lái)網(wǎng)絡(luò)發(fā)展大會(huì)發(fā)布《算網(wǎng)操作系統(tǒng)白皮書(shū)》、《光電融合服務(wù)定制廣域網(wǎng)》、《以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心》白皮書(shū),本文選自"以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心"。。

以內(nèi)存為中心

在“以內(nèi)存為中心”的技術(shù)路線下,內(nèi)存管理功能從傳統(tǒng)操作系統(tǒng)中分離出來(lái),并運(yùn)行在內(nèi)存?zhèn)?,以便?shí)現(xiàn)內(nèi)存的獨(dú)立拓展和異構(gòu)計(jì)算單元對(duì)內(nèi)存的共享訪問(wèn),進(jìn)而實(shí)現(xiàn)更高效的數(shù)據(jù)處理和計(jì)算。例如,內(nèi)存池化后可預(yù)處理內(nèi)存分配和回收,進(jìn)而提高內(nèi)存的利用效率和性能;內(nèi)存共享后可以減少計(jì)算核心之間的數(shù)據(jù)搬移次數(shù),從而加速計(jì)算任務(wù)的完成;大內(nèi)存消除了數(shù)據(jù)的換出換入開(kāi)銷等。在此技術(shù)路線上,目前的實(shí)現(xiàn)方案有HP The Machine、天蝎項(xiàng)目和NetDAM等。

1、HP The Machine

惠普在2016年的倫敦發(fā)布會(huì)上推出了“以內(nèi)存為中心”的新型計(jì)算機(jī)原型機(jī)——The Machine。如圖2-10所示,與傳統(tǒng)計(jì)算機(jī)相比,The Machine[12]架構(gòu)主要有以下幾個(gè)關(guān)鍵技術(shù),包括系統(tǒng)級(jí)芯片(SoC)、統(tǒng)一存儲(chǔ)、內(nèi)存池化共享和全光通信。

fd60d4da-6637-11ee-939d-92fbcf53809c.png

首先,The Machine采用了經(jīng)過(guò)能效和算法優(yōu)化的SoC,是TheMachine的核心組成,旨在支撐高度可擴(kuò)展、節(jié)能且安全的系統(tǒng),主要由FAM(Fabric-attached Memory)芯片、I/O端口、網(wǎng)絡(luò)相關(guān)組件等構(gòu)成。其中,F(xiàn)AM芯片的主要功能是連接傳統(tǒng)計(jì)算核心與遠(yuǎn)端內(nèi)存池,同時(shí)減少對(duì)數(shù)據(jù)移動(dòng)的需求。

此外,該SoC還提供安全特性,如硬件強(qiáng)制隔離等。其次,The Machine中的存儲(chǔ)是統(tǒng)一的。具體來(lái)說(shuō),原來(lái)由RAM和硬盤(pán)/閃存承擔(dān)的存儲(chǔ)任務(wù)(RAM負(fù)責(zé)臨時(shí)存儲(chǔ),硬盤(pán)/閃存負(fù)責(zé)長(zhǎng)期存儲(chǔ))全部由NVM完成。在傳統(tǒng)的分層存儲(chǔ)架構(gòu)下,數(shù)據(jù)需要在兩種存儲(chǔ)(RAM與硬盤(pán)/閃存)之間來(lái)回交換,這既影響性能又增加能耗。

2、天蝎項(xiàng)目

在國(guó)內(nèi)的服務(wù)器市場(chǎng),BAT三家互聯(lián)網(wǎng)公司在2011年聯(lián)合成立了天蝎聯(lián)盟。于2014年8月,天蝎聯(lián)盟正式升級(jí)為開(kāi)放數(shù)據(jù)中心委員會(huì)(ODCC)。如圖2-11所示,天蝎計(jì)劃[13]發(fā)展至今,已演進(jìn)至3.0版本。

fd7d5916-6637-11ee-939d-92fbcf53809c.png

天蝎1.0確立了集中供電、集中風(fēng)扇(散熱)、集中管理的天蝎整機(jī)柜服務(wù)器基本形態(tài)。機(jī)柜模塊作為整機(jī)柜服務(wù)器的“外殼”,中間4U空間用于部署集中供電模塊(Power Supply Unit,PSU)、集中管理模塊以及網(wǎng)絡(luò)模塊(交換機(jī))。

為了更好的協(xié)調(diào)組織活動(dòng),擴(kuò)大天蝎整機(jī)柜服務(wù)器的適用范圍,ODCC發(fā)布了天蝎2.0規(guī)范,主要包括機(jī)柜的尺寸、機(jī)柜背板和頂部功能、風(fēng)扇尺寸、服務(wù)器節(jié)點(diǎn)與機(jī)柜系統(tǒng)解耦等。此外,基于中國(guó)數(shù)據(jù)中心行業(yè)的基本情況,天蝎2.0規(guī)范還對(duì)環(huán)境(溫濕度)及機(jī)房提出了高度、供電和承重等方面的要求。

天蝎3.0旨在打破1U/2U服務(wù)器節(jié)點(diǎn)的限制,解除計(jì)算和存儲(chǔ)資源在小空間里的耦合,在機(jī)柜級(jí)的大空間里再耦合。CPU、內(nèi)存、閃存、硬盤(pán)等同類資源物理上聚集在一起,形成不同種類的資源池。從外部看,整機(jī)柜服務(wù)器是一個(gè)整體,但其內(nèi)部的資源是可以分割的,不同類型、數(shù)量的資源自由組合為不同配置的“邏輯”服務(wù)器,必要時(shí)還可以更改配置或打散重組,提高資源利用率,進(jìn)一步降低能耗。

3、NetDAM

NetDAM主要思想是將內(nèi)存直接掛載到以太網(wǎng)控制器上,并提供大量的ALU和可編程邏輯,旨在提供高效的內(nèi)存池化、存內(nèi)計(jì)算(In-Memory Computing)以及在網(wǎng)計(jì)算(In-Network Computing)的新范式。

fd9867ba-6637-11ee-939d-92fbcf53809c.png

從NetDAM的功能構(gòu)成來(lái)看,其通過(guò)內(nèi)存共享以及對(duì)存內(nèi)計(jì)算和在網(wǎng)計(jì)算的指令級(jí)支持,實(shí)現(xiàn)主機(jī)內(nèi)和主機(jī)間協(xié)議的橋接。具體來(lái)說(shuō),NetDAM采用以太網(wǎng)IP/UDP來(lái)傳輸NetDAM數(shù)據(jù),主要通過(guò)以下四個(gè)技術(shù)點(diǎn)來(lái)保證低時(shí)延和大帶寬:

1)確定性時(shí)延:NetDAM通過(guò)消除PCIe DMA和跳過(guò)緩存一致性嗅探來(lái)固定了數(shù)據(jù)包處理流水線,從而實(shí)現(xiàn)數(shù)據(jù)包在確定時(shí)延內(nèi)得到回復(fù);

2)可選的可靠性傳輸:該設(shè)計(jì)主要出于以下兩點(diǎn)考慮,一是具有虛擬化或容器覆蓋支持的無(wú)損以太網(wǎng)將帶來(lái)大量開(kāi)銷,二是很多分布式應(yīng)用可以設(shè)計(jì)冪等接口,簡(jiǎn)單地重傳并不影響結(jié)果;

3)可選的排序:交換操作運(yùn)行亂序執(zhí)行,因?yàn)槊總€(gè)數(shù)據(jù)包中都有內(nèi)存地址字段來(lái)隔離操作內(nèi)存空間,同時(shí)每個(gè)數(shù)據(jù)包中也有序列號(hào)字段以支持用戶在編程邏輯中增加可選的重排序模塊;

4)多徑傳輸:為了使數(shù)據(jù)傳輸與網(wǎng)絡(luò)拓?fù)錈o(wú)關(guān),NetDAM在UDP數(shù)據(jù)包內(nèi)加入段路由頭,因此源節(jié)點(diǎn)可以選擇專用路徑,避免交換機(jī)緩沖區(qū)溢出,充分利用網(wǎng)絡(luò)帶寬。

fda78fec-6637-11ee-939d-92fbcf53809c.png

NetDAM實(shí)現(xiàn)的存算資源互聯(lián)系統(tǒng),CPU、DSA、存儲(chǔ)等資源可以通過(guò)AXI、CHI或PCIe/CXL等總線直連到NetDAM,不同NetDAM之間通過(guò)以太網(wǎng)互聯(lián),NetDAM上的內(nèi)存資源形成共享池。

資源去中心化

在“以CPU為中心”的技術(shù)路線下,所有存算資源的管理和使用邏輯都運(yùn)行在CPU上,并通過(guò)訪問(wèn)遠(yuǎn)端資源的方式使用解耦的其他存算資源。此技術(shù)路線不僅使CPU成為故障中心,還會(huì)因遠(yuǎn)端資源管理引入大量的帶寬和時(shí)延開(kāi)銷,特別在大規(guī)模部署的資源解耦數(shù)據(jù)中心中這一問(wèn)題尤為顯著。

“以內(nèi)存為中心”的技術(shù)路線是將傳統(tǒng)OS中的內(nèi)存管理功能遷移至內(nèi)存?zhèn)?,使得?nèi)存資源可按需獨(dú)立拓展,同時(shí)實(shí)現(xiàn)不同類型的計(jì)算核心對(duì)內(nèi)存資源的共享使用。該技術(shù)路線雖然減少了內(nèi)存管理的開(kāi)銷,但除內(nèi)存外的其他資源(如外存等)還由CPU來(lái)進(jìn)行管理和調(diào)度,仍存在“以CPU為中心”技術(shù)路線的局限性。

總的來(lái)說(shuō),以上兩種技術(shù)路線,本質(zhì)上仍是都是以某種資源為中心的管理邏輯,此邏輯使得其他資源仍受制于某類資源,進(jìn)而無(wú)法充分發(fā)揮解耦資源的使用效率,并在可拓展性和彈性方面仍存在不足,因此,“資源去中心化”的理念被提出,數(shù)據(jù)中心中的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等資源都被視為獨(dú)立的服務(wù),不同資源的拓展和使用均不存在依賴關(guān)系。

在“資源去中心化”的技術(shù)路線下,傳統(tǒng)OS被徹底解耦,使不同資源的管理功能位于相應(yīng)的資源側(cè),彼此之間通過(guò)消息傳遞的方式進(jìn)行通信和協(xié)作,真正實(shí)現(xiàn)所有資源的高可按需拓展和高彈性使用。

具體來(lái)說(shuō),“資源去中心化”包含拆分內(nèi)核功能、將管理模塊運(yùn)行在相應(yīng)資源的控制器上、用網(wǎng)絡(luò)消息代替一致性。

目前來(lái)說(shuō),“資源去中心化”的具體實(shí)現(xiàn)仍處于探究完善階段,如LegoOS,但它的設(shè)計(jì)理念對(duì)資源解耦數(shù)據(jù)中心的資源管理與使用邏輯設(shè)計(jì)有著重要的啟示和參考價(jià)值,可充分發(fā)揮資源解耦架構(gòu)下資源的可拓展性和使用彈性。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    40

    文章

    5427

    瀏覽量

    171791
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10870

    瀏覽量

    211901
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4785

    瀏覽量

    72152
  • 解耦
    +關(guān)注

    關(guān)注

    0

    文章

    40

    瀏覽量

    11905
  • 存內(nèi)計(jì)算
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    1381

原文標(biāo)題:數(shù)據(jù)中心解耦架構(gòu)技術(shù)路線(下)

文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    銳捷網(wǎng)絡(luò)中標(biāo)中國(guó)聯(lián)通數(shù)據(jù)中心集采項(xiàng)目

    等方面的優(yōu)異表現(xiàn)密不可分。  作為三大運(yùn)營(yíng)商數(shù)通產(chǎn)品的主流供應(yīng)商,銳捷網(wǎng)絡(luò)持續(xù)跟進(jìn)運(yùn)營(yíng)商數(shù)據(jù)中心的建設(shè)需求,以及產(chǎn)品技術(shù)的演進(jìn)路線。同時(shí),銳捷網(wǎng)絡(luò)數(shù)據(jù)中心交換機(jī)產(chǎn)品在國(guó)內(nèi)市場(chǎng)經(jīng)過(guò)多年磨
    發(fā)表于 01-24 10:14

    網(wǎng)絡(luò)發(fā)展怎么改變企業(yè)數(shù)據(jù)中心的面貌的

    云和網(wǎng)絡(luò)規(guī)模提供商已經(jīng)實(shí)施了軟件定義存儲(chǔ)、融合架構(gòu)和超融合架構(gòu)。以太網(wǎng)存儲(chǔ)結(jié)構(gòu)(ESF)技術(shù)已經(jīng)成為數(shù)據(jù)中心轉(zhuǎn)型不可或缺的一部分,使那些具有前瞻性思維的企業(yè)級(jí)存儲(chǔ)
    發(fā)表于 08-16 15:08

    2019北京國(guó)際數(shù)據(jù)中心技術(shù)設(shè)備展覽會(huì)

    數(shù)據(jù)中心展,據(jù)中心技術(shù)展,據(jù)中心設(shè)備展,北京數(shù)據(jù)中心展,北京據(jù)中心
    發(fā)表于 09-06 17:09

    會(huì)議預(yù)告-2019北京國(guó)際數(shù)據(jù)中心技術(shù)設(shè)備展覽會(huì)

    數(shù)據(jù)中心展,據(jù)中心技術(shù)展,據(jù)中心設(shè)備展,北京數(shù)據(jù)中心展,北京據(jù)中心
    發(fā)表于 09-11 17:17

    數(shù)據(jù)中心的建設(shè)也看重風(fēng)水

    相比中國(guó)傳統(tǒng)的風(fēng)水理論,數(shù)據(jù)中心所看重的風(fēng)水則更加貼合實(shí)際。以整體架構(gòu)來(lái)劃分,目前的主流的數(shù)據(jù)中心已經(jīng)進(jìn)入第三代,并開(kāi)始向第四代演進(jìn)。第一代和第二代數(shù)據(jù)中心分別誕生于20世紀(jì)40和70
    發(fā)表于 08-07 06:22

    技術(shù)引導(dǎo)數(shù)據(jù)中心向板上光通信聚攏

    將部分取代可插拔光模塊占據(jù)數(shù)據(jù)中心主要應(yīng)用市場(chǎng)。50G PAM4是一項(xiàng)可信的技術(shù),但是100G PAM4 DSP目前還不行50G PAM4是一項(xiàng)可信的技術(shù)。100G PAM4 DSP目前還不行。人們期待一
    發(fā)表于 10-26 16:47

    40G數(shù)據(jù)中心之銅纜布線

    助于從成本和技術(shù)的角度去更好地管理基礎(chǔ)設(shè)施?! ?0G數(shù)據(jù)中心銅纜布線的劣勢(shì)  當(dāng)前的40G以太網(wǎng)銅纜解決方案限制了其部署架構(gòu)。40G QSFP+高速線纜組件的傳輸距離可達(dá)5-7m。因此,QSFP+高速
    發(fā)表于 11-18 15:00

    2020第十二屆北京國(guó)際數(shù)據(jù)中心技術(shù)設(shè)備展覽會(huì)

    2020第十二屆北京國(guó)際數(shù)據(jù)中心技術(shù)設(shè)備展覽會(huì)2020 the 12th beijing international data center technology equipment
    發(fā)表于 01-03 10:28

    未來(lái)數(shù)據(jù)中心與光模塊發(fā)展假設(shè)

    向云計(jì)算的轉(zhuǎn)變正在成為許多組織的共同特征,但所有這些組織都希望對(duì)自己信息保持控制。為了使組織能夠利用其私有云基礎(chǔ)架構(gòu),它們將不得不部署數(shù)據(jù)中心。在IDC的調(diào)查中發(fā)現(xiàn),在云上花費(fèi)的總金額中有超過(guò)28%都
    發(fā)表于 08-07 10:27

    Intel公布2021年CPU架構(gòu)路線圖及封裝技術(shù)

    在Intel舉辦的架構(gòu)日活動(dòng)上,Intel公布2021年CPU架構(gòu)路線圖、下一代核心顯卡、圖形業(yè)務(wù)的未來(lái)、全新3D封裝技術(shù),甚至部分2019年處理器新
    發(fā)表于 11-02 07:47

    數(shù)據(jù)中心太耗電怎么辦

    ??????摘要:其實(shí)對(duì)于節(jié)能,傳統(tǒng)技術(shù)也是做了“十二分”的努力。但是在技術(shù)不斷演進(jìn)的情況下,傳統(tǒng)節(jié)能技術(shù)還是存在問(wèn)題,如何破?本文分享自華為云社區(qū)《數(shù)據(jù)中心節(jié)能?來(lái)試試華為NAIE
    發(fā)表于 06-30 06:27

    數(shù)據(jù)中心是什么

    數(shù)據(jù)中心是什么:數(shù)據(jù)中心是全球協(xié)作的特定設(shè)備網(wǎng)絡(luò),用來(lái)在因特網(wǎng)絡(luò)基礎(chǔ)設(shè)施上傳遞、加速、展示、計(jì)算、存儲(chǔ)數(shù)據(jù)信息。數(shù)據(jù)中心大部分電子元件都是由低直流電源驅(qū)動(dòng)運(yùn)行的。
    發(fā)表于 07-12 07:10

    如何去提高數(shù)據(jù)中心的運(yùn)營(yíng)效率呢

    現(xiàn)如今,盡管IT業(yè)界的各種新興技術(shù)可能正發(fā)生著各種突飛猛進(jìn)的快速變化,但每家數(shù)據(jù)中心仍然需要依賴電力資源的消耗來(lái)維持其運(yùn)行能力。故而,數(shù)據(jù)中心運(yùn)營(yíng)商們?nèi)匀恍枰ㄟ^(guò)更新電源使用、冷卻和電氣設(shè)計(jì)方案,來(lái)
    發(fā)表于 09-09 06:14

    什么是數(shù)據(jù)中心

    數(shù)據(jù)中心是企業(yè)用來(lái)容納其關(guān)鍵業(yè)務(wù)應(yīng)用程序和信息的物理設(shè)施。隨著它們的發(fā)展,重要的是要長(zhǎng)期考慮如何保持它們的可靠性和安全性。什么是數(shù)據(jù)中心數(shù)據(jù)中心通常被稱為單個(gè)事物,但實(shí)際上它們由許多技...
    發(fā)表于 09-15 06:46

    簡(jiǎn)述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽ˋI)的需求不斷增長(zhǎng),數(shù)據(jù)中心作為AI計(jì)算的重要基礎(chǔ)設(shè)施,其網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。
    的頭像 發(fā)表于 10-22 16:23 ?303次閱讀