電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)6月13日,在2022阿里云峰會(huì)上,阿里云智能總裁、阿里巴巴達(dá)摩院院長張建鋒表示,阿里云今年最重要策略是“Back to Basic”,回到云計(jì)算的本質(zhì),堅(jiān)持技術(shù)長征。
阿里云智能總裁、阿里巴巴達(dá)摩院院長張建鋒
圖源:阿里云
圍繞這一核心主題,張建鋒詳細(xì)介紹阿里云新一代云數(shù)據(jù)中心處理器CIPU,以及與其相關(guān)聯(lián)的飛天操作系統(tǒng)、神龍計(jì)算層架構(gòu)等等。
圖源:阿里云
專為云數(shù)據(jù)中心打造的CIPU
從CIPU的名字來看,大家都有一種很熟悉的感覺,因?yàn)樗吞幚砥?a target="_blank">CPU僅僅只有一個(gè)字母“I”的差別。但實(shí)際上,CIPU和CPU有明顯的不同,CIPU是Cloud Infrastructure Processing Units的簡稱,中文釋義為云基礎(chǔ)設(shè)施處理器,是為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器。
當(dāng)然,CIPU和CPU也有一層深層的關(guān)系,CIPU在云數(shù)據(jù)中心領(lǐng)域是CPU的替代者,成為新的算力引擎。
我們先看一下CIPU提出的背景,傳統(tǒng)數(shù)據(jù)中心以CPU為核心進(jìn)行打造,經(jīng)過歷年來的不斷優(yōu)化,這種方式已經(jīng)觸及到了天花板,在性能、功耗和時(shí)延等方面有著明顯的瓶頸限制。與此同時(shí),數(shù)據(jù)中心在需求端的明顯變化進(jìn)一步放大了這一短板,數(shù)據(jù)密集型的計(jì)算需求不斷涌現(xiàn),低時(shí)延和高帶寬都是必要的參數(shù)配置,而滿足這些需求的前提是更加低碳環(huán)保。
此外,目前全球都在規(guī)模性部署超大型數(shù)據(jù)中心。根據(jù)市場調(diào)研公司Synergy Research Group的數(shù)據(jù)分析,目前全球擁有314個(gè)超大型數(shù)據(jù)中心,未來3年的時(shí)間內(nèi)將增加到1000個(gè)。張建鋒指出,基于CPU為中心的架構(gòu)無法解決超大規(guī)模的復(fù)雜管理問題。
作為CPU在云數(shù)據(jù)中心領(lǐng)域的繼任者,張建鋒介紹稱CIPU主要有以下幾點(diǎn)重要特性:
?網(wǎng)絡(luò):對(duì)高帶寬物理網(wǎng)絡(luò)進(jìn)行硬件加速,通過建設(shè)大規(guī)模的eRDMA分布式高性能網(wǎng)絡(luò),實(shí)現(xiàn)RDMA技術(shù)的普惠化;
?存儲(chǔ):對(duì)存算分離架構(gòu)的塊存儲(chǔ)接入進(jìn)行硬件加速,提供超高性能的云盤;
?計(jì)算:快速接入不同類型資源的神龍計(jì)算平臺(tái),帶來算力的“0”損耗,以及硬件級(jí)安全的加固隔離。
上面更多是質(zhì)變的描述,我們看一下量變的情況。根據(jù)張建鋒的介紹,CIPU在主流通用計(jì)算場景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%;大數(shù)據(jù)和AI 場景下,AI深度學(xué)習(xí)場景訓(xùn)練性能提升30%,Spark計(jì)算性能提升30%。
在存儲(chǔ)方面,CIPU存儲(chǔ)時(shí)延最低可至30us(PLX),IOPS高達(dá)300萬,存儲(chǔ)帶寬可達(dá)200 Gbps,全面超越市面上所有云產(chǎn)品。
在網(wǎng)路傳輸方面,CIPU基礎(chǔ)帶寬從100G升級(jí)至200G,VPC的PPS轉(zhuǎn)發(fā)性能從2000萬提升至4000萬,網(wǎng)絡(luò)時(shí)延從22us降低至16us,RDMA協(xié)議下更可低至5.5us。
阿里云CIPU性能參數(shù),圖源:阿里云
更需要特別指出的是,CIPU并不是一個(gè)獨(dú)立的高性能硬件,而是一個(gè)硬件基礎(chǔ),它可對(duì)計(jì)算資源進(jìn)行云化加速,并可部署飛天操作系統(tǒng)對(duì)云資源進(jìn)行管控。和阿里云當(dāng)前的飛天架構(gòu)和神龍架構(gòu)結(jié)合,都能夠迸發(fā)出1+1大于2的效果。
阿里云的軟硬件一體化布局
當(dāng)前,全球數(shù)據(jù)中心的發(fā)展已經(jīng)步入新階段,數(shù)據(jù)中心的構(gòu)建和對(duì)算力的需求都發(fā)生了巨大的變化,傳統(tǒng)通用處理器已經(jīng)越來越難以滿足這些情況變化。我們看到,不僅僅是阿里云,各個(gè)大型數(shù)據(jù)中心運(yùn)營商都在致力于自研專用處理器,配合自家的架構(gòu)體系,以求在功耗、時(shí)延和性能等方面打造最佳的平衡。
近幾年阿里云在軟硬件方面持續(xù)投入,收獲頗豐,并逐漸實(shí)現(xiàn)自家軟硬件的深度融合。
回顧2021阿里云峰會(huì),阿里云宣布,飛天操作系統(tǒng)正在全面兼容X86、ARM、RISC-V等多種芯片架構(gòu),實(shí)現(xiàn)“一云多芯”。按照阿里云的描述,“一云多芯”的實(shí)現(xiàn)讓阿里云成為全球支持CPU種類最多的云廠商。
隨后2021阿里云棲大會(huì)上,阿里云又發(fā)布首款通用芯片倚天710,采用最新ARMv9架構(gòu),多達(dá)128核,主頻最高3.2GHz,可同時(shí)兼顧性能和功耗,適配云的不同應(yīng)用場景。2022年4月,基于倚天710的公共云 ECS實(shí)例已上線邀測。硬件方面,阿里云還在去年發(fā)布了自研的磐久服務(wù)器。
而為了能夠最大化釋放這些硬件的潛能,阿里云在云數(shù)據(jù)中心部署各個(gè)關(guān)鍵節(jié)點(diǎn)都發(fā)布了自研的基礎(chǔ)架構(gòu)和核心平臺(tái)。為解決服務(wù)器長久以來的虛擬化性能損耗的問題,阿里云在計(jì)算層推出了自研的神龍架構(gòu),神龍與CIPU結(jié)合,可將虛擬化轉(zhuǎn)移到專用硬件中進(jìn)行加速,可將物理機(jī)的高性能與虛擬機(jī)的靈活性融為一體,虛擬化損耗幾乎為零,并帶來更強(qiáng)勁的性能表現(xiàn);為提升存儲(chǔ)傳輸速度、安全防護(hù)和容災(zāi)能力等,阿里云在存儲(chǔ)層推出了自研的盤古架構(gòu),是阿里云底層的統(tǒng)一存儲(chǔ)架構(gòu),采用了分布式系統(tǒng)先進(jìn)的容錯(cuò)架構(gòu)和柔性平臺(tái)設(shè)計(jì),具備彈性伸縮、自動(dòng)負(fù)載均衡等能力,大幅提高了存儲(chǔ)系統(tǒng)的可靠性和安全性,可支持塊存儲(chǔ)、對(duì)象存儲(chǔ)、表格存儲(chǔ)、文件存儲(chǔ)、離線大數(shù)據(jù)處理等多種存儲(chǔ)模式;為了實(shí)現(xiàn)“讓網(wǎng)絡(luò)更簡單”的理念,阿里云推出自研的洛神核心技術(shù)平臺(tái),支撐起百萬級(jí)的用戶業(yè)務(wù)部署,讓更多能夠人體驗(yàn)到云計(jì)算帶來的高效便捷服務(wù),2021云棲大會(huì)上,阿里云更新推出了洛神云網(wǎng)絡(luò)3.0新平臺(tái)架構(gòu)。
在軟硬件如此多元化和大范圍的投入,阿里云的目的是在提供更好算力支持的情況下,打造更加綠色的數(shù)據(jù)中心。根據(jù)Supermicro發(fā)布的《數(shù)據(jù)中心與環(huán)境2021綠色數(shù)據(jù)中心現(xiàn)狀分析報(bào)告》,目前全球數(shù)據(jù)中心已占全球發(fā)電總量近3%,預(yù)計(jì)到2030年將快速增加到8%,也有可能接近一成。
張建鋒表示,阿里云是國內(nèi)最早實(shí)踐綠色數(shù)據(jù)中心的廠商之一,目前阿里云自建的數(shù)據(jù)中心都已達(dá)到國家綠色數(shù)據(jù)中心標(biāo)準(zhǔn),全年平均PUE小于1.3。
-
云計(jì)算
+關(guān)注
關(guān)注
39文章
7800瀏覽量
137402 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4778瀏覽量
72126 -
阿里云
+關(guān)注
關(guān)注
3文章
956瀏覽量
43039
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論