(文章來源:EEWORLD)
大規(guī)模部署、管理和編排計(jì)算加速芯片并不容易。相反,云提供商的經(jīng)濟(jì)權(quán)衡更傾向于加速器產(chǎn)品提供的非性能方面,比如操作系統(tǒng)驅(qū)動(dòng)程序。LiftrInsights在過去一年中一直在跟蹤四大基礎(chǔ)設(shè)施即服務(wù)(IaaS)云提供商提供的實(shí)例類型和大小:阿里云、亞馬遜云服務(wù)(AWS)、谷歌云平臺(tái)(GCP)和微軟Azure。
在最近的Linley會(huì)議上,KevinKrewell在他的演講中提到了編譯器專業(yè)知識(shí)的重要性。然而,應(yīng)用程序?qū)铀倨饔布母咝褂弥皇强缭频乩砉芾砗途幣偶铀倨?a target="_blank">芯片所需的整個(gè)軟件解決方案的一部分。
數(shù)據(jù)中心日益膨脹,運(yùn)營商正在尋找新方法來加速大量數(shù)據(jù)驅(qū)動(dòng)的工作負(fù)載,從深度學(xué)習(xí)到自然語言處理。在我們即將到來的數(shù)據(jù)中心特別項(xiàng)目中,我們將深入研究加速AI模型訓(xùn)練和推斷、數(shù)據(jù)分析和其他分布式應(yīng)用的敏捷和超聚合數(shù)據(jù)中心架構(gòu)。
在排名前四的云服務(wù)商中,所有的加速器芯片(無論類型或制造商)在過去的一年里都只連接到英特爾的Xeon處理器上,除了最近在微軟Azure上安裝了AMD的EPYC。Azure在今年2月率先打破了這一格局,首次生產(chǎn)部署了帶有AMD EPYC v2 Rome處理器的AMD Radeon Instinct MI25GPU。
超大規(guī)模的挑戰(zhàn)是對(duì)對(duì)不同處理器模型的軟件驅(qū)動(dòng)程序支持,所述不同處理器模型運(yùn)行不同的操作系統(tǒng)發(fā)行版本,且版本是針對(duì)每個(gè)加速器芯片的多個(gè)版本。阿里云平臺(tái)的ecs服務(wù)器大多使用intel 至強(qiáng)處理器,而且大多是定制版,包括Platinum(鉑金) 8163、Gold(金牌) 6150、Gold(金牌) 6149、E5-2682v4、E5-2680v3、E5-2667v4以及E3-1240v6等CPU。
阿里云正式發(fā)布云服務(wù)器ECS企業(yè)級(jí)產(chǎn)品家族,目前已推出面向173種企業(yè)應(yīng)用場(chǎng)景的19款實(shí)例。該系列適合在復(fù)雜的企業(yè)計(jì)算環(huán)境下,滿足對(duì)于高性能、高可靠的計(jì)算需求。同時(shí)阿里云也新發(fā)布了該系列產(chǎn)品中采用25G網(wǎng)絡(luò)與Skylake處理器的全新一代實(shí)例,性能持續(xù)領(lǐng)先。這是阿里云首次將云服務(wù)器產(chǎn)品線細(xì)分出企業(yè)級(jí)產(chǎn)品家族,與入門級(jí)產(chǎn)品家族相比,這一新家族實(shí)例具備更強(qiáng)的計(jì)算性能與可靠性,適合于核心生產(chǎn)業(yè)務(wù)需求的計(jì)算。
目前ECS企業(yè)級(jí)產(chǎn)品家族包含19款實(shí)例族,分為通用型(General Purpose Type)、計(jì)算性(Compute Type)、內(nèi)存型(Memory Type)、高主頻(High Frequency Compute Type)、本地SSD型(Local SSD Type)、大數(shù)據(jù)型(Big Data Network Enhancement Type)、GPU計(jì)算(GPU Compute Type)、FPGA計(jì)算(FPGA Compute Type)等類型,分別適用于包括AI、醫(yī)療、視頻直播、金融、電商、IoT在內(nèi)的173個(gè)應(yīng)用場(chǎng)景。
雖然編譯器和加速api必須是高性能,但是加速驅(qū)動(dòng)程序必須是穩(wěn)定可靠才行。超大規(guī)模的客戶希望看到bug修復(fù)、防彈質(zhì)量保證以及最重要的過程控制方面的快速轉(zhuǎn)變。在處理器市場(chǎng)中,可靠性、可用性和可服務(wù)性(RAS)一直是采用Arm處理器的最大障礙之一。加速器也不例外。確保驅(qū)動(dòng)程序RAS處于超大規(guī)模是一個(gè)與設(shè)計(jì)性能編譯器截然不同的技能集。它需要時(shí)間來發(fā)展技能和過程控制來展示一個(gè)穩(wěn)定的行為的歷史。
英偉達(dá)的86%的實(shí)例類型由前四個(gè)云服務(wù)商提供。這一份額與FPGA(英特爾和Xilinx)、GPU(AMD部分產(chǎn)品和最近的Radeon Instinct)以及云自身的內(nèi)部設(shè)計(jì)(谷歌云張量處理單元[TPU]和AWSInferentia)等高度分散的競(jìng)爭領(lǐng)域形成了鮮明對(duì)比。在這里,僅僅在加速器的開發(fā)工具后面使用性能編譯器是不夠的。我們假設(shè)每個(gè)加速器芯片開發(fā)團(tuán)隊(duì)都有機(jī)會(huì)接觸到相當(dāng)優(yōu)秀的編譯器開發(fā)人員和普通的開發(fā)人員工具設(shè)計(jì)人員。
開發(fā)工具必須能夠被大量的潛在客戶使用,并且必須按照開發(fā)人員所期望的那樣工作。Nvidia的CUDA為工具開發(fā)者提供了一個(gè)靈活的基礎(chǔ),使他們能夠跨Nvidia的GPU產(chǎn)品線支持各種各樣的開發(fā)工具。英偉達(dá)在加速器市場(chǎng)的份額在過去一年中略有增長,在前四大云計(jì)算中,基于加速器的整體部署增加了近70%。
Azure支持AMD的Radeon Instinct MI25在一個(gè)類型家族(NVasv4)中,但只在Windows上,類型家族的每個(gè)實(shí)例的部分GPU配置是典型的虛擬桌面環(huán)境。AMD已經(jīng)展示了對(duì)實(shí)際企業(yè)桌面環(huán)境的強(qiáng)大支持,其先進(jìn)的GPU虛擬化特性使其GPU在虛擬桌面方面具有競(jìng)爭力。
只有通過深度學(xué)習(xí)框架,才能使用內(nèi)部設(shè)計(jì)的深度學(xué)習(xí)加速器。谷歌允許開發(fā)人員通過TensorFlow和PyTorch訪問其云TPU。AWS允許開發(fā)人員通過自己的AWS神經(jīng)元軟件開發(fā)工具包(SDK)訪問它的“下一層”芯片,AWS已經(jīng)集成了TensorFlow、PyTorch和MXNet。
Azure提供了一個(gè)基于IntelArria10FPGA實(shí)例類型(PB)。但是Azure只允許通過一組預(yù)先開發(fā)的深度學(xué)習(xí)推斷模型來訪問這一類型:ResNet50、ResNet152、DenseNet-121、VGG-16和SSD-VGG。Azure在2019年11月將其FPGA實(shí)例類型部署到生產(chǎn)中。
阿里云和AWS提供通用FPGA實(shí)例類型,并與第三方合作,在應(yīng)用市場(chǎng)上提供FPGA開發(fā)工具和預(yù)先開發(fā)的應(yīng)用程序。有兩個(gè)挑戰(zhàn)。首先,F(xiàn)PGA開發(fā)技能很少,不像GPU開發(fā)工具和深度學(xué)習(xí)建??蚣?。其次,F(xiàn)PGA市場(chǎng)應(yīng)用程序必須比基于GPU的應(yīng)用程序顯示出明顯的優(yōu)勢(shì)。
芯片產(chǎn)業(yè)的摩爾定律想必大家都不陌生,通俗版的解釋是每18個(gè)月同等價(jià)格的芯片計(jì)算能力會(huì)翻倍。最近幾年在PC和移動(dòng)等個(gè)人芯片已滿足大多數(shù)計(jì)算需求時(shí),關(guān)于摩爾定律不再生效的論調(diào)也遍地都是。
實(shí)際上,傳統(tǒng)計(jì)算硬件還在發(fā)展,只是速率慢了。隨著大數(shù)據(jù)、人工智能的崛起,需要AI運(yùn)算處理的數(shù)據(jù),差不多每24個(gè)月就至少增長一倍,建構(gòu)模型的復(fù)雜度是原來的五倍,與之相關(guān),就需要計(jì)算能力強(qiáng)大十倍芯片能及時(shí)跟上,這一計(jì)算能力的提升,需要算法、軟件和硬件工藝相互配合共同來完成。
為了應(yīng)對(duì)量級(jí)增長的算力需求,百度發(fā)布了昆侖AI芯片,參數(shù)如下:14nm工藝;260Tops性能;512GB/s內(nèi)存帶寬;100+瓦特功耗。昆侖AI芯片具有高效、低成本和易用三大特征,其針對(duì)語音、NLP、圖像等專門優(yōu)化,同等性能下成本降低10倍,支持paddle等多個(gè)深度學(xué)習(xí)框架、編程靈活度高、靈活支持訓(xùn)練和預(yù)測(cè)。
在IaaS方面,在軟件即服務(wù)的云中,F(xiàn)acebook正在與開放計(jì)算平臺(tái)(OCP)加速器模塊工作組(OAM)合作,開發(fā)標(biāo)準(zhǔn)化的培訓(xùn)和推理平臺(tái)。OAM培訓(xùn)平臺(tái)被設(shè)計(jì)用來容納大范圍的高瓦數(shù)、商業(yè)深度學(xué)習(xí)加速器,使用一個(gè)可互換的模塊,集成了加速器芯片和散熱器,包括AMD、Intel/HabanaGraphcore和Nvidia加速器。同樣地,OAM推斷平臺(tái)被設(shè)計(jì)成在一個(gè)標(biāo)準(zhǔn)的M.2物理載體中容納各種各樣的小的低功率推斷加速器。
Facebook已經(jīng)設(shè)計(jì)了自己的Glow編譯器,以優(yōu)化在標(biāo)準(zhǔn)框架(如PyTorch)中開發(fā)的推斷模型,使之適用于每個(gè)特定的基于m2的推斷加速器。開放式基礎(chǔ)設(shè)施,如OCP的OAM,將使低層云能夠更好地與AWS、Azure、GCP和阿里云等巨頭正在激烈競(jìng)爭。
(責(zé)任編輯:fqj)
-
云服務(wù)
+關(guān)注
關(guān)注
0文章
823瀏覽量
38933 -
云技術(shù)
+關(guān)注
關(guān)注
1文章
189瀏覽量
18839
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論