0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘FACEBOOK未來的機(jī)器學(xué)習(xí)平臺

jmiy_worldofai ? 來源:lp ? 2019-03-26 09:25 ? 次閱讀

粗看上去,世界上的超大規(guī)模用戶和云構(gòu)建商制造的東西通??瓷先ズ透杏X上去都像超級計算機(jī),但如果你仔細(xì)觀察,就常會看到一些相當(dāng)大的差異。差異之一是,他們的機(jī)器并不是為了實(shí)現(xiàn)最高性能而不惜一切代價去設(shè)計,而是在性能和成本之間實(shí)現(xiàn)了最佳平衡。

簡而言之,這就是為什么社交網(wǎng)絡(luò)巨頭Facebook(世界上最大的人工智能用戶之一)大量訂購英偉達(dá)的HGX-1和HGX-2系統(tǒng)用于機(jī)器學(xué)習(xí)訓(xùn)練,然后就到此為止了。(HGX-1和HGX-2系統(tǒng)是GPU加速器制造商英偉達(dá)的DGX系列的超大規(guī)模用戶版本。)

這并不是巧合,為什么微軟、谷歌、亞馬遜網(wǎng)絡(luò)服務(wù)、阿里巴巴、騰訊、百度,以及中國第四大巨頭(中國移動或京東)同樣設(shè)計自己的服務(wù)器,或是使用Facebook在2011年創(chuàng)建的開放計算項(xiàng)目(OCP)中的設(shè)計,或是在OCP啟動六個月后由阿里巴巴、百度和騰訊發(fā)起了天蝎計劃項(xiàng)目。在某些情況下,他們甚至設(shè)計自己的ASIC或在FPGA上運(yùn)行專門用于機(jī)器學(xué)習(xí)的算法。

公平地說,F(xiàn)acebook確實(shí)在2017年6月安裝了英偉達(dá)DGX-1 CPU-GPU混合系統(tǒng)的半定制實(shí)現(xiàn),該系統(tǒng)有124個節(jié)點(diǎn),峰值雙精度性能為4.9 petaflops,在HPC常用的Linpack并行Fortran基準(zhǔn)測試中的評價為3.31petaflops。但這是個例外,不是常規(guī)。

但是,F(xiàn)acebook喜歡設(shè)計自己的硬件,然后將其開源,試圖圍繞這些設(shè)計構(gòu)建一個生態(tài)系統(tǒng),以降低工程和制造成本,并降低供應(yīng)鏈風(fēng)險,因?yàn)樵絹碓蕉嗟?a target="_blank">公司進(jìn)入了開放計算領(lǐng)域。這與微軟幾年前加入OCP并將一系列完全不同的開源基礎(chǔ)設(shè)施設(shè)計(從服務(wù)器到存儲到交換)拋入OCP生態(tài)系統(tǒng)的原因相同。這增加了創(chuàng)新,但也導(dǎo)致了供應(yīng)鏈分叉。

在本周于圣何塞舉行的OCP全球峰會上,F(xiàn)acebook展示了針對機(jī)器學(xué)習(xí)訓(xùn)練和基礎(chǔ)設(shè)施的未來系統(tǒng)設(shè)計,讓世界有機(jī)會看到針對現(xiàn)代數(shù)據(jù)中心的這兩個日益重要的工作負(fù)載的成本優(yōu)化設(shè)備的至少一個潛在的未來。這些設(shè)計非常有趣,表明Facebook熱衷于創(chuàng)建能夠容納盡可能多的供應(yīng)商的不同類型計算的系統(tǒng),再次降低成本和供應(yīng)鏈風(fēng)險。

不是基本訓(xùn)練

第一臺新機(jī)器代號為“Zion”,它的目標(biāo)是Facebook上的機(jī)器學(xué)習(xí)訓(xùn)練工作負(fù)載。Zion系統(tǒng)由兩個不同的子系統(tǒng)組成,就像英偉達(dá)的DGX-1和微軟的HGX-1,也包括DGX-2和HGX-2,以及ODM和OEM廠商為客戶制造的各種等價產(chǎn)品。 Zion系統(tǒng)是兩年前Facebook在OCP峰會上與微軟的HGX-1一起發(fā)布的“Big Basin”ceepie-geepie系統(tǒng)的繼承者,這兩個系統(tǒng)的設(shè)計都為OCP做出了貢獻(xiàn)。Big Basin機(jī)器的主機(jī)支持多達(dá)8個英偉達(dá)的“Pascal”GP100或“Volta”GV100 GPU加速器,以及兩個英特爾Xeon CPU。巧妙之處在于CPU計算和GPU計算是分開的,分別位于不同的主板和不同的機(jī)箱中,因此它們可以單獨(dú)升級。具體取決于品牌和型號。

Big Basin是對其前身“Big Sur”的徹底改進(jìn),后者是一款密度較低的設(shè)計,基于單個主板,配備兩個Xeon CPU和多達(dá)8個PCI-Express Nvidia Tesla加速器(M40或K80是最受歡迎的)。Big Sur于2015年12月曝光。Facebook在談到設(shè)計時表示,開發(fā)工作已經(jīng)基本完成,還沒有投入生產(chǎn),這意味著Zion機(jī)器還沒有投入生產(chǎn),但很快就會問世。(我們在2018年1月討論了Facebook不斷演變的AI工作負(fù)載,以及運(yùn)行這些工作負(fù)載的機(jī)器。)Zion機(jī)器的變化顯示了Facebook在混合CPU-GPU機(jī)器上的想法的變遷,這些想法是我們許多人都想不到的。

Zion機(jī)器的兩個子系統(tǒng)被稱為“Emerald Pools”和“Angels Landing”,分別指的是GPU和CPU子系統(tǒng)。盡管facebook多年來一直表示,其服務(wù)器設(shè)計的目的是允許選擇處理器或加速器,但在這個例子中,facebook和微軟合作提出了一種獨(dú)特的封裝和主板插接方法,稱為OCP加速器模塊(簡稱OAM),該方法允許使用具有不同插座和熱量的加速器,可以選擇250瓦至350瓦不等的風(fēng)冷,未來則可以選擇高達(dá)700瓦的水冷,但就硬件形式而言,所有這些都一致部署在這些加速系統(tǒng)中。

超大規(guī)模用戶谷歌、阿里巴巴和騰訊將與Facebook和微軟一起推廣OAM封裝,芯片制造AMD、英特爾、Xilinx、Habana、高通和Graphcore也是如此。系統(tǒng)制造商IBM、聯(lián)想、浪潮、廣達(dá)電腦、企鵝計算、華為技術(shù)、WiWynn、Molex和BittWare也都支持OAM。毫無疑問,其它公司也將效仿它們的芯片和系統(tǒng)——惠普和戴爾顯然是缺席的OEM,而富士康和Inventec則是缺席的主要ODM。

通過OAM,加速器被插入一個便攜式插座,它的管腳在一側(cè),然后是一組標(biāo)準(zhǔn)的并行管腳,它在概念上類似于英偉達(dá)的SXM2插座,用于Pascal和Volta GPU上的NVLink,從模塊上取下并插入主板上匹配的端口中。下圖說明了它的原理:

任何插入Emerald Pools機(jī)箱的特定加速器都會有散熱器,散熱器具有不同數(shù)量的鰭片和不同的材料,可用于冷卻其下方的設(shè)備,但高度一致,因此無論哪種加速器插入插槽,散熱器都能以一致的方式保持整個機(jī)箱中的氣流不變。雖然Facebook沒有這么說,但沒有理由不能將多個不兼容的加速器插入Emerald Pools機(jī)箱,并使用該機(jī)箱中實(shí)現(xiàn)的PCI-Express交換結(jié)構(gòu)相互連接并與主機(jī)CPU連接。下圖是OAM的外觀:

它看起來很像小型汽車電池,不是嗎?

每個OAM的尺寸為102毫米×165毫米,足夠容納我們認(rèn)為未來將會越來越大的多芯片模塊。對于耗電量高達(dá)350瓦的設(shè)備,OAM可支持12伏特的輸入;對于需要驅(qū)動高達(dá)700瓦的設(shè)備,OAM可支持48伏特的輸入;風(fēng)冷的散熱能力預(yù)計將在450瓦左右。當(dāng)前的OAM規(guī)范允許在加速器和主機(jī)之間提供一個或兩個PCI-Express 3.0 x16插槽,而且很顯然,更快的PCI-Express 4.0和5.0插槽已在規(guī)劃圖中。這樣就剩下6到7個PCI-Express鏈路用于交叉耦合加速器。順便說一句,這些鏈路可以分成兩部分,以提供更多的互連鏈路,并可以增加或減少任意給定鏈路的通道數(shù)量。

下圖是Emerald Pools機(jī)箱,里面插了8個加速器中的7個。

Emerald Pools底座后面有四個PCI-Express交換機(jī),位于圖片的右側(cè),每個交換機(jī)都插入對應(yīng)的Angels Landing CPU機(jī)箱(即Zion系統(tǒng)的另一半)上的配套PCI-Express交換機(jī)。該系統(tǒng)的CPU部分沒有在Facebook展位上展出,但Facebook技術(shù)項(xiàng)目經(jīng)理、設(shè)計其AI系統(tǒng)的工程師之一Sam Naghshineh在一次演講中展示了這臺機(jī)器:

你可以看到,4個PCI-Express 3.0管線從加速器底座和CPU底座上出來,將它們連接在一起。關(guān)于Angels Landing有趣的一點(diǎn)不是它總共有4個服務(wù)器底座,每個都有一對Xeon SP處理器,這是超大規(guī)模數(shù)據(jù)中心的常規(guī)設(shè)計。巧妙之處在于,由于在系統(tǒng)的CPU端進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練期間,對數(shù)據(jù)密集處理的需求不斷增加,于是它使用處理器上的UltraPath Interconnect(UPI)鏈接將這4個雙插槽機(jī)器捆綁在一起,以創(chuàng)建一個8插槽共享內(nèi)存節(jié)點(diǎn)。按照Naghshineh的說法,從技術(shù)上講,這稱為扭曲超立方體拓?fù)洌?/p>

這個大CPU節(jié)點(diǎn)設(shè)計為擁有2 TB的DRAM主內(nèi)存,而無需使用大內(nèi)存條或Optan3D XPoint主內(nèi)存,而且重要的是,該節(jié)點(diǎn)可在系統(tǒng)的CPU端提供足夠的內(nèi)存帶寬,從而無需使用HBM內(nèi)存。(這并不是說英特爾或AMD CPU還擁有HBM內(nèi)存,但某些場合它們確實(shí)擁有HBM內(nèi)存,尤其是對于HPC和AI工作負(fù)載而言。)這8個插槽的DRAM內(nèi)存帶寬和容量一樣重要。

如你所見,Angels Landing CPU機(jī)箱中的每個CPU都有自己的網(wǎng)絡(luò)接口卡以及PCI-Express 3.0 x16插槽,用于將CPU連接到PCI-Express交換機(jī)結(jié)構(gòu),該交換機(jī)結(jié)構(gòu)將加速器計算復(fù)合體連接在一起,并連接到CPU。這些加速器鏈接在上圖中幾乎完全連接的混合立方體網(wǎng)格中,但還可以支持其他拓?fù)?,如下所示?/p>

左圖中,每個加速器有6個端口,8個加速器連接在一個混合立方體網(wǎng)格中。右圖中,仍然有8個設(shè)備,但是每個設(shè)備都有一個額外的端口(總共7個),這些設(shè)備可以按照all-to-all的互連方式進(jìn)行鏈接。顯然還有其他選擇,重點(diǎn)是不同的神經(jīng)網(wǎng)絡(luò)在不同的互連拓?fù)浣Y(jié)構(gòu)中效果更好,這將允許Facebook和其他公司改變互連的拓?fù)浣Y(jié)構(gòu),以滿足神經(jīng)網(wǎng)絡(luò)的需求。

推理的未來

Facebook毫不掩飾地表示,它希望擁有比目前市場上更高效的推理機(jī),這是Facebook去年在一篇論文中討論的一個話題。在本周的OCP全球峰會上,F(xiàn)acebook公司高層概述了機(jī)器學(xué)習(xí)推理硬件的未來。

Facebook技術(shù)和戰(zhàn)略主管Vijay Rao提醒大家,早在1980年,英特爾就為8086系列處理器設(shè)計了8087數(shù)學(xué)協(xié)處理器,這些處理器如今是客戶端的核心芯片和服務(wù)器上的Xeon芯片的前身。這些機(jī)器可以在2.4瓦的熱度范圍內(nèi)實(shí)現(xiàn)50 kiloflops(32位單精度),達(dá)到相當(dāng)驚人的每瓦20.8 kiloflops。Facebook的目標(biāo)是使用像INT8這樣的低精度數(shù)學(xué)運(yùn)算,來達(dá)到接近每瓦5 teraflops,如果你看看英偉達(dá)的GV100,它可以達(dá)到每瓦特0.4 teraflops。

Rao在他的主題演講中解釋說:“我們一直在與許多合作伙伴密切合作,設(shè)計用于推理的ASIC。與傳統(tǒng)CPU相比,在加速器中運(yùn)行推理的吞吐量增加是值得的。在我們的情況下,應(yīng)該是每瓦特10倍左右?!?/p>

Rao大致談到了將M.2推理引擎組合到微服務(wù)器卡上,然后將它們插入到2015年創(chuàng)建的“Yosemite”服務(wù)器機(jī)箱中,F(xiàn)acebook設(shè)計該機(jī)箱是為了完成基本的基礎(chǔ)設(shè)施工作。但當(dāng)天晚些時候,Naghshineh實(shí)際展示了它的實(shí)現(xiàn)方法。以下是M.2推理引擎的“Kings Canyon”系列:

Facebook正試圖鼓勵推理芯片制造商支持兩種不同的形式。一個是單個的寬M.2單元,最大支持12瓦,并帶有一個PCI-Express x4接口,另一個具有兩倍大的內(nèi)存、20瓦的熱度范圍,一對PCI-Express x4端口,可以單獨(dú)使用或捆綁使用。這些M.2推理卡中的多個被插入“Glacier Point”載卡中,該載卡插入真正的PCI-Express x16插槽,最多可以有4個載卡被插入Yosemite機(jī)箱,如下所示:

群集推理引擎的框圖如下所示:

這樣做的唯一原因與使用低核心計數(shù)、高頻率、單插槽的微型服務(wù)器來運(yùn)行電子設(shè)計自動化(EDA)工作負(fù)載相同,英特爾就是這樣做的,盡管它想要向世界銷售雙插槽服務(wù)器。推理工作負(fù)載類似于Web服務(wù)和EDA驗(yàn)證:你可以將整個較小規(guī)模的工作分派到大量松散耦合(幾乎沒有耦合,完全不是真正耦合)計算單元中的一個,然后一次執(zhí)行大量的這些任務(wù),并同時完成大量工作。對一位數(shù)據(jù)的推斷決不依賴于對無數(shù)其他工作的推斷。機(jī)器學(xué)習(xí)訓(xùn)練則不同,它更像傳統(tǒng)的HPC仿真和建模,在不同的程度和頻率下,對一個計算元素進(jìn)行的任何處理都依賴于其他計算元素的結(jié)果。

因此,我們所看到的用于機(jī)器學(xué)習(xí)訓(xùn)練和推理的截然不同的硬件設(shè)計都來自Facebook。我們可以肯定的是,F(xiàn)acebook希望能夠采用它認(rèn)為適合框架的任何類型的CPU和加速器進(jìn)行訓(xùn)練,以及任何價格低廉的芯片推理引擎,在任意給定的時間內(nèi),它的性能都比CPU好10倍。今天在Facebook運(yùn)行在X86服務(wù)器上的推理業(yè)務(wù)是英特爾的失敗?;蛟S也未必,沒準(zhǔn)Facebook會決定在今年晚些時候推出M.2 Nervana NNP推理引擎。我們將會看到推理是如何流過Kings Canyon的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:揭秘FACEBOOK未來的機(jī)器學(xué)習(xí)平臺

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    2016機(jī)器學(xué)習(xí)行業(yè)應(yīng)用國際峰會:唯「智」者,「造」未來

    ?  在此大背景下,IBM與CDA數(shù)據(jù)分析研究院共同舉辦題為《唯「智」者,「造」未來》的機(jī)器學(xué)習(xí)行業(yè)應(yīng)用國際峰會,將于2016年11月22日在北京?北大博雅國際酒店舉行。屆時,包括人工智能研究院、工信部在內(nèi)
    發(fā)表于 11-08 17:51

    人工智能和機(jī)器學(xué)習(xí)的前世今生

    。Netflix有一個很好的關(guān)于下一個你想看的節(jié)目的想法,Facebook可以在照片中識別你和你的朋友,這要感謝機(jī)器學(xué)習(xí).。機(jī)器學(xué)習(xí)是關(guān)于自
    發(fā)表于 08-27 10:16

    Facebook背后的軟件揭秘

    Facebook的擴(kuò)展性挑戰(zhàn)在我們討論細(xì)節(jié)之前,這里有一些Facebook已經(jīng)做的軟件規(guī)模:◆Facebook有570000000000每月頁面瀏覽量 (據(jù)Google Ad Planner
    發(fā)表于 07-16 06:48

    機(jī)器學(xué)習(xí)的創(chuàng)新/開發(fā)和應(yīng)用能力

    機(jī)器學(xué)習(xí)未來在工業(yè)領(lǐng)域采用機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)和大數(shù)據(jù)工業(yè)人工智能生態(tài)系統(tǒng)
    發(fā)表于 12-16 07:47

    機(jī)器學(xué)習(xí)未來

    機(jī)器學(xué)習(xí)未來在工業(yè)領(lǐng)域采用機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)和大數(shù)據(jù)
    發(fā)表于 01-27 06:02

    機(jī)器學(xué)習(xí)與軟件平臺的融合

    本文將探討機(jī)器學(xué)習(xí)與軟件平臺的融合。
    發(fā)表于 01-28 06:36

    Facebook決定削減對機(jī)器學(xué)習(xí)和人工智能技術(shù)的投資

    由于Messenger聊天機(jī)器人的錯誤率高達(dá)70%,Facebook已決定削減對機(jī)器學(xué)習(xí)和人工智能技術(shù)的投資。為此,Facebook將放棄打
    發(fā)表于 03-06 09:11 ?677次閱讀

    深度揭示 Facebook 內(nèi)部支持機(jī)器學(xué)習(xí)的硬件和軟件基礎(chǔ)架構(gòu)

    近日 Facebook 研究團(tuán)隊公開一篇 HPCA 2018 論文,作者包括 Caffe 作者賈揚(yáng)清等人,深度揭示了 Facebook 內(nèi)部支持機(jī)器學(xué)習(xí)的硬件和軟件基礎(chǔ)架構(gòu)。
    的頭像 發(fā)表于 12-31 00:38 ?4734次閱讀
    深度揭示 <b class='flag-5'>Facebook</b> 內(nèi)部支持<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的硬件和軟件基礎(chǔ)架構(gòu)

    介紹Facebook機(jī)器學(xué)習(xí)方面的軟硬件基礎(chǔ)架構(gòu),來滿足其全球規(guī)模的運(yùn)算需求

    機(jī)器學(xué)習(xí)Facebook的眾多產(chǎn)品和服務(wù)中都有著舉足輕重的地位。 本文將詳細(xì)介紹Facebook機(jī)器
    的頭像 發(fā)表于 01-24 11:23 ?4304次閱讀
    介紹<b class='flag-5'>Facebook</b>在<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方面的軟硬件基礎(chǔ)架構(gòu),來滿足其全球規(guī)模的運(yùn)算需求

    Facebook機(jī)器學(xué)習(xí)是什么?它能用來做什么?

    Facebook機(jī)器學(xué)習(xí)功能可以幫助你的廣告系列取得最佳表現(xiàn)。Facebook平臺可以通過實(shí)時確定表現(xiàn)最佳的版位、預(yù)算分配以及廣告系列的競
    的頭像 發(fā)表于 04-02 15:49 ?2722次閱讀
    <b class='flag-5'>Facebook</b><b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>是什么?它能用來做什么?

    Facebook用AI技術(shù)優(yōu)化機(jī)器人 推動其他形式機(jī)器學(xué)習(xí)的發(fā)展

    盡管Facebook不銷售機(jī)器人,但該公司研究人員在大量使用機(jī)器人。機(jī)器人技術(shù)的進(jìn)步可以推動其他形式機(jī)器
    發(fā)表于 05-21 16:31 ?695次閱讀

    機(jī)器學(xué)習(xí)未來系統(tǒng)設(shè)計和平臺創(chuàng)建中的關(guān)鍵組成部分

    對于負(fù)責(zé)將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)應(yīng)用在計算軟件的EDA研究項(xiàng)目的Elias Fallon來說,他對電子設(shè)計行業(yè)的未來發(fā)展有著獨(dú)特的見解。
    的頭像 發(fā)表于 11-24 11:46 ?1844次閱讀

    Facebook開發(fā)出更加強(qiáng)大的機(jī)器學(xué)習(xí)模型

    近日,Facebook公司分享了兩個內(nèi)部人工智能項(xiàng)目的細(xì)節(jié),分別是Learning from video和TimeSformer,這兩個項(xiàng)目旨在促進(jìn)更強(qiáng)大的機(jī)器學(xué)習(xí)模型的開發(fā)。
    的頭像 發(fā)表于 03-18 09:18 ?1740次閱讀

    機(jī)器學(xué)習(xí)可以幫助未來的癌癥診斷

    機(jī)器學(xué)習(xí)可以幫助未來的癌癥診斷
    的頭像 發(fā)表于 12-30 09:40 ?998次閱讀

    如何選擇云原生機(jī)器學(xué)習(xí)平臺

    當(dāng)今,云原生機(jī)器學(xué)習(xí)平臺因其彈性擴(kuò)展、高效部署、低成本運(yùn)營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機(jī)器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生
    的頭像 發(fā)表于 12-25 11:54 ?135次閱讀