在加州山景城舉辦了 AI Hardware Summit 會(huì)議,這是目前唯一專門致力于開發(fā)用于神經(jīng)網(wǎng)絡(luò)和計(jì)算機(jī)視覺硬件加速器生態(tài)系統(tǒng)的活動(dòng)。
會(huì)上,來自 AI 芯片初創(chuàng)企業(yè)、半導(dǎo)體公司、系統(tǒng)供應(yīng)商/ OEM、數(shù)據(jù)中心、企業(yè)、金融服務(wù)、投資者和基金經(jīng)理等 250 多位先進(jìn)技術(shù)領(lǐng)導(dǎo)者們,為新興的 AI 芯片市場(chǎng)構(gòu)建了一幅全面的架構(gòu)路線圖。
人工智能硬件峰會(huì)的五大要點(diǎn):
幾乎所有使 AI 計(jì)算加速的都是 7nm 芯片,由臺(tái)積電制造。另外,我們還看到了一系列新的高速接口芯片 (Serdes 56 / 112gbs)。
英偉達(dá)依舊是訓(xùn)練領(lǐng)域之王,我們將會(huì)看到其新款計(jì)算卡 Tesla T4(使用了全新的 12nm 制程工藝 圖靈架構(gòu))的廣泛使用。我們認(rèn)為,它將在 2019 年繼續(xù)占據(jù)主導(dǎo)地位。長(zhǎng)遠(yuǎn)來看,我們對(duì) AI 較少依賴于 CUDA 和 GPU 的狀況感到擔(dān)憂。
我們認(rèn)為 Intel 的 7nm AI 芯片(由臺(tái)積電代工)支持 112GBs Serdes 和高速 DRAM。明年,在 Cascade Lake 服務(wù)器中,DL Boost INT8 會(huì)協(xié)助提高深度學(xué)習(xí)推理性能。
所有的云計(jì)算服務(wù)商都在開發(fā)內(nèi)部的芯片,加速計(jì)劃是不公開的。這種垂直推進(jìn)是對(duì)芯片制造商的一個(gè)主要威脅。
在五年的時(shí)間中,我們看到:新的模擬計(jì)算機(jī)(神經(jīng)形態(tài))的進(jìn)步,納米線對(duì)數(shù)字計(jì)算的部分挑戰(zhàn),硅光子代替了 SerDes(112GBs 以上),以及更高速的存儲(chǔ)器對(duì) AI 性能提升的助益。
未來十年,AI 芯片將不僅是半導(dǎo)體領(lǐng)域最有前途的增長(zhǎng)領(lǐng)域之一,還可能擾亂傳統(tǒng)的計(jì)算機(jī)市場(chǎng)。
專門針對(duì) AI 開發(fā)的軟件還有 99%沒寫出來。如今,只有不足1% 的云服務(wù)器為AI加速服務(wù)(今年的服務(wù)器總數(shù)為 5 百萬(wàn)臺(tái)),企業(yè)服務(wù)器則是幾乎零舉動(dòng)。訓(xùn)練和推理的工作量正以較低的基數(shù)倍增,但市場(chǎng)似乎一致認(rèn)為,今天的加速硬件(GPUs,CPUs, FPGAs)已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了市場(chǎng)的需求——在我們看來,我們需要實(shí)現(xiàn)吞吐量的巨大飛躍(100 倍),以擴(kuò)大 AI 的規(guī)模,并讓 AI 變得無(wú)處無(wú)在。
好消息是,即將迎來結(jié)構(gòu)性的創(chuàng)新,但是其作用需要一段時(shí)間才能顯現(xiàn)出來。
2019 年以后,我們將看到:新的流程技術(shù)(7nm),新的計(jì)算機(jī)功能結(jié)構(gòu)(芯片上的神經(jīng)網(wǎng)絡(luò)),新的芯片連接(56/112GBs SerDes),新的內(nèi)存方法(HBM3,SRAM on-chip 等)和新的包裝技術(shù),所有這些都能大規(guī)模提升性能。
芯片行業(yè)正在進(jìn)行創(chuàng)新反思,因?yàn)樾酒陌l(fā)展不能過多依賴制造業(yè)的萎縮來取得進(jìn)展。機(jī)會(huì)來了。我們會(huì)繼續(xù)看到,對(duì)長(zhǎng)期投資 AI 芯片的投資者而言,投資臺(tái)積電和主要的 DRAM 制造商仍是最佳選擇。
我們上周參加了人工智能硬件峰會(huì),了解了很多 AI 芯片替代品的現(xiàn)狀。
有一件事是清楚的:我們從未見過如此多的公司(無(wú)論大小)像今天這樣、進(jìn)軍新的芯片市場(chǎng),毫無(wú)疑問,未來幾年將會(huì)是一個(gè)令人著迷的時(shí)期,我們一定能見證這個(gè)市場(chǎng)的整合過程。
繼谷歌的 TPU 領(lǐng)先之后,每個(gè)云計(jì)算服務(wù)商都在做內(nèi)部的 AI 芯片。問題在于,要想影響市場(chǎng)的情緒,這一切需要的時(shí)間有多長(zhǎng)。
畢竟,谷歌的 TPU 芯片已經(jīng)到了第三代(2016 年中期推出第一代 TPU),但仍然承載不了 Tensorflow(或其他框架)所有工作量。我們認(rèn)為,其他云計(jì)算服務(wù)商將在 2020 年驗(yàn)證并量產(chǎn)他們的第一款 AI 芯片。
造新的 AI 芯片,有兩種通用方法。
第一種方法是,在系統(tǒng)上進(jìn)行創(chuàng)新,以更快的 I/O 和外部?jī)?nèi)存接口(英偉達(dá)、英特爾等)為重點(diǎn)來擴(kuò)展性能。
第二種方法是,把所有的數(shù)據(jù)集中保留在芯片上(芯片上的神經(jīng)網(wǎng)絡(luò))——包括大量的小核和芯片內(nèi)存,以減少對(duì)外部 DRAM 的需求。第二種方法將在未來 6 個(gè)月內(nèi)實(shí)現(xiàn)第一批 AI 芯片的商業(yè)化,但我們認(rèn)為,7nm 工藝才是促使市場(chǎng)為其買單的優(yōu)勢(shì)(也就是 2020 年的增長(zhǎng))。
圍繞人工智能的軟件棧在快速發(fā)展,云計(jì)算服務(wù)商也推出了開源適配器,以支持在其框架中運(yùn)行的各種芯片(例如 Tensorflow XLA、Facebook Glow)。隨著新神經(jīng)網(wǎng)絡(luò)的成熟,每個(gè)人都會(huì)認(rèn)同可編程性和靈活性的重要性。
這意味著,7nm 芯片潛在的目標(biāo)是,16 位浮點(diǎn)運(yùn)算的運(yùn)算能力至少要達(dá)到 10TOPS。人們真正關(guān)注的是如何通過提高效率來提高性能,如通過支持稀疏數(shù)據(jù)結(jié)構(gòu)、降低精度、使用 mini-batching、加快芯片互聯(lián)速度(112GB Serdes)、使用更快的內(nèi)存接口(遠(yuǎn)超 HBM2),以及新的多芯片先進(jìn)封裝。
英特爾:AI 領(lǐng)域的玩家
當(dāng)人們普遍不再依賴通用 CPU 時(shí),也不再十分信任英特爾計(jì)劃在未來幾年內(nèi)為 AI 引入一些新的優(yōu)化措施這件事。
英特爾去年 (2017 年) 的 AI 收入約為 10 億美元,Xeon CPUs 也將繼續(xù)在 AI 推理和 AI 訓(xùn)練方面發(fā)揮重要作用。
例如,英特爾在 Cascade Lake 的服務(wù)器架構(gòu)中添加了大量新的指令,以提高其推理性能(聲稱在精度為 INT8 的情況下、性能提升了 11 倍)。我們預(yù)計(jì),這些擴(kuò)展將與 AMD EPYC2 規(guī)格區(qū)別開來。
我們還相信,英特爾的下一個(gè) ASIC 芯片(將于 2019 年采樣)將由臺(tái)積電代工(7nm),將具有一些關(guān)鍵的專有接口,這將顯著提高它的性能。雖然當(dāng)下 GPU 以低速(PCIE-3)與 CPU 相連,但是我們預(yù)計(jì),新的服務(wù)器將 PCIE-4(16GB),仍會(huì)是數(shù)據(jù)輸入 GPU 的關(guān)鍵瓶頸。
相比之下,我們認(rèn)為,英特爾將在其 Xeon CPU 和 7nm Nervana 芯片之間構(gòu)建專有接口,速度可達(dá) 112GB。英特爾正計(jì)劃推出一種新的高帶寬內(nèi)存接口(這對(duì)云服務(wù)提供商來說,是一個(gè)關(guān)鍵的關(guān)注點(diǎn)),并積極參與新的多芯片包裝。AI 的加速會(huì)導(dǎo)致更多的 CPU 被停用,英特爾正尋求通過圍繞 Xeon 構(gòu)建外圍解決方案來獲取價(jià)值。
英偉達(dá):標(biāo)準(zhǔn)制定者
英偉達(dá)的 GPU 目前仍然是 AI 計(jì)算領(lǐng)域的王者,他們有實(shí)際的收益(支持所有的框架,所有的云計(jì)算服務(wù)商,所有的 OEM),他們的新品將有顯著的性能提升——我們認(rèn)為,其 T4 將被廣泛采用,其新的 DGX2 服務(wù)器將在今年售罄。目前沒有什么引人注目的替代品可供選擇,我們認(rèn)為,英偉達(dá)將繼續(xù)占據(jù)主導(dǎo)地位(至少到 2019 年),但有兩個(gè)主要問題讓我們懷疑,英偉達(dá)是否能長(zhǎng)期維持其領(lǐng)導(dǎo)地位:
首先,我們認(rèn)為,很明顯的一點(diǎn)是,隨著谷歌和 ONNX 等公司的努力,英偉達(dá)的軟件護(hù)城河 (CUDA) 將變得不那么重要。
云計(jì)算服務(wù)商正積極提供開源插件,用于替代芯片解決方案,以支持 Tensorflow、Pytorch、CNTK、coff2 等框架,從而降低進(jìn)入新的 AI 處理器的軟件門檻。
其次,是英偉達(dá)訓(xùn)練和推理芯片的經(jīng)濟(jì)性——雖然它們可以為許多 AI 工作節(jié)省 CPU,但是銷售卡的超高利潤(rùn)率與昂貴的內(nèi)存捆綁在一起(V100 是每張卡 1 萬(wàn)美元,P4 可能是每張卡 2000 美元),這只會(huì)讓云端玩家擁抱其他架構(gòu)。
盡管如此,英偉達(dá)有巨大的資源來超越競(jìng)爭(zhēng)對(duì)手 (尤其是初創(chuàng)企業(yè)),它致力于每年為 AI 推出一種新的架構(gòu),可能在 2019 年首次推出 7nm 解決方案。
V100 和 T4 在很大程度上都被視為英偉達(dá)在 AI 領(lǐng)域的第一顆轉(zhuǎn)換芯片(不再只是通用 GPU),因?yàn)樗鼈兪堑谝粋€(gè)支持張量核心和較低推理精度的芯片(INT8)。
隨著英偉達(dá) 7nm 芯片的推出,我們期待,其性能在 2019 年會(huì)有另一個(gè)大的飛躍——有很多大幅提升吞吐量和延遲以提升效率的方法,我們預(yù)期,其下一代芯片更像以 AI 為中心的 ASIC,而不是 GPU。
云端的消費(fèi)者告訴我們,他們使用 V100 GPU 來進(jìn)行訓(xùn)練的頻率很低(低至 15%),因?yàn)樗麄冇?GPU 只是為了訓(xùn)練單一的神經(jīng)網(wǎng)絡(luò)。他們希望英偉達(dá)能將 GPU 虛擬化——盡管對(duì) AI 計(jì)算的需求永無(wú)止境的,但這可能會(huì)給英偉達(dá)的 GPU 增長(zhǎng)帶來壓力。
此外,英偉達(dá)如今擁有芯片對(duì)芯片的快速接口(NVlink2),運(yùn)行速度為 25Gbs(遠(yuǎn)遠(yuǎn)超過僅 8GB 的 PCIE-3 或 16GB 的 PCIE-4)。我們預(yù)計(jì),到 2019 年底,英偉達(dá)將支持 56Gbs 甚至 112 GB 的服務(wù)器,因?yàn)橛行┨娲桨缚梢蕴嵘@些規(guī)格。
我們認(rèn)為,英偉達(dá)的下一代架構(gòu)將在 2019 年的 7nm 芯片上出現(xiàn)(超過 Volta / Turing),這將大大決定它能夠在多大程度上拉開市場(chǎng)差距。
AI 芯片的替代品——即將到來
隨著谷歌 TPU 的推出,每個(gè)云計(jì)算服務(wù)商內(nèi)部都有了做 AI 芯片的項(xiàng)目,我們認(rèn)為,這將在未來 18 個(gè)月內(nèi)得到驗(yàn)證。
有些人公開表達(dá)了自己的意圖。微軟甚至在峰會(huì)上設(shè)立了招聘平臺(tái),這就是它渴望建立團(tuán)隊(duì)的表現(xiàn)。但有關(guān)這些項(xiàng)目的狀況,我們無(wú)從得知:云計(jì)算服務(wù)商沒有公開他們?cè)煨居?jì)劃的任何細(xì)節(jié),所以我們不知道他們的項(xiàng)目進(jìn)展。
我們認(rèn)為,第一代轉(zhuǎn)換芯片將像谷歌兩年前對(duì) TPU 的判斷一樣,專注于推理。Google Brain 的報(bào)告指出了一個(gè)具有諷刺意味的事實(shí):當(dāng)芯片行業(yè)達(dá)到摩爾定律的極限之際,AI 計(jì)算卻出現(xiàn)了指數(shù)級(jí)增長(zhǎng),因此,架構(gòu)(和軟件協(xié)同設(shè)計(jì))將成為關(guān)鍵的推動(dòng)因素。
谷歌不僅使用 TPU 來處理越來越多的工作量,還用 GPU 測(cè)試大量即將上市的新系統(tǒng)。
這 50 多家創(chuàng)業(yè)公司的工作都是為了將他們的平臺(tái)商業(yè)化,我們預(yù)計(jì)在未來 12 個(gè)月內(nèi)會(huì)有 6 家公司推出首款轉(zhuǎn)換芯片,將于 2020 年推出第二款(7nm 芯片)。
即使一些人工智能初創(chuàng)企業(yè)2019 年的銷售額就可能達(dá)到 1 億美元,但我們認(rèn)為,到 2020 年才會(huì)有人超越這個(gè)數(shù)字。有許多令人印象深刻的初創(chuàng)公司,但其中許多還沒有流片,因此很難對(duì)其性能進(jìn)行驗(yàn)證。
云計(jì)算服務(wù)商們希望了解新的 AI 芯片的系統(tǒng)性能,因此,他們幫助建立了一個(gè)新的基準(zhǔn)測(cè)試標(biāo)準(zhǔn),名為 MLPerf。
我們認(rèn)為,這將是分析特定模型的訓(xùn)練時(shí)間 (如果不要求準(zhǔn)確性) 的關(guān)鍵標(biāo)準(zhǔn),也有助于與目前市場(chǎng)領(lǐng)軍者英偉達(dá)的培訓(xùn)平臺(tái)進(jìn)行比較 (英偉達(dá)尚未加入 MLPerf)。
很明顯的一點(diǎn)是,許多初創(chuàng)企業(yè)以前從未進(jìn)入過主要的云數(shù)據(jù)中心,也從未在前沿制造過芯片。
此外,只有少數(shù)參與者之前與云有密切的關(guān)系、在以云計(jì)算芯片為關(guān)鍵任務(wù)構(gòu)建一個(gè)工程團(tuán)隊(duì)方面有豐富的經(jīng)驗(yàn)。
云加速:巨大的市場(chǎng)機(jī)遇
以今天一臺(tái)典型的云服務(wù)器配置為例(包括 2 個(gè)插座,10 核 Xeon E5 就是最受歡迎的銷售平臺(tái)之一),有大約 660 毫米的裸片大小來處理主 CPU 計(jì)算 (即兩個(gè) 330 毫米的 CPU 芯片),主要由英特爾提供。但是,針對(duì) AI 加速的服務(wù)器(比如英偉達(dá) DGX-1)已經(jīng)有多達(dá) 10 倍的硅芯片大小來處理計(jì)算加速,正如圖 2 所示。
這個(gè)裸芯片大小與 CPU 裸芯片大小的比率只會(huì)增加,因?yàn)殡S著時(shí)間的推移,每 CPU 4 個(gè)加速卡會(huì)上升到 6 個(gè)和 8 個(gè)。
我們相信,谷歌正計(jì)劃明年將 TPU 芯片數(shù)量增加兩倍。在訓(xùn)練應(yīng)用中,英偉達(dá)的芯片需求量會(huì)繼續(xù)大幅增長(zhǎng),而且從 2020 年開始,一大批人工智能創(chuàng)業(yè)公司將崛起。
但是,鑒于人工智能服務(wù)器目前在市場(chǎng)上的滲透率很低 (今年購(gòu)買的云服務(wù)器中,只有不到 1% 的服務(wù)器支持加速度),長(zhǎng)遠(yuǎn)來看,臺(tái)積電機(jī)遇很大。
如果我們假設(shè)這種滲透率上升到 100 萬(wàn)加速 AI 服務(wù)器(今年低于 5 萬(wàn)),并且裸芯片大小通過縮小(即每臺(tái) AI 服務(wù)器 6,560mm)保持不變,這將轉(zhuǎn)化為大約每年 20 萬(wàn)晶圓,或 30 億美元的代工收入(假設(shè)每片晶圓 15,000 美元,收益率 55%)。這就是為什么我們繼續(xù)認(rèn)為臺(tái)積電將作為 AI 芯片的長(zhǎng)期關(guān)鍵受益者之一。
長(zhǎng)遠(yuǎn)來看,還有哪些新技術(shù)?
峰會(huì)期間還有許多其他新興技術(shù)在 3 - 5 年的視野中看起來很有趣。
顯然,人工智能的邊緣計(jì)算正在智能手機(jī)中進(jìn)行,我們堅(jiān)信每部智能手機(jī)都將在未來 2 - 3 年內(nèi)擁有專用的計(jì)算機(jī)視覺 AI 處理器(在相機(jī)周圍)。
谷歌的 Edge TPU 和英偉達(dá)的 DLA 是早期可授權(quán)的例子,我們看到 ARM 現(xiàn)在提供專用的 AI 許可證解決方案,而 Qualcomm,華為海思和寒武紀(jì)以及聯(lián)發(fā)科則提供一系列智能手機(jī)和物聯(lián)網(wǎng)解決方案。
一系列具有增強(qiáng) AI 規(guī)格的嵌入式 SOC 即將推出,適用于相機(jī),機(jī)器人,汽車等。英偉達(dá)的 Xavier 就是一個(gè)例子。我們將在即將發(fā)布的報(bào)告中研究自動(dòng)駕駛汽車的汽車路線圖,其中,AI 加速將發(fā)揮核心作用。
從長(zhǎng)遠(yuǎn)來看,盡管存在摩爾定律的挑戰(zhàn),我們?nèi)钥梢钥吹秸陂_發(fā)的一些新技術(shù),以擴(kuò)展計(jì)算性能。
其中一個(gè)更令人印象深刻的演講來自 Rain Neuromorphics 和 Mythic,他們從五年的時(shí)間角度,談了談模擬計(jì)算商業(yè)化,比如使用類似大腦突觸那樣的松散幾何形狀,解決功率限制。
此外,Ayar Labs 闡述了為什么他們?cè)诠韫庾游⑿突矫娴耐黄?,將?dǎo)致更快的芯片互連(超過 112GB Serdes)的解決方案。
隨著 Exascale 計(jì)算機(jī)預(yù)計(jì)將在 3 - 4 年內(nèi)出現(xiàn)在我們面前,我們認(rèn)為,人工智能正在全面推動(dòng)反思,以實(shí)現(xiàn)性能的指數(shù)增長(zhǎng)。
必要的披露
整體行業(yè)風(fēng)險(xiǎn):算法變化可能需要比預(yù)期更長(zhǎng)的時(shí)間,ETH 價(jià)格可能上漲到足以抵消近期的回報(bào)阻礙和難度變化,并且可能出現(xiàn)一種新的 GPU 可挖掘的加密貨幣,從而推動(dòng) GPU 需求。
不斷惡化的全球經(jīng)濟(jì)環(huán)境可能會(huì)影響半導(dǎo)體行業(yè),迅速造成嚴(yán)重的供過于求,晶圓廠利用不足,平均售價(jià)下降或庫(kù)存減少。在 09 年期間,半成品銷售下降 10%(外存儲(chǔ))。所有部門的競(jìng)爭(zhēng)都很激烈。
智能手機(jī)領(lǐng)域是一個(gè)充滿活力的市場(chǎng),有數(shù)十家廠商生產(chǎn)著需要復(fù)雜軟硬件集成技能的產(chǎn)品。雖然所謂「旗艦」設(shè)備的市場(chǎng)空間受到區(qū)分「黑色平板」(即主要運(yùn)行 Android OS 的標(biāo)準(zhǔn)觸摸屏設(shè)備) 困難的限制,但是,很難預(yù)測(cè)哪一家廠商與哪種特定型號(hào)相關(guān)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4778瀏覽量
101023 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7530瀏覽量
88419 -
AI
+關(guān)注
關(guān)注
87文章
31429瀏覽量
269829
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論