英特爾新AI芯性能飆升3－4倍還稱威力沒完全釋放

這是我第二次見到Naveen Rao。

與初見一樣，聊到AI，他的話匣子一下被打開，一直有層出不窮的想法與理論冒出，滿腹經(jīng)綸，侃侃而談。

英特爾全球副總裁兼人工智能產(chǎn)品事業(yè)部（AIPG）總經(jīng)理 Naveen Rao

與他這種溫暖的教授般的氣質(zhì)形成“反萌差”的是他對極限運動的熱愛。這位40剛出頭的AI專家還是一名運動健將，以至于在滑雪、滑板、騎自行車、駕駛賽車、摔跤和打籃球的生涯中，弄傷了全部手指?；蛟S就是這樣一位冒險家，更適合帶動人工智能，在他創(chuàng)立的深度學習初創(chuàng)公司Nervana被英特爾收購后，Nervana被迅速整合到英特爾AI核心戰(zhàn)略之中，現(xiàn)在Rao已經(jīng)成為英特爾人工智能事業(yè)群（AIPG）的掌舵人。

Rao說來到英特爾，“這里是一個開放的文化”，他很喜歡團隊合作，然而調(diào)用資源并不是一件容易的事，但英特爾在產(chǎn)品的市場化方面擁有豐富的經(jīng)驗，強大的向心力正將公司各部門之間扭成一股勁，朝著一個目標通力協(xié)作。

在英特爾，實干永遠比空談更重要。在英特爾首屆AI開發(fā)者大會上，由Rao率隊帶領(lǐng)，英特爾人工智能業(yè)務(wù)相關(guān)部門的“狠角色”集中露面，這應(yīng)該是英特爾AI史上一次先例。要知道，除了英特爾內(nèi)部會議，能夠在公開場合看到一群“大?！比绱斯郧傻募谐霈F(xiàn)，幾乎是零概率事件。

但英特爾并沒有讓人失望。

這一次它拿出了一支配置超高的英特爾“AI銀河戰(zhàn)隊”（姑且叫這名吧），如下圖，從左到右依次是：

Jennifer Huffstetler，英特爾數(shù)據(jù)中心事業(yè)部副總裁兼數(shù)據(jù)中心產(chǎn)品和存儲營銷總經(jīng)理

Reynette Au，英特爾可編程解決方案事業(yè)部副總裁

Jack Weast，英特爾無人駕駛解決方案資深首席工程師兼首席架構(gòu)師

Gayle Sheppard，英特爾新技術(shù)事業(yè)部副總裁兼Saffron人工智能事業(yè)部總經(jīng)理

Remi El－Ouazzane，英特爾新技術(shù)事業(yè)部副總裁兼Moviduis總經(jīng)理

Jonathon Ballon，英特爾物聯(lián)網(wǎng)事業(yè)部副總裁

Naveen Rao，英特爾公司副總裁兼人工智能產(chǎn)品事業(yè)部總經(jīng)理

盡管這陣容堪比漫威“復(fù)仇者聯(lián)盟”，但依舊有“大神”在畫框外。

英特爾人工智能事業(yè)部副總裁、 Nervana團隊核心成員Carey Kloss

Carey Kloss是英特爾人工智能事業(yè)群副總裁、 Nervana團隊核心成員，雖然并沒有在上圖中出現(xiàn)，但他向科技行者表達出對團隊的熱愛，“英特爾有迄今為止我見過的最佳的后硅培養(yǎng)（post－silicon bring－up）和架構(gòu)分析。”也正因如此，Nervana神經(jīng)網(wǎng)絡(luò)處理器（Nervana Neural Network Processor，NNP）才獲得巨大提升。

事實上，NNP也是英特爾醞釀已久的“殺手锏”。在本次AI開發(fā)者大會上，Rao就爽快公開了英特爾新一代AI芯——英特爾Nervana NNP－L1000，代號為“Spring Crest”的專用人工智能芯片，而這款芯片也即將成為英特爾第一款商用神經(jīng)網(wǎng)絡(luò)處理器產(chǎn)品，并計劃在2019年發(fā)布。

盡管Rao并沒有再多透露新代AI芯片的細節(jié)，但同為Nervana創(chuàng)始團隊的Carey Kloss卻掌握著機密——我們當然不會放過他。就在AI開發(fā)者大會期間，科技行者與他進行了一次“接地氣”對話，原來打著“如意算盤”的英特爾還可以這樣玩。

Nervana NNP：新AI芯性能飆升3－4倍，但威力還沒完全釋放

在Rao長達1小時的主題演講中，最重磅的發(fā)布非英特爾Nervana神經(jīng)網(wǎng)絡(luò)處理器莫屬了，它對英特爾的意義非同小可。

如果拿去年10月首次公布的“Lake Crest”（Nervana NNP系列初代芯片代號）做一個比喻，可以說“Lake Crest”就像一場“及時雨”，成功幫助英特爾在AI專用芯片競爭中站住腳。但英特爾卻提出了一個更大的目標，即到2020年要將深度學習訓練的性能提升100倍。而Crest家族很可能成為英特爾目標實現(xiàn)的最快途徑。

要知道一塊芯片的打造并非易事，如果背后沒有一支瘋狂、專注的芯片開發(fā)團隊，它也將是一塊不足掛齒的芯片。所以懂門道的內(nèi)行人更專注的問題是：Nervana神經(jīng)網(wǎng)絡(luò)處理器系列芯片背后的英特爾IC設(shè)計團隊，究竟是如何打造出這顆能在現(xiàn)有性能上再飆升3－4倍的“Spring Crest”？

雖然Carey Kloss口風很緊，但關(guān)于Nervana神經(jīng)網(wǎng)絡(luò)處理器，科技行者還是在與他的聊天中，拿到以下犀利信息：

1、Lake Crest和Spring Crest的主要區(qū)別

Lake Crest作為第一代處理器，在GEMM（矩陣運算）和卷積神經(jīng)上都實現(xiàn)了非常好的計算利用率。這不僅僅是指96％吞吐量的利用率，而是在沒有充分定制化的情況下，Nervana也在大多數(shù)情況下實現(xiàn)GEMM高于80％的計算利用率。當開發(fā)下一代芯片時，如果能夠保持高計算利用率，新的產(chǎn)品在性能上有3到4倍的性能提升。

2、Lake Crest計算利用率達到96％，為什么到Spring Crest不升反而降了？

這是一個市場策略，把利用率適當下降。有些情況確實可以實現(xiàn)98％，在沒有資源沖突時，每個硅芯片都完全運行的情況下，可以達到99％甚至100％計算利用率。但英特爾想展示的是大多數(shù)情況下能能實現(xiàn)的利用率，所以適當調(diào)整了。

3、為什么Nervana芯片的發(fā)布節(jié)奏一再延期？

分為兩個階段，Nervana在2014年成立之初就開始研發(fā)Lake Crest，當時整個團隊大概45人，正在構(gòu)建一個最大的Die（硅芯片），我們開發(fā)了Neon（深度學習軟件），還構(gòu)建了云棧，這些都是小團隊所完成的。但這也是挑戰(zhàn)所在，小團隊成長會有陣痛，Nervana花了很長時間才把第一批產(chǎn)品拿出來，直到去年芯片才真正問世。關(guān)于Spring Crest為何選擇2019年年底推出，因為需要集成更多的Die（硅芯片），獲得更快的處理速度，但需要一定的時間去制造硅片，也需要硅片變成新的神經(jīng)網(wǎng)絡(luò)處理器，這是延遲的原因。目前來看，Spring Crest正處于合理的節(jié)奏中，已具備明年取得成功的所有要素。

4、延遲給英特爾帶來了哪些不利影響？

Carey Kloss并不認為英特爾會在神經(jīng)網(wǎng)絡(luò)處理器上處于劣勢，因為英特爾的反應(yīng)速度相對較快，比如逐步轉(zhuǎn)向bfloat是一個重要因素，它是業(yè)內(nèi)廣泛采用的針對神經(jīng)網(wǎng)絡(luò)的一種數(shù)值型數(shù)據(jù)格式，很受市場歡迎，未來英特爾將在人工智能產(chǎn)品線上擴大對bfloat16的支持，包括至強處理器和FPGA。

5、拿nGraph與CUDA相比：沒在怕的

拋開硬件層面，英特爾還在軟件部署上加足馬力。目前，英特爾AIPG事業(yè)部正在開發(fā)名為nGraph的軟件，該軟件是一個框架中立的深度神經(jīng)網(wǎng)絡(luò)（DNN）模型編譯器。英特爾正在把TensorFlow、MXNet、Paddle Paddle、CNTK和ONNX等深度學習框架集成在nGraph之上。

同樣是一個平臺概念，很多人喜歡拿GPU代表企業(yè)英偉達與英特爾做比較，事實上，Carey Kloss就直言了nGraph與競爭對手CUDA平臺的區(qū)別。

“nGraph與CUDA還是不一樣的。CUDA你可以理解為 nGraph的底面，我們稱之為變壓器。nGraph通過一個固定的API接收來自TensorFlow，Caffe或MXNet的輸入，然后通過圖形編譯器進行性能優(yōu)化，排除一些不需要的東西，然后將其發(fā)送給CPU的MKL－DNN。所以CPU仍然使用MKL－DNN，即使在nGraph中也是如此?！安浑y看出，英特爾也有意把芯片開發(fā)放在統(tǒng)一平臺上，將nGraph打造成為開發(fā)基于所有英特爾芯片的AI應(yīng)用程序的接口做統(tǒng)一。

相比于新一代Nervana NNP－L1000還處于研發(fā)階段，英特爾另一款專注于計算機視覺的芯片VPU實際已經(jīng)商用。關(guān)于這款芯片，英特爾又寄托了怎樣的市場期望，來看另一位同樣在畫框外的大神的解答。

閱讀全文