深度學習有一個DRAM問題。設計用來實時處理復雜任務(比如,在汽車的備份攝像頭視頻流中分辨貓和孩子)的系統(tǒng),不斷地將構(gòu)成神經(jīng)網(wǎng)絡內(nèi)容的數(shù)據(jù)從存儲器傳送到處理器。
根據(jù)初創(chuàng)公司Flex Logix的說法,問題并不是缺乏存儲這些數(shù)據(jù)的空間,而是處理器和存儲器之間缺乏帶寬。為了將數(shù)百千兆比特的數(shù)據(jù)提供給處理器,有些系統(tǒng)需要4個甚至8個DRAM芯片,這既使占用的空間增加了不少,又消耗了大量的電能。Flex Logix表示,它為可重構(gòu)芯片開發(fā)的互連技術和tile-based架構(gòu)將使AI系統(tǒng)只需要1個DRAM芯片的帶寬,且功耗僅為十分之一。
圖片來源:Flex Logix
NMAX512tile的架構(gòu)。
位于加州山景城的Flex Logix公司已經(jīng)開始將一種新的嵌入式現(xiàn)場可編程門陣列(eFPGA)架構(gòu)商業(yè)化。但經(jīng)過一番探索后,其創(chuàng)始人之一Cheng C. Wang意識到,這項技術可以加快神經(jīng)網(wǎng)絡的速度。
神經(jīng)網(wǎng)絡由連接和表示連接強度的“權重”組成。另一位創(chuàng)始人Geoff Tate解釋說,一個好的AI芯片需要兩樣東西。一種是一些做關鍵“推斷”計算(即乘法和累加)的電路?!暗щy的是,你必須非常擅長引入所有這些權重,以便其乘法器總能得到它們需要的數(shù)據(jù),從而進行所需的數(shù)學運算。Wang意識到我們在FPGA的互連方面所擁有的技術,他可以對它做適應性改造,來創(chuàng)建一種非常擅長快速高效地加載權重、高性能和低功耗的架構(gòu)?!?/p>
需要快速連續(xù)地將數(shù)百萬個權重加載到網(wǎng)絡中,這就是每秒要做數(shù)萬億次到數(shù)十萬億次運算的AI系統(tǒng)為什么需要那么多DRAM芯片的原因。DRAM芯片上的每個引腳每秒最多可以傳輸4Gb數(shù)據(jù),因此要達到所需的每秒數(shù)百Gb的數(shù)據(jù)傳輸速度,就需要多個芯片。
在為FPGA開發(fā)最初的技術時,Wang注意到,這些芯片有約80%的面積互連,因此他尋求一種能夠縮小互連面積并考慮到更多邏輯的架構(gòu)。他和他在加州大學洛杉磯分校的同事對一種稱為folded-Bene?網(wǎng)絡的電信架構(gòu)做了適應性改造來完成這項工作。這使得FPGA架構(gòu)看起來像一堆邏輯和SRAM的瓦片(tile)。
圖片來源:Flex Logix
Flex Logix公司表示,在芯片中構(gòu)建分布式SRAM可加快計算速度并降低功耗。
Tate說,在這種專用互連方案中使用分布式SRAM最終會對深度學習的DRAM帶寬問題產(chǎn)生重大影響?!拔覀冋谟眯酒系腟RAM取代DRAM帶寬。”
圖片來源:Flex Logix
若干NMAXtile可以置于一個芯片上并連在一起,以擴大計算能力。
用于Flex Logix的AI產(chǎn)品的tile稱為NMAX,采用了臺積電的16納米技術,面積不到2平方毫米。每個tile都由一組核心組成,這些核心這些核心負責關鍵的乘法和累加計算、控制數(shù)據(jù)的處理和流動的可編程邏輯以及SRAM。這涉及三種不同類型的互連技術。一種tile上的所有零件連接在一起。另一種將tile與位于tile之間的附加SRAM及外部的DRAM相連接。第三種將相鄰的tile連接在一起。
在深度學習領域,很難進行真正的橫向比較。但Flex Logix的分析顯示,將使用1個DRAM芯片的模擬的6×6tile的NMAX512陣列與使用8個DRAM的Nvidia Tesla T4進行比較,結(jié)果是新架構(gòu)每秒能識別4,600張圖像,而Nvidia每秒識別3,920張圖像。在一項名為YOLOv3的實時視頻處理測試中,同樣大小的NMAX陣列可達到每秒22萬億次運算,而使用的DRAM帶寬是其他系統(tǒng)的十分之一。
Tate表示,首批NMAX芯片的設計將于2019年下半年送至代工廠以便進行制造。
Flex Logix將波音公司視作其高吞吐量嵌入式FPGA產(chǎn)品的客戶之一。但Tate承認,與神經(jīng)網(wǎng)絡相比,嵌入式FPGA是個很難賣的產(chǎn)品。“嵌入式FPGA是一項很好的業(yè)務,但是推理可能很快就會超越它?!盩ate說。
-
DRAM
+關注
關注
40文章
2320瀏覽量
183704 -
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4777瀏覽量
100970 -
深度學習
+關注
關注
73文章
5510瀏覽量
121349
原文標題:Flex Logix公司稱它解決了深度學習的DRAM問題
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論