2018年7月18日,自適應(yīng)和智能計(jì)算公司賽靈思(Xilinx, Inc.)宣布完成對(duì)專注于神經(jīng)網(wǎng)絡(luò)剪枝、深度壓縮技術(shù)及系統(tǒng)級(jí)優(yōu)化的中國(guó)AI芯片公司深鑒科技的收購(gòu)。
這是迄今為止第一家中國(guó)AI芯片初創(chuàng)公司與全球芯片領(lǐng)軍廠商的深度綁定。
深鑒科技CTO單羿在近日舉辦的賽靈思全球開(kāi)發(fā)者大會(huì)上表示,公司此前本身在深度學(xué)習(xí)方面有一定的技術(shù)積累,用戶不需要寫底層的RTL,就可以通過(guò)提供的API接口,進(jìn)行應(yīng)用的開(kāi)發(fā),可以進(jìn)一步降低開(kāi)發(fā)者的難度,這是最適合客戶的開(kāi)發(fā)模式。
賽靈思在客戶積累以及服務(wù)方面,有著豐富的經(jīng)驗(yàn)和能力,對(duì)于創(chuàng)業(yè)公司而言,一般是缺乏客戶的開(kāi)發(fā)能力,以及后續(xù)的技術(shù)支持方面的能力。
因此對(duì)于深鑒而言,同賽靈思合作,可以彌補(bǔ)這一方面的劣勢(shì),更快的將產(chǎn)品推廣給更廣范圍的用戶,省去教育用戶的開(kāi)銷。
另外,賽靈思和深鑒科技雙方對(duì)于客戶的看法是一樣的,今天的AI的算法是一直在變化的,ASIC的做法并不適用,加之流片的成本也越來(lái)越高,周期較長(zhǎng),傳統(tǒng)的做法并不是適應(yīng)這個(gè)變化極快的時(shí)代。
FPGA在靈活性方面有著不可比擬的優(yōu)勢(shì),目前的頻率是在數(shù)百兆HZ,未來(lái)也會(huì)根據(jù)需求以及技術(shù)的成熟,達(dá)到過(guò)GHZ的頻率;FPGA上也有著豐富的DSP資源,充分的互聯(lián),接口眾多。這些特性都對(duì)應(yīng)了這個(gè)AI算法快速迭代發(fā)展的時(shí)代。
因此,雙方的優(yōu)勢(shì)和互補(bǔ)性使得彼此走到了一起。
深鑒提供全棧的解決方案,包括基本的檢測(cè)、追蹤、分割等算法,比如汽車檢測(cè)、行人檢測(cè)、交通標(biāo)志牌識(shí)別的參考算法,免費(fèi)給用戶。既有標(biāo)準(zhǔn)化的優(yōu)化算法技巧,也給用戶定制化的可能。
這些方案是基于FPGA的部署,深鑒科技實(shí)際上做的就是DPU的設(shè)計(jì),處理器的架構(gòu)中,有自己的存儲(chǔ)訪問(wèn)的Hardware、調(diào)度器、微體系結(jié)構(gòu)等。有了這些之后,用戶使用CNN就會(huì)變得高效,有一定的可編程性。
一.
DNNDK降低AI startup門檻
為了方便用戶使用,深鑒科技開(kāi)發(fā)了一套軟件的工具DNNDK(Deep Neural Network Development Kit,深度學(xué)習(xí)開(kāi)發(fā)與部署全棧式解決方案)。
最新的版本可支持兩種賽靈思的方案,ZCU102和ZCU104。這個(gè)工具每月會(huì)定期的更新,方便用戶下載使用。
對(duì)于AI創(chuàng)業(yè)公司而言,能夠使其具備競(jìng)爭(zhēng)力的,就是產(chǎn)品的差異化,而差異化是需要在軟件上不斷的訓(xùn)練不同的模型。
訓(xùn)練模型是需要依賴算法團(tuán)隊(duì)的實(shí)力,很少有創(chuàng)業(yè)公司能夠兼顧模型精準(zhǔn)和短小精悍。為了讓用戶無(wú)差異的使用相同的處理器平臺(tái),提供了模型壓縮技術(shù)。
通過(guò)自動(dòng)化工具,可以訓(xùn)練模型,經(jīng)過(guò)不長(zhǎng)的時(shí)間,就可以得到一個(gè)精簡(jiǎn)、輕量化的模型。深鑒科技的自動(dòng)化模型壓縮工具,是基于硬件進(jìn)行的,因此更適合硬件加速。
壓縮工具工作主要有兩個(gè)步驟,量化和剪枝,量化就是改變參數(shù),從浮點(diǎn)表達(dá)變成定點(diǎn)表達(dá),剪枝就是去掉無(wú)用的部分,比如一些連接和神經(jīng)元。
分類網(wǎng)絡(luò)的壓縮結(jié)果,保證壓縮的精度變化不大。比如SSD+VGG壓縮能夠在保證網(wǎng)絡(luò)成倍數(shù)減小的同時(shí),精度不發(fā)生太大變化,同時(shí)運(yùn)行速度還會(huì)有提升。
這些技術(shù)不僅可以用于安防,同樣也可以用在自動(dòng)駕駛中。
模型壓縮的下一步,可通過(guò)增強(qiáng)學(xué)習(xí)或者機(jī)器學(xué)習(xí)的方式,提升工具的自我進(jìn)化,去掉人類因素的干擾;另外一方面,做更低bit的量化,這個(gè)量化技術(shù)是下一步模型壓縮中關(guān)鍵的技術(shù)。
二.
突破1Tops/天花板
對(duì)于AI處理器而言,算力大小是一個(gè)重要的指標(biāo),但如果應(yīng)用到終端上的時(shí)候,單位功耗下的算力才是硬實(shí)力,尤其是汽車行業(yè)。
目前CNN卷積網(wǎng)絡(luò)處理器的天花板是1Tops/w,而無(wú)論FPGA、ASIC還是GPU,都徘徊在這個(gè)指標(biāo)附近,如果要完成更復(fù)雜的工作,更精細(xì)化的處理,就必須要提升這個(gè)關(guān)鍵性指標(biāo)。
單羿表示,因?yàn)檫@個(gè)天花板是在寬bit的量化性能下得到的,所以要改變這個(gè)值必然要換一種方式。
目前的解決方式有兩種,Sparsity和Low Precision,前者實(shí)際上是模型壓縮,將網(wǎng)絡(luò)的模型變小,后者是將參數(shù)的位寬變小,使得硬件在同樣的DSP下,能夠支持更多的乘法和加法的運(yùn)算。
在Sparsity方面,深鑒團(tuán)隊(duì)從算法、軟件、硬件方面分別進(jìn)行了探索。這方面有不少的挑戰(zhàn),比如隨機(jī)MEM的訪問(wèn)和固定格式的計(jì)算,帶來(lái)計(jì)算的低效,非常挑戰(zhàn)體系結(jié)構(gòu)的設(shè)計(jì);
另外一方面就是在壓縮模型的同時(shí)進(jìn)行稀疏,以及為了稀疏,需要做的一些索引。隨著稀疏的增加,花費(fèi)的資源越多,最終會(huì)使得壓縮工作沒(méi)辦法進(jìn)行。
Low Precision方面,2018年的時(shí)候,ISSCC已經(jīng)開(kāi)始嘗試一些更低bit,從原來(lái)的8bit已經(jīng)延生到了1bit。
學(xué)術(shù)界之所以這樣做,是因?yàn)橥瑯庸南?,更低bit比更高bit的算力能提升一個(gè)數(shù)量級(jí),模型大小的存儲(chǔ)量也會(huì)大大的降低。存儲(chǔ)量的降低意味著可以把更多的參數(shù)放到片上來(lái)進(jìn)行,片上帶寬極高,latency也會(huì)短。而用FPGA做Low Precision的方式是比較恰當(dāng)?shù)摹?/p>
深鑒科技此前的做法是,將FPGA中敏感的層,保留8bit,不敏感的層,用其它較低bit代替。當(dāng)然這樣的處理方式也給處理器的設(shè)計(jì)帶來(lái)問(wèn)題,因?yàn)閐sp原來(lái)是支持8bit,現(xiàn)在卻要支持更多bit。
深鑒使用了2bit和6bit,3bit和5bit的搭配方式,適合與賽靈思FPGA的架構(gòu),使得量化過(guò)程中不同層可以使用不同的位寬,從而達(dá)到提升效率的目的。
通過(guò)以上兩種方式,處理器單位瓦數(shù)下的算力,就有可能提升。
三.
FPGA的減法
自動(dòng)駕駛是當(dāng)下一個(gè)火熱的應(yīng)用,其需要進(jìn)行目標(biāo)檢測(cè)、分割、可行駛區(qū)域、以及行人車道線的識(shí)別等等,這些工作都是需要不同層網(wǎng)絡(luò)進(jìn)行計(jì)算處理。但這些工作同時(shí)用FPGA來(lái)做,系統(tǒng)負(fù)擔(dān)會(huì)非常大。
為此,深鑒科技提出了一個(gè)通過(guò)多任務(wù)模型的訓(xùn)練,得到單一網(wǎng)絡(luò)的方案,復(fù)用特征提取層的運(yùn)算,把運(yùn)算量最大的部分放到FPGA中的一個(gè)網(wǎng)絡(luò)中進(jìn)行。
而不同任務(wù)中,不同層的計(jì)算才可能會(huì)進(jìn)行多次,從而達(dá)到緩解FPGA處理器運(yùn)算壓力的目的。
在系統(tǒng)級(jí)的優(yōu)化方面,可以簡(jiǎn)化攝像頭的圖像處理,傳統(tǒng)的攝像頭內(nèi)部有ISP、編解碼等等,分屬不同芯片處理,而通過(guò)使用賽靈思的FPGA,則只需要一塊芯片既可以完成,內(nèi)部不僅有DSP資源,同時(shí)還集成了第三方的ISP的庫(kù),可搭載一個(gè)完整的系統(tǒng)。
-
FPGA
+關(guān)注
關(guān)注
1630文章
21769瀏覽量
604646 -
cnn
+關(guān)注
關(guān)注
3文章
353瀏覽量
22265
原文標(biāo)題:Sparsity+Low Precision突破CNN天花板 | GGAI技術(shù)
文章出處:【微信號(hào):ilove-ev,微信公眾號(hào):高工智能汽車】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論