0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)高效化與專用處理芯片設(shè)計(jì)

5b9O_deeplearni ? 來源:未知 ? 作者:胡薇 ? 2018-06-22 09:55 ? 次閱讀

“夫因樸生文,因拙生巧,相因相生,以至今日?!痹?a href="http://www.wenjunhu.com/v/tag/150/" target="_blank">人工智能領(lǐng)域,機(jī)器學(xué)習(xí)研究與芯片行業(yè)的發(fā)展,即是一個(gè)相因相生的過程。自第一個(gè)深度網(wǎng)絡(luò)提出,深度學(xué)習(xí)歷經(jīng)幾次寒冬,直至近年,才真正帶來一波AI應(yīng)用的浪潮,這很大程度上歸功于GPU處理芯片的發(fā)展。與此同時(shí),由于AI應(yīng)用場(chǎng)景的多元化,深度學(xué)習(xí)在端側(cè)的應(yīng)用需求日益迫切,也促使芯片行業(yè)開展面向深度學(xué)習(xí)的專用芯片設(shè)計(jì)。如果能夠?qū)⑸疃?a href="http://www.wenjunhu.com/v/tag/2562/" target="_blank">算法與芯片設(shè)計(jì)相結(jié)合,將大大拓展AI的應(yīng)用邊界,真正將智能從云端落地。本文中,來自中科院自動(dòng)化所的程健研究員,將帶著大家一方面探索如何將深度學(xué)習(xí)高效化,另一方面討論如何針對(duì)深度算法來設(shè)計(jì)專用處理芯片。文末,提供文中提到參考文獻(xiàn)的下載鏈接。

上圖是本次匯報(bào)的大綱,主要從深度學(xué)習(xí)發(fā)展現(xiàn)狀、面臨的挑戰(zhàn)、神經(jīng)網(wǎng)絡(luò)加速算法設(shè)計(jì)、深度學(xué)習(xí)芯片設(shè)計(jì)和對(duì)未來的展望五個(gè)方面來展開。

首先我們來看一下深度學(xué)習(xí)的發(fā)展現(xiàn)狀。毋庸置疑的是深度學(xué)習(xí)目前在各個(gè)領(lǐng)域都取得了一些突破性的進(jìn)展,上圖展示了深度學(xué)習(xí)目前廣泛應(yīng)用的領(lǐng)域。

深度學(xué)習(xí)近年來取得的長足發(fā)展離不開三個(gè)方面,上圖展示了其不可或缺的三個(gè)要素。一是隨著互聯(lián)網(wǎng)的發(fā)展產(chǎn)生的大數(shù)據(jù),二是游戲行業(yè)的發(fā)展促使的如GPU計(jì)算資源的迅速發(fā)展,三是近年來研究者們對(duì)于深度學(xué)習(xí)模型的研究。在目前的情況下,給定一個(gè)應(yīng)用場(chǎng)景,我們可以使用大量的數(shù)據(jù)和計(jì)算資源搭建非常深的網(wǎng)絡(luò)模型來達(dá)到比較高的性能。然而在實(shí)際應(yīng)用中,這些復(fù)雜網(wǎng)絡(luò)由于需要很高的計(jì)算量難以很好地部署到設(shè)備上以滿足實(shí)際應(yīng)用的需求,所以如何減少深度神經(jīng)網(wǎng)絡(luò)計(jì)算量,成為深度學(xué)習(xí)領(lǐng)域中的研究熱點(diǎn)。

另一方面,面向深度學(xué)習(xí)設(shè)計(jì)的芯片也受到了越來越多的關(guān)注。目前一些通用的芯片如CPU不能很好地適應(yīng)神經(jīng)網(wǎng)絡(luò)這種計(jì)算量非常密集的操作,而計(jì)算能力強(qiáng)大的GPU由于其價(jià)格和功耗因素很難在大量終端設(shè)備上部署。所以如何設(shè)計(jì)一個(gè)面向深度學(xué)習(xí)的專用芯片達(dá)到速度和功耗的要求是目前比較火熱的研究方向。

雖然現(xiàn)在對(duì)神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)和深度學(xué)習(xí)芯片設(shè)計(jì)的研究很多,但依舊面臨很多挑戰(zhàn)。

面臨的挑戰(zhàn)之一是越來越復(fù)雜的網(wǎng)絡(luò)模型,上圖展示了近年來主流網(wǎng)絡(luò)模型的參數(shù)和計(jì)算量等信息??梢钥闯鲭S著網(wǎng)絡(luò)規(guī)模越來越大,網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜,由此帶來的越來越大的計(jì)算量會(huì)是一個(gè)挑戰(zhàn)。

面臨的挑戰(zhàn)之二是深度學(xué)習(xí)復(fù)雜多變的應(yīng)用場(chǎng)景,主要包括在移動(dòng)設(shè)備上算不好、穿戴設(shè)備上算不了、數(shù)據(jù)中心算不起三個(gè)方面。由于移動(dòng)設(shè)備和可穿戴設(shè)備本身硬件比較小,允許運(yùn)行的計(jì)算量非常有限,在面臨非常復(fù)雜多變的應(yīng)用場(chǎng)景的時(shí)候,往往不能滿足實(shí)際需求。而目前存在的一些移動(dòng)中心的計(jì)算由于其代價(jià)昂貴使得大多數(shù)人只能望而卻步。

面臨的挑戰(zhàn)之三是近年來摩爾定理隨著時(shí)間推移的失效,不能像以前一樣僅僅依靠在硬件上堆疊晶體管來實(shí)現(xiàn)物理層面的性能提升。

目前深度學(xué)習(xí)面臨的三個(gè)挑戰(zhàn)促使我們從兩個(gè)方面去思考,一是網(wǎng)絡(luò)模型本身優(yōu)化的問題,二是設(shè)計(jì)面向深度學(xué)習(xí)專用芯片來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的高效計(jì)算。下面分別從這兩個(gè)方面進(jìn)行闡述。

在深度學(xué)習(xí)模型的優(yōu)化計(jì)算方面,包括一些最近幾年研究的工作,上圖展示了三種方式,下面主要列出了一些比較適合芯片的神經(jīng)網(wǎng)絡(luò)加速計(jì)算的方法。

首先對(duì)于神經(jīng)網(wǎng)絡(luò)大部分的計(jì)算,無論是卷積層還是全連接層都可以轉(zhuǎn)換成矩陣乘的基礎(chǔ)操作,上圖展示了這個(gè)過程,所以對(duì)矩陣乘進(jìn)行加速的方法都可以引入到神經(jīng)網(wǎng)絡(luò)的加速中來,包括低秩分解、網(wǎng)絡(luò)稀疏化、低精度表示等方法。

上圖展示了低秩分解的基本思想,將原來大的權(quán)重矩陣分解成多個(gè)小的矩陣,右邊的小矩陣的計(jì)算量都比原來大矩陣的計(jì)算量要小,這是低秩分解的基本出發(fā)點(diǎn)。

低秩分解有很多方法,最基本的是奇異值分解SVD。上圖是微軟在2016年的工作,將卷積核矩陣先做成一個(gè)二維的矩陣,再做SVD分解。上圖右側(cè)相當(dāng)于用一個(gè)R的卷積核做卷積,再對(duì)R的特征映射做深入的操作。從上面可以看到,雖然這個(gè)R的秩非常小,但是輸入的通道S還是非常大的。

為了解決SVD分解過程中通道S比較大的問題,我們從另一個(gè)角度出發(fā),沿著輸入的方向?qū)做降維操作,這就是上圖展示的Tucker分解的思想。具體操作過程是:將原來的卷積,首先在S維度上做一個(gè)低維的表達(dá),再做一個(gè)正常的3×3的卷積,最后再做一個(gè)升維的操作。

在SVD分解和Tucker分解之后的一些工作主要是做了更進(jìn)一步的分解。上圖展示了使用微調(diào)的CP分解加速神經(jīng)網(wǎng)絡(luò)的方法。在原來的四維張量上,在每個(gè)維度上都做類似1×1的卷積,轉(zhuǎn)化為第二行的形式,在每一個(gè)維度上都用很小的卷積核去做卷積。在空間維度上,大部分都是3×3的卷積,所以空間的維度很小,可以轉(zhuǎn)化成第三行的形式,在輸入和輸出通道上做低維分解,但是在空間維度上不做分解,類似于MobileNet。

上圖展示了我們?cè)?016年的工作,結(jié)合了上述兩種分解方法各自的優(yōu)勢(shì)。首先把輸入?yún)?shù)做降維,然后在第二個(gè)卷積的時(shí)候,做分組操作,這樣可以降低第二個(gè)3×3卷積的計(jì)算量,最后再做升維操作。另一方面由于分組是分塊卷積,它是有結(jié)構(gòu)的稀疏,所以在實(shí)際中可以達(dá)到非常高的加速,我們使用VGG網(wǎng)絡(luò)在手機(jī)上的實(shí)驗(yàn)可以達(dá)到5-6倍的實(shí)際加速效果。

第二個(gè)方面是網(wǎng)絡(luò)的剪枝,基本思想是刪除卷積層中一些不重要的連接。

上圖展示了在NIP2015上提出的非常經(jīng)典的三階段剪枝的方法。首先訓(xùn)練一個(gè)全精度網(wǎng)絡(luò),隨后刪除一些不重要的節(jié)點(diǎn),后面再去訓(xùn)練權(quán)重。這種非結(jié)構(gòu)化的剪枝的方法,雖然它的理論計(jì)算量可以壓縮到很低,但是收益是非常低的,比如在現(xiàn)在的CPU或者GPU框架下很難達(dá)到非常高的加速效果。所以下面這種結(jié)構(gòu)化的剪枝技術(shù)越來越多。

從去年的ICCV就有大量基于channel sparsity的工作。上面是其中的一個(gè)示意圖,相當(dāng)于對(duì)每一個(gè)feature map定義其重要性,把不重要的給刪除掉,這樣產(chǎn)生的稀疏就是有規(guī)則的,我們可以達(dá)到非常高的實(shí)際加速效果。

第三個(gè)方面是低比特量化,上圖展示了具體操作方法。目前的低比特量化方法和上面提到的低秩分解、網(wǎng)絡(luò)剪枝這兩種方法是可結(jié)合的。左側(cè)是不同的比特?cái)?shù)在計(jì)算機(jī)上的存儲(chǔ)方式,右側(cè)是不同操作的功耗。可以看出來低比特的功耗遠(yuǎn)遠(yuǎn)小于高比特浮點(diǎn)數(shù)操作的功耗。

上圖是在定點(diǎn)表示里面最基本的方法:BNN和BWN。在網(wǎng)絡(luò)進(jìn)行計(jì)算的過程中,可以使用定點(diǎn)的數(shù)據(jù)進(jìn)行計(jì)算,由于是定點(diǎn)計(jì)算,實(shí)際上是不可導(dǎo)的,于是提出使用straight-through方法將輸出的估計(jì)值直接傳給輸入層做梯度估計(jì)。在網(wǎng)絡(luò)訓(xùn)練過程中會(huì)保存兩份權(quán)值,用定點(diǎn)的權(quán)值做網(wǎng)絡(luò)前向后向的計(jì)算,整個(gè)梯度累積到浮點(diǎn)的權(quán)值上,整個(gè)網(wǎng)絡(luò)就可以很好地訓(xùn)練,后面幾乎所有的量化方法都會(huì)沿用這種訓(xùn)練的策略。前面包括BNN這種網(wǎng)絡(luò)在小數(shù)據(jù)集上可以達(dá)到跟全精度網(wǎng)絡(luò)持平的精度,但是在ImageNet這種大數(shù)據(jù)集上還是表現(xiàn)比較差。

上圖展示了ECCV2016上一篇名為XNOR-Net的工作,其思想相當(dāng)于在做量化的基礎(chǔ)上,乘了一個(gè)尺度因子,這樣大大降低了量化誤差。他們提出的BWN,在ImageNet上可以達(dá)到接近全精度的一個(gè)性能,這也是首次在ImageNet數(shù)據(jù)集上達(dá)到這么高精度的網(wǎng)絡(luò)。

上圖展示了阿里巴巴冷聰?shù)热俗龅耐ㄟ^ADMM算法求解binary約束的低比特量化工作。從凸優(yōu)化的角度,在第一個(gè)優(yōu)化公式中,f(w)是網(wǎng)絡(luò)的損失函數(shù),后面會(huì)加入一項(xiàng)W在集合C上的loss來轉(zhuǎn)化為一個(gè)優(yōu)化問題。這個(gè)集合C取值只有正負(fù)1,如果W在滿足約束C的時(shí)候,它的loss就是0;W在不滿足約束C的時(shí)候它的loss就是正無窮。為了方便求解還引進(jìn)了一個(gè)增廣變量,保證W是等于G的,這樣的話就可以用ADMM的方法去求解。

他們?cè)贏lexNet和ResNet上達(dá)到了比BWN更高的精度,已經(jīng)很接近全精度網(wǎng)絡(luò)的水平。

上圖是我們今年通過Hashing方法做的網(wǎng)絡(luò)權(quán)值二值化工作。第一個(gè)公式是我們最常用的哈希算法的公式,其中S表示相似性,后面是兩個(gè)哈希函數(shù)之間的內(nèi)積。我們?cè)谏窠?jīng)網(wǎng)絡(luò)做權(quán)值量化的時(shí)候采用第二個(gè)公式,第一項(xiàng)表示輸出的feature map,其中X代表輸入的feature map,W表示量化前的權(quán)值,第二項(xiàng)表示量化后輸出的feature map,其中B相當(dāng)于量化后的權(quán)值,通過第二個(gè)公式就將網(wǎng)絡(luò)的量化轉(zhuǎn)化成類似第一個(gè)公式的Hashing方式。通過最后一行的定義,就可以用Hashing的方法來求解Binary約束。

我們做了實(shí)驗(yàn),達(dá)到了比之前任何一個(gè)網(wǎng)絡(luò)都高的精度,非常接近全精度網(wǎng)絡(luò)的性能。

上圖是我們?cè)贑VPR2017上的工作。實(shí)際中借助了矩陣分解和定點(diǎn)變換的優(yōu)勢(shì),對(duì)原始權(quán)值矩陣直接做一個(gè)定點(diǎn)分解,限制分解后的權(quán)值只有+1、-1、0三個(gè)值。將網(wǎng)絡(luò)變成三層的網(wǎng)絡(luò),首先是正常的3×3的卷積,對(duì)feature map做一個(gè)尺度的縮放,最后是1×1的卷積,所有的卷積的操作都有+1、-1、0。

上圖是我們?cè)贗mageNet數(shù)據(jù)集上與流行的網(wǎng)絡(luò)模型做的對(duì)比實(shí)驗(yàn),可以看出我們提出的FFN與一些網(wǎng)絡(luò)相比已經(jīng)達(dá)到甚至超過全精度網(wǎng)絡(luò)的性能;雖然與ResNet-50相比還存在一些性能上的損失,但是相比之前的方法損失已經(jīng)小了很多。

下面講述一些專門針對(duì)深度學(xué)習(xí)芯片設(shè)計(jì)的工作。

上圖是2017年芯片設(shè)計(jì)兩個(gè)頂會(huì)ISCA和ISSCC上與deep learning相關(guān)session情況,這兩個(gè)會(huì)議上都有專門針對(duì)深度學(xué)習(xí)的討論可以看出深度學(xué)習(xí)對(duì)芯片設(shè)計(jì)產(chǎn)生了巨大影響。

首先是上圖中谷歌在2017年推出的的TPU,設(shè)計(jì)了矩陣基本乘法的單元,使用int8來表示,還專門針對(duì)芯片上包括權(quán)值的所有數(shù)據(jù)設(shè)計(jì)了一些緩沖區(qū)域。

上圖是中科院計(jì)算所研發(fā)的寒武紀(jì)。它在思想上實(shí)際和TPU有一點(diǎn)相似,實(shí)際中專門針對(duì)CNN設(shè)計(jì)了一些計(jì)算單元,還對(duì)常用的一些卷積神經(jīng)網(wǎng)絡(luò)中的操作專門設(shè)計(jì)了一些指令,這樣芯片可以達(dá)到452GOP/s的高速度和485Mw的低功耗。

上圖是清華大學(xué)2016年在FPGA平臺(tái)上使用了VGG16所做的早期工作,采用類似正常網(wǎng)絡(luò)的計(jì)算思路,在FPGA上實(shí)現(xiàn)了VGG16,可以達(dá)到4.5幀每秒的速度。

上圖是MIT發(fā)布的一款名為Eyeriss的芯片,把正常的3×3卷積核操作做差分運(yùn)算,將每一行做一個(gè)類似的處理,在卷積核進(jìn)來以后,對(duì)整個(gè)feature map掃描以后,再把數(shù)據(jù)給拋掉。

上面對(duì)3×3的卷積核的處理只是針對(duì)一行,如果并行處理三行,就是上面這張圖。將三行都保存在片上,藍(lán)色的部分相當(dāng)于特征,對(duì)其使用類似于一個(gè)流水線的方式進(jìn)行處理,最左邊的圖表示一二三,中間是三三四,右邊是三四五,用這種方式把feature map在芯片上所有位置的響應(yīng)都計(jì)算出來。

上面是我們2018年在DATE上的工作,我們和清華大學(xué)使用相同的板子做了VGG16。我們的出發(fā)點(diǎn)是這樣的,由于VGG16的feature map非常大,所以在計(jì)算過程中我們不可避免地需要在內(nèi)存和板子上搬數(shù)據(jù),這會(huì)帶來非常大的功耗。如果我們一次要搬這個(gè)數(shù)據(jù)的話,無論是從功耗還是速度的角度都有很大的損失。我們從算法和硬件結(jié)合的角度考慮,首先從算法上對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行分塊的操作,將上面正常的卷積,分成2×2的四塊,本來從A1計(jì)算B1的時(shí)候需要A2和A3的信息,現(xiàn)在在算法的層面把這些依賴都去掉,就可以轉(zhuǎn)化成下面的這種方式。所有對(duì)B1的計(jì)算只依賴于A1,得到B1以后不需要等B2和B3的計(jì)算結(jié)果,就可以直接使用B1去計(jì)算C1,而且還可以把A1、B1、C1的操作做層之間的合并,這樣計(jì)算時(shí)延非常低,并且我們?cè)谡麄€(gè)網(wǎng)絡(luò)的運(yùn)算過程中不需要大量的內(nèi)存,從而大幅提高了神經(jīng)網(wǎng)絡(luò)的計(jì)算速度。

下面談一談我們能看到的對(duì)神經(jīng)網(wǎng)絡(luò)未來的展望。

1. 首先前面提到的二值化方法大多都是針對(duì)權(quán)值的二值化,對(duì)這些網(wǎng)絡(luò)的feature map做8比特的量化,很容易達(dá)到類似于feature map是浮點(diǎn)數(shù)的性能。如果我們能夠把feature map也做成binary的話,無論是在現(xiàn)有的硬件還是在專用的硬件上都可以達(dá)到更好的性能。但是性能上還有很大損失。所以如何更高效地二值化網(wǎng)絡(luò)也是未來研究的熱點(diǎn)。

2. 目前在訓(xùn)練階段的一些量化操作都是針對(duì)測(cè)試階段的。如果我們要設(shè)計(jì)一款有自主學(xué)習(xí)能力的芯片,則需要在訓(xùn)練的階段實(shí)現(xiàn)量化,我們可以在芯片實(shí)際使用的時(shí)候在線更新權(quán)值,這是未來發(fā)展的一個(gè)趨勢(shì)。

3. 另一個(gè)方面是不需要重新訓(xùn)練,或者只需要無監(jiān)督訓(xùn)練的網(wǎng)絡(luò)加速與壓縮方法?,F(xiàn)在的網(wǎng)絡(luò)加速方法都是做了一些網(wǎng)絡(luò)壓縮以后還要做大量的fine-tuning操作,但是實(shí)際使用中用戶給定一個(gè)網(wǎng)絡(luò),如果我們可以使用不需要重新訓(xùn)練,或者我們只是用一部分不帶標(biāo)簽的數(shù)據(jù)就可以對(duì)這個(gè)網(wǎng)絡(luò)進(jìn)行壓縮的話,這是一個(gè)非常有實(shí)用價(jià)值的研究方向。

4. 面向不同的任務(wù),現(xiàn)在進(jìn)行加速的方法,包括面向深度學(xué)習(xí)的芯片,大部分都是針對(duì)分類任務(wù)去做的。但是在實(shí)際應(yīng)用中,分類是一個(gè)最基礎(chǔ)的工作,而像目標(biāo)檢測(cè)、圖像分割的應(yīng)用也非常的廣泛,對(duì)這些任務(wù)進(jìn)行加速也是非常重要的問題。

5. 單獨(dú)做神經(jīng)網(wǎng)絡(luò)或芯片架構(gòu)的優(yōu)化都很難做得非常好,兩個(gè)方面結(jié)合起來協(xié)同優(yōu)化會(huì)更好。這些就是我們能看到的一些未來的發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47425

    瀏覽量

    238960
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5507

    瀏覽量

    121277

原文標(biāo)題:深度學(xué)習(xí)高效計(jì)算與處理器設(shè)計(jì)

文章出處:【微信號(hào):deeplearningclass,微信公眾號(hào):深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NPU在深度學(xué)習(xí)中的應(yīng)用

    設(shè)計(jì)的硬件加速器,它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對(duì)深度學(xué)習(xí)算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和G
    的頭像 發(fā)表于 11-14 15:17 ?691次閱讀

    pcie在深度學(xué)習(xí)中的應(yīng)用

    深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算能力來訓(xùn)練。傳統(tǒng)的CPU計(jì)算資源有限,難以滿足深度學(xué)習(xí)的需求。因此,GPU(圖形處理單元)和TPU
    的頭像 發(fā)表于 11-13 10:39 ?438次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    能力,可以顯著提高圖像識(shí)別模型的訓(xùn)練速度和準(zhǔn)確性。例如,在人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域,GPU被廣泛應(yīng)用于加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程。 二、自然語言處理 自然語言處理(NLP)是
    的頭像 發(fā)表于 10-27 11:13 ?416次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來進(jìn)行訓(xùn)練和推理。深度學(xué)習(xí)算法為AI大模型提供了核心的技術(shù)支撐,使得大模型能夠更好地?cái)M
    的頭像 發(fā)表于 10-23 15:25 ?918次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    的應(yīng)用場(chǎng)景。 ? 可重構(gòu)性:在深度學(xué)習(xí)高速迭代的情況下,F(xiàn)PGA 比一些專用芯片(如 ASIC)具有更強(qiáng)的靈活性。當(dāng)深度
    發(fā)表于 09-27 20:53

    深度學(xué)習(xí)模型中的過擬合與正則

    測(cè)試數(shù)據(jù)或新數(shù)據(jù)上表現(xiàn)不佳的現(xiàn)象。為了解決這個(gè)問題,正則(Regularization)技術(shù)應(yīng)運(yùn)而生,成為深度學(xué)習(xí)中不可或缺的一部分。本文將從過擬合的原因、表現(xiàn)、正則的原理、方法及
    的頭像 發(fā)表于 07-09 15:56 ?1018次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域。然而,深度
    的頭像 發(fā)表于 07-09 10:50 ?825次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。
    的頭像 發(fā)表于 07-05 09:47 ?973次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)常用的Python庫,包括核心庫、可視化工具、深度學(xué)習(xí)框架、自然語言處理庫以及數(shù)據(jù)抓取庫等,并詳細(xì)分析它們的功能和優(yōu)勢(shì)。
    的頭像 發(fā)表于 07-03 16:04 ?668次閱讀

    深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型在訓(xùn)練過程中,往往會(huì)遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化與調(diào)試是確保其性能優(yōu)越的關(guān)鍵步驟。本文將從數(shù)據(jù)預(yù)
    的頭像 發(fā)表于 07-01 11:41 ?868次閱讀

    ai芯片是什么東西 ai芯片和普通芯片的區(qū)別

    AI芯片是專門為人工智能應(yīng)用設(shè)計(jì)的處理器,它們能夠高效地執(zhí)行AI算法,特別是機(jī)器學(xué)習(xí)深度學(xué)習(xí)
    的頭像 發(fā)表于 03-21 18:11 ?7195次閱讀

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

    ,這使得它比一般處理器更高效。但是,很難對(duì) FPGA 進(jìn)行編程,Larzul 希望通過自己公司開發(fā)的新平臺(tái)解決這個(gè)問題。 專業(yè)的人工智能硬件已經(jīng)成為了一個(gè)獨(dú)立的產(chǎn)業(yè),但對(duì)于什么是深度學(xué)習(xí)
    發(fā)表于 03-21 15:19

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,已成為人工智能領(lǐng)域的一項(xiàng)變革性技術(shù),在從計(jì)算機(jī)視覺、自然語言處理到自動(dòng)駕駛汽車等廣泛的應(yīng)用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?642次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    芯來科技正式發(fā)布首款專用處理器產(chǎn)品線Nuclei Intelligence系列

    本土RISC-V CPU IP領(lǐng)軍企業(yè)——芯來科技正式發(fā)布首款針對(duì)人工智能應(yīng)用的專用處理器產(chǎn)品線Nuclei Intelligence(NI)系列,以及NI系列的第一款A(yù)I專用RISC-V處理器CPU IP——NI900系列內(nèi)核
    的頭像 發(fā)表于 02-26 10:15 ?1304次閱讀
    芯來科技正式發(fā)布首款<b class='flag-5'>專用處理</b>器產(chǎn)品線Nuclei Intelligence系列

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時(shí)代,錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線,通過深度
    的頭像 發(fā)表于 01-11 10:51 ?2212次閱讀
    詳解<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用