0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

始于硬件卻也被硬件所限的深度學(xué)習(xí)

lPCU_elecfans ? 來源:未知 ? 2022-12-05 07:10 ? 次閱讀
電子發(fā)燒友網(wǎng)報道(文/周凱揚(yáng))深度學(xué)習(xí)硬件在AI時代已經(jīng)引領(lǐng)了不少設(shè)計創(chuàng)新,無論是簡單的邊緣推理,還是大規(guī)模自然語言模型的訓(xùn)練,都有了性能上的突破。作為業(yè)內(nèi)在深度學(xué)習(xí)上投入最多的公司之一,英偉達(dá)無疑是這類硬件的領(lǐng)軍者。
近日,在伯克利大學(xué)的電子工程與電腦科學(xué)學(xué)院研討會上,英偉達(dá)的首席科學(xué)家、研究部門高級副總裁同時兼任該校副教授的Bill Dally,分享了從他這個從業(yè)人士看來,發(fā)生在深度學(xué)習(xí)硬件上的一些趨勢。

硬件成為限制

AI的浪潮其實(shí)早在20世紀(jì)就被多次掀起過,但真正成為人們不可忽視的巨浪,還是這十幾年的事,因?yàn)檫@時候AI有了天時地利人和:算法與模型,大到足夠訓(xùn)練這些模型的數(shù)據(jù)集,以及能在合理的時間內(nèi)訓(xùn)練出這些模型的硬件。
但從帶起第一波深度學(xué)習(xí)的AlexNet,到如今的GPT-3和Turing NLG等,人們不斷在打造更大的數(shù)據(jù)集和更大的模型,加上大語言模型的興起,對訓(xùn)練的要求也就越來越高??稍谀柖梢呀?jīng)放緩的當(dāng)下,訓(xùn)練時間也在被拉長。

基于Hopper架構(gòu)的H100 GPU / 英偉達(dá)
以英偉達(dá)為例,到了帕斯卡這一代,他們才真正開始考慮單芯片的深度學(xué)習(xí)性能,并結(jié)合到GPU的設(shè)計中去,所以才有了Hopper這樣超高規(guī)格的AI硬件出現(xiàn)。但我們在訓(xùn)練這些模型的時候,并沒有在硬件規(guī)模上有所減少,仍然需要用到集成了數(shù)塊Hopper GPU的DGX系統(tǒng),甚至打造一個超算。很明顯,單從硬件這一個方向出發(fā)已經(jīng)有些不夠了,至少不是一個“高性價比”的方案。

軟硬件全棧投入

硬件推出后,仍要針對特定的模型進(jìn)行進(jìn)一步的軟件優(yōu)化,因此即便是同樣的硬件,其AI性能也會在未來呈現(xiàn)數(shù)倍的飛躍。從上個月的MLPerf的測試結(jié)果就可以看出,在A100 GPU推出的2.5年內(nèi),英偉達(dá)就靠軟件優(yōu)化實(shí)現(xiàn)了最高2.5倍的訓(xùn)練性能提升,當(dāng)然了最大的性能提升還是得靠H100這樣的新硬件來實(shí)現(xiàn)。
Bill Dally表示這就是英偉達(dá)的優(yōu)勢所在,雖然這幾年投入進(jìn)深度學(xué)習(xí)硬件的資本不少,但隨著經(jīng)濟(jì)下行,不少投資者已經(jīng)喪失了信心,所以不少AI硬件初創(chuàng)公司都沒能撐下去,他自己也在這段時間看到了不少向英偉達(dá)投遞過來的簡歷。
他認(rèn)為不少這些公司都已經(jīng)打造出了自己的矩陣乘法器,但他們并沒有在軟件上有足夠的投入,所以即便他們一開始給出的指標(biāo)很好看,也經(jīng)常拿英偉達(dá)的產(chǎn)品作為對比,未來的性能甚至比不過英偉達(dá)的上一代硬件,更別說Hopper這類新產(chǎn)品了。

加速器

相較傳統(tǒng)的通用計算硬件,加速器在深度學(xué)習(xí)上明顯要高效多了,因?yàn)榧铀倨魍际亲鳛橐环N專用單元存在的,比如針對特定的數(shù)據(jù)類型和運(yùn)算。加速器可以在一個運(yùn)算周期內(nèi)就完成通常需要花上10秒或100秒才能完成的工作量,效率最高可提升1000倍。

A100和H100的MLPerf跑分 / 英偉達(dá)
當(dāng)然了要追求純粹的性能提升,而不是效率提升的話,這些加速器也可以采用大規(guī)模并行設(shè)計,比如典型的32x32矩陣乘法單元,同時運(yùn)行的運(yùn)算有了千百倍的提升。加速器在內(nèi)存設(shè)計上也更具有優(yōu)勢,比如針對特定的數(shù)據(jù)結(jié)構(gòu)和運(yùn)算,選擇優(yōu)化過的高帶寬低能耗內(nèi)存,同時盡可能使用本地內(nèi)存,減少數(shù)據(jù)搬運(yùn)來控制開銷。
對于英偉達(dá)來說,他們在加速器上的研究更像是為GPU準(zhǔn)備的試驗(yàn)田,一旦有優(yōu)秀的成果出現(xiàn),這些加速器就會成為GPU上的新核心。

小結(jié)

從Bill Dally的分享中,我們可以看出英偉達(dá)這樣的巨頭在深度學(xué)習(xí)上選擇的技術(shù)路線,以及他們?yōu)楹文茉诒姸喑鮿?chuàng)公司涌現(xiàn)、大廠入局的當(dāng)下巋然不動的底氣。這并不是說深度學(xué)習(xí)硬件的道路只有這一條,類腦芯片等技術(shù)的出現(xiàn)也提供了新的破局機(jī)會,但有了前人經(jīng)驗(yàn)的借鑒后,在兼顧性能、數(shù)值精度、模型的同時,還是得在軟件上下大功夫才行。

聲明:本文由電子發(fā)燒友原創(chuàng),轉(zhuǎn)載請注明以上來源。如需入群交流,請?zhí)砑游⑿舉lecfans999,投稿爆料采訪需求,請發(fā)郵箱huangjingjing@elecfans.com。


更多熱點(diǎn)文章閱讀

  • 最高漲幅25%,AMD宣布上調(diào)Xilinx FPGA售價,供應(yīng)短缺讓TOP 2廠商受益
  • 時隔20年,莫斯科人汽車再次復(fù)產(chǎn),背后全是中國車企的影子
  • 歐盟超430億歐元投向芯片領(lǐng)域,對上游半導(dǎo)體設(shè)備有何影響?
  • 24W以下電源,新型自供電BJT方案將全面取代其他方案?
  • 車用芯片不再缺?芯片大廠表示有所緩解,真實(shí)情況究竟如何呢?


原文標(biāo)題:始于硬件卻也被硬件所限的深度學(xué)習(xí)

文章出處:【微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:始于硬件卻也被硬件所限的深度學(xué)習(xí)

文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    學(xué)習(xí)硬件的第一節(jié)課:學(xué)習(xí)讀懂原理圖

    學(xué)習(xí)硬件的第一節(jié)課:學(xué)習(xí)讀懂原理圖 讀懂原理圖對嵌入式軟件工程師和程序員尤為重要。在深入細(xì)節(jié)之前請注意,對所有的嵌入式設(shè)計人員來說、能懂得硬件工程師創(chuàng)建和使用的來描述其
    的頭像 發(fā)表于 12-16 16:04 ?703次閱讀
    <b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>硬件</b>的第一節(jié)課:<b class='flag-5'>學(xué)習(xí)</b>讀懂原理圖

    NPU在深度學(xué)習(xí)中的應(yīng)用

    設(shè)計的硬件加速器,它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學(xué)習(xí)算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和G
    的頭像 發(fā)表于 11-14 15:17 ?657次閱讀

    pcie在深度學(xué)習(xí)中的應(yīng)用

    深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計算能力來訓(xùn)練。傳統(tǒng)的CPU計算資源有限,難以滿足深度學(xué)習(xí)的需求。因此,GPU(圖形處理單元)和TPU(張量處理單元)等專用
    的頭像 發(fā)表于 11-13 10:39 ?419次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    能力,可以顯著提高圖像識別模型的訓(xùn)練速度和準(zhǔn)確性。例如,在人臉識別、自動駕駛等領(lǐng)域,GPU廣泛應(yīng)用于加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程。 二、自然語言處理 自然語言處理(NLP)是深度
    的頭像 發(fā)表于 10-27 11:13 ?408次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例: 一、基于FPG
    的頭像 發(fā)表于 10-25 09:22 ?249次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?877次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    并行計算的能力,可以在硬件層面并行處理大量數(shù)據(jù)。這種并行處理能力使得 FPGA 在執(zhí)行深度學(xué)習(xí)算法時速度遠(yuǎn)超傳統(tǒng)處理器,能夠提供更低的延遲和更高的吞吐量,從而加速模型訓(xùn)練和推理過程,滿足實(shí)時性要求較高
    發(fā)表于 09-27 20:53

    如何幫助孩子高效學(xué)習(xí)Python:開源硬件實(shí)踐是最優(yōu)選擇

    家長們常常擔(dān)心孩子在學(xué)習(xí)Python時所面臨的挑戰(zhàn),如復(fù)雜性、興趣保持、學(xué)習(xí)進(jìn)度和可用資源。對于希望有效教授孩子Python的家長而言,了解硬件的作用至關(guān)重要,因?yàn)榻Y(jié)合硬件項(xiàng)目的Pyt
    的頭像 發(fā)表于 09-06 09:49 ?333次閱讀

    啟明智顯:深度融合AI技術(shù),引領(lǐng)硬件產(chǎn)品全面智能化升級

    啟明智顯,作為AI領(lǐng)域的先行者,正以前所未有的決心和行動力,深度融合先進(jìn)的人工智能技術(shù),引領(lǐng)硬件產(chǎn)品全面智能化升級
    的頭像 發(fā)表于 07-18 16:11 ?416次閱讀
    啟明智顯:<b class='flag-5'>深度</b>融合AI技術(shù),引領(lǐng)<b class='flag-5'>硬件</b>產(chǎn)品全面智能化升級

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?1004次閱讀

    EVASH Ultra EEPROM:美國權(quán)威雜志評為優(yōu)秀硬件存儲廠商

    EVASH Ultra EEPROM:美國權(quán)威雜志評為優(yōu)秀硬件存儲廠商
    的頭像 發(fā)表于 07-01 12:53 ?350次閱讀

    EVASH Ultra EEPROM:Google認(rèn)定為五大硬件廠商之一

    EVASH Ultra EEPROM:Google認(rèn)定為五大硬件廠商之一
    的頭像 發(fā)表于 07-01 12:47 ?341次閱讀

    深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化

    深度神經(jīng)網(wǎng)絡(luò)模型可以看做由多個算子連接而成的有向無環(huán)圖,圖中每個算子代表一類操作(如乘法、卷積),連接各個算子的邊表示數(shù)據(jù)流動。在部署深度神經(jīng)網(wǎng)絡(luò)的過程中,為了適應(yīng)硬件平臺的優(yōu)化、硬件
    的頭像 發(fā)表于 05-16 14:24 ?989次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>編譯工具鏈中的核心——圖優(yōu)化

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測、識別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入深度學(xué)習(xí)技術(shù),使得
    發(fā)表于 04-23 17:18 ?1312次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

    ,這使得它比一般處理器更高效。但是,很難對 FPGA 進(jìn)行編程,Larzul 希望通過自己公司開發(fā)的新平臺解決這個問題。 專業(yè)的人工智能硬件已經(jīng)成為了一個獨(dú)立的產(chǎn)業(yè),但對于什么是深度學(xué)習(xí)算法的最佳
    發(fā)表于 03-21 15:19