哈希法讓深度學(xué)習(xí)告別密集計(jì)算
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評論(0)
摘要:為了能在復(fù)雜的數(shù)據(jù)集上進(jìn)行學(xué)習(xí),當(dāng)前深度學(xué)習(xí)架構(gòu)正變得越來越大。這些架構(gòu)需要極大量的矩陣乘法運(yùn)算以訓(xùn)練數(shù)以百萬計(jì)的參數(shù)。相對地,還有另一個(gè)正在發(fā)展的趨勢想要將深度學(xué)習(xí)引入低功耗的、嵌入式的設(shè)備中。這些矩陣運(yùn)算(深度網(wǎng)絡(luò)的訓(xùn)練和測試都需要)在計(jì)算和功耗上都有很高的成本。我們提出了一種全新的基于哈希法(hashing)的技術(shù),可以極大地減少深度網(wǎng)絡(luò)的訓(xùn)練和測試所需的計(jì)算量。我們的方法結(jié)合了自適應(yīng)dropout(adaptive dropout)和用于最大內(nèi)積搜索(maximum inner product search)的隨機(jī)化哈希(randomized hashing),從而可以有效地選擇有最高激活(activation)的節(jié)點(diǎn)。我們用于深度學(xué)習(xí)的新算法可以運(yùn)行在顯著更少(稀疏)的節(jié)點(diǎn)上,從而可以極大減少前向和反向傳播的總計(jì)算成本。因此,我們的算法可以僅使用5%的總乘法量就平均保持在原模型準(zhǔn)確度的1%的范圍內(nèi)。這里提出的基于哈希法的反向傳播有一個(gè)獨(dú)特的性質(zhì):其更新總是稀疏的。因?yàn)檫@種稀疏的梯度更新,我們的算法可以完美地用于異步和并行的訓(xùn)練,可以通過增加內(nèi)核的數(shù)量來實(shí)現(xiàn)近乎線性的加速。我們通過在幾個(gè)真實(shí)數(shù)據(jù)集上的嚴(yán)格評估證明了我們提出的算法的可擴(kuò)展性和可持續(xù)性(能效)。
萊斯大學(xué)的助理教授Anshumali Shrivastava說,「它應(yīng)用于任何深度學(xué)習(xí)架構(gòu),該技術(shù)都能亞線性地?cái)U(kuò)展,也就是應(yīng)用到的深度神經(jīng)網(wǎng)絡(luò)越大節(jié)省的計(jì)算越多。」
該研究將會發(fā)布在今年的 KDD 會議上被介紹,它解決了谷歌、Facebook、微軟等大公司面臨的最大難題之一。這些大公司都在爭相建立、訓(xùn)練、部署大量的深度學(xué)習(xí)網(wǎng)絡(luò)來發(fā)展不同的產(chǎn)品,例如自動駕駛汽車、翻譯、郵件智能回復(fù)。
Shrivastave 和萊斯大學(xué)的研究生Ryan Spring表示該技術(shù)來自于哈希法(hashing),一種行之有效的數(shù)據(jù)檢索方法,經(jīng)過改編可極大地減少深度學(xué)習(xí)的計(jì)算成本。哈希法使用哈希函數(shù)將數(shù)據(jù)轉(zhuǎn)換為易管理的小數(shù)值哈希(被稱作 hash)。哈希被存儲在表格中,類似于印刷書中的索引。
Spring 說:「我們的方法融合了兩項(xiàng)技術(shù)——巧妙的本地敏感性哈希法變體(variant of locality-sensitive hashing)和稀疏反向傳播變體——以減少計(jì)算需求,且不附帶大量的精確度損失。例如,在小規(guī)模的測試中發(fā)現(xiàn)我們可以降低95%的計(jì)算,但是和通過標(biāo)準(zhǔn)方法獲取的精確度依然差1%以內(nèi)。」
深度學(xué)習(xí)網(wǎng)絡(luò)的基本構(gòu)建塊是人工神經(jīng)元。盡管在1950年代就被作為生物大腦神經(jīng)元的模型,人工神經(jīng)元還僅僅是把輸入數(shù)據(jù)轉(zhuǎn)化為輸出結(jié)果的數(shù)學(xué)函數(shù)和方程式。
在機(jī)器學(xué)習(xí)中,所有神經(jīng)元都有相同的初始狀態(tài),就像白紙一樣,它們會隨著訓(xùn)練擁有各自的特定功能。在訓(xùn)練中,神經(jīng)網(wǎng)絡(luò)「看到」了大量數(shù)據(jù),每個(gè)神經(jīng)元都會成為識別數(shù)據(jù)中特定模式的專用結(jié)構(gòu)。在最底層,神經(jīng)元執(zhí)行簡單的任務(wù)。例如在圖像識別應(yīng)用中,底層神經(jīng)元或許用于識別亮/暗,或是物體的邊緣。來自這些神經(jīng)元的輸出會被傳遞到網(wǎng)絡(luò)中下一層的神經(jīng)元那里,經(jīng)受其他模式的識別和處理。僅有幾層的神經(jīng)網(wǎng)絡(luò)即可識別面部、貓狗、交通指示牌和校車等概念。
Shrivastava說:「向神經(jīng)網(wǎng)絡(luò)層級添加更多的神經(jīng)元能擴(kuò)展其表現(xiàn)性能,而我們希望神經(jīng)網(wǎng)絡(luò)沒有大小上限,據(jù)報(bào)道谷歌正在嘗試訓(xùn)練一個(gè)包含1370億神經(jīng)元的模型?!瓜啾戎?,對于訓(xùn)練和部署這樣的神經(jīng)網(wǎng)絡(luò)可能會有計(jì)算力的限制。
他說:「如今使用的大部分機(jī)器學(xué)習(xí)算法都開發(fā)于30至50年前,設(shè)計(jì)時(shí)并未考慮計(jì)算復(fù)雜性。但有了大數(shù)據(jù)之后,在資源上有了基本的限制,比如計(jì)算周期、能耗和存儲。我們實(shí)驗(yàn)室旨在解決這些限制?!?/p>
Spring表示,大規(guī)模的深度網(wǎng)絡(luò)中,哈希法將會極大地節(jié)省計(jì)算量和能耗。
他說:「節(jié)能隨著規(guī)模而增加是由于我們利用了大數(shù)據(jù)之中的稀疏性。例如,我們知道一個(gè)深度網(wǎng)絡(luò)有10億個(gè)神經(jīng)元。對于任何給定的輸入,比如一只狗的圖片,只有其中的幾個(gè)會變興奮。按照數(shù)據(jù)用語,我們將其稱為稀疏性,而正是由于稀疏性,我們的方法將在網(wǎng)絡(luò)變大之時(shí)節(jié)能更多。因此,當(dāng)我們展示了1000個(gè)神經(jīng)元的95%的節(jié)能時(shí),數(shù)學(xué)表明我們可以為10億個(gè)神經(jīng)元實(shí)現(xiàn)超過99%的節(jié)能。」
論文:通過隨機(jī)化哈希的可擴(kuò)展和可持續(xù)的深度學(xué)習(xí)(Scalable and Sustainable Deep Learning via Randomized Hashing)
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
哈希法讓深度學(xué)習(xí)告別密集計(jì)算下載
相關(guān)電子資料下載
- 深度學(xué)習(xí)在工業(yè)缺陷檢測中的應(yīng)用 63
- 探討目前主流3D激光SLAM算法方案 94
- 華為成為中國首個(gè)PyTorch基金會Premier會員 453
- 《人工智能在指揮和控制系統(tǒng)中的決策支持》 133
- 中國手機(jī)廠商發(fā)力這一領(lǐng)域 外媒:大戲剛剛開始 262
- 百度智能云推出國內(nèi)首個(gè)大模型全鏈路生態(tài)支持體系 251
- 人工智能領(lǐng)域存在第一性原理嗎? 53
- 基于機(jī)器視覺檢測技術(shù)現(xiàn)狀 41
- 自動駕駛規(guī)控決策方面的建議與解決方案 40
- 里程碑 主線科技無人集卡在舟山港開啟全天候真無人常態(tài)化運(yùn)營 166