0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICLR 2023 Spotlight|節(jié)省95%訓(xùn)練開(kāi)銷(xiāo),清華黃隆波團(tuán)隊(duì)提出強(qiáng)化學(xué)習(xí)專(zhuān)用稀疏訓(xùn)練框架RLx2

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-06-11 21:40 ? 次閱讀

大模型時(shí)代,模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學(xué)習(xí)可通過(guò)稀疏神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)模型壓縮和加速,那么同樣需要大量計(jì)算開(kāi)銷(xiāo)的強(qiáng)化學(xué)習(xí)任務(wù)可以基于稀疏網(wǎng)絡(luò)進(jìn)行訓(xùn)練嗎?本文提出了一種強(qiáng)化學(xué)習(xí)專(zhuān)用稀疏訓(xùn)練框架,可以節(jié)省至多 95% 的訓(xùn)練開(kāi)銷(xiāo)。

深度強(qiáng)化學(xué)習(xí)模型的訓(xùn)練通常需要很高的計(jì)算成本,因此對(duì)深度強(qiáng)化學(xué)習(xí)模型進(jìn)行稀疏化處理具有加快訓(xùn)練速度和拓展模型部署的巨大潛力。然而現(xiàn)有的生成小型模型的方法主要基于知識(shí)蒸餾,即通過(guò)迭代訓(xùn)練稠密網(wǎng)絡(luò),訓(xùn)練過(guò)程仍需要大量的計(jì)算資源。另外,由于強(qiáng)化學(xué)習(xí)自舉訓(xùn)練的復(fù)雜性,訓(xùn)練過(guò)程中全程進(jìn)行稀疏訓(xùn)練在深度強(qiáng)化學(xué)習(xí)領(lǐng)域尚未得到充分的研究。 清華大學(xué)黃隆波團(tuán)隊(duì)提出了一種強(qiáng)化學(xué)習(xí)專(zhuān)用的動(dòng)態(tài)稀疏訓(xùn)練框架,“Rigged Reinforcement Learning Lottery”(RLx2),可適用于多種離策略強(qiáng)化學(xué)習(xí)算法。它采用基于梯度的拓?fù)溲莼瓌t,能夠完全基于稀疏網(wǎng)絡(luò)訓(xùn)練稀疏深度強(qiáng)化學(xué)習(xí)模型。RLx2 引入了一種延遲多步差分目標(biāo)機(jī)制,配合動(dòng)態(tài)容量的回放緩沖區(qū),實(shí)現(xiàn)了在稀疏模型中的穩(wěn)健值學(xué)習(xí)和高效拓?fù)涮剿鳌T诙鄠€(gè) MuJoCo 基準(zhǔn)任務(wù)中,RLx2 達(dá)到了最先進(jìn)的稀疏訓(xùn)練性能,顯示出 7.5 倍至 20 倍的模型壓縮,而僅有不到 3% 的性能降低,并且在訓(xùn)練和推理中分別減少了高達(dá) 20 倍和 50 倍的浮點(diǎn)運(yùn)算數(shù)。

131cb890-085d-11ee-962d-dac502259ad0.png

  • 論文主頁(yè):https://arxiv.org/abs/2205.15043
  • 論文代碼:https://github.com/tyq1024/RLx2
背景 在游戲、機(jī)器人技術(shù)等領(lǐng)域,深度強(qiáng)化學(xué)習(xí)(DRL)已經(jīng)取得了重要的應(yīng)用。然而,深度強(qiáng)化學(xué)習(xí)模型的訓(xùn)練需要巨大的計(jì)算資源。例如,DeepMind 開(kāi)發(fā)的 AlphaGo-Zero 在圍棋游戲中擊敗了已有的圍棋 AI 和人類(lèi)專(zhuān)家,但需要在四個(gè) TPU 上進(jìn)行 40 多天的訓(xùn)練。OpenAI-Five 是 OpenAI 開(kāi)發(fā)的 Dota2 AI,同樣擊敗了人類(lèi)半職業(yè) Dota 高手,但是需要高達(dá) 256 個(gè) GPU 進(jìn)行 180 天的訓(xùn)練。實(shí)際上,即使是簡(jiǎn)單的 Rainbow DQN [Hessel et al. 2018] 算法,也需要在單個(gè) GPU 上訓(xùn)練約一周時(shí)間才能達(dá)到較好的性能。

圖:基于強(qiáng)化學(xué)習(xí)的 AlphaGo-Zero 在圍棋游戲中擊敗了已有的圍棋 AI 和人類(lèi)專(zhuān)家 高昂的資源消耗限制了深度強(qiáng)化學(xué)習(xí)在資源受限設(shè)備上的訓(xùn)練和部署。為了解決這一問(wèn)題,作者引入了稀疏神經(jīng)網(wǎng)絡(luò)。稀疏神經(jīng)網(wǎng)絡(luò)最初在深度監(jiān)督學(xué)習(xí)中提出,展示出了對(duì)深度強(qiáng)化學(xué)習(xí)模型壓縮和訓(xùn)練加速的巨大潛力。在深度監(jiān)督學(xué)習(xí)中,SET [Mocanu et al. 2018] 和 RigL [Evci et al. 2020] 等常用的基于網(wǎng)絡(luò)結(jié)構(gòu)演化的動(dòng)態(tài)稀疏訓(xùn)練(Dynamic sparse training - DST)框架可以從頭開(kāi)始訓(xùn)練一個(gè) 90% 稀疏的神經(jīng)網(wǎng)絡(luò),而不會(huì)出現(xiàn)性能下降。

13618434-085d-11ee-962d-dac502259ad0.png

圖:SET 和 RigL 等常用的稀疏訓(xùn)練框架會(huì)在訓(xùn)練的過(guò)程中周期性地調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 在深度強(qiáng)化學(xué)習(xí)領(lǐng)域,已有的工作已經(jīng)成功生成了極度稀疏的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。然而,他們的方法仍然需要迭代地訓(xùn)練稠密網(wǎng)絡(luò),往往需要預(yù)訓(xùn)練的稠密模型作為基礎(chǔ),導(dǎo)致深度強(qiáng)化學(xué)習(xí)的訓(xùn)練成本仍然過(guò)高,無(wú)法直接應(yīng)用于資源有限設(shè)備。

1379622a-085d-11ee-962d-dac502259ad0.png

圖:迭代剪枝通過(guò)迭代地訓(xùn)練稠密網(wǎng)絡(luò)得到稀疏的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò) 從頭開(kāi)始訓(xùn)練一個(gè)稀疏深度強(qiáng)化學(xué)習(xí)模型,如果能夠完美實(shí)現(xiàn),將極大地減少計(jì)算開(kāi)銷(xiāo),并實(shí)現(xiàn)在資源受限設(shè)備上的高效部署,具備優(yōu)秀的模型適應(yīng)性。然而,在深度強(qiáng)化學(xué)習(xí)中從頭開(kāi)始訓(xùn)練一個(gè)超稀疏網(wǎng)絡(luò)(例如 90% 的稀疏度)具有挑戰(zhàn)性,原因在于自舉訓(xùn)練(Bootstrap training)的非穩(wěn)定性。在深度強(qiáng)化學(xué)習(xí)中,學(xué)習(xí)目標(biāo)不是固定的,而是以自舉方式給出,訓(xùn)練數(shù)據(jù)的分布也可能是非穩(wěn)定的。此外,使用稀疏網(wǎng)絡(luò)結(jié)構(gòu)意味著在一個(gè)較小的假設(shè)空間中搜索,這進(jìn)一步降低了學(xué)習(xí)目標(biāo)的置信度。因此,不當(dāng)?shù)南∈杌赡軐?duì)學(xué)習(xí)路徑造成不可逆的傷害,導(dǎo)致性能較差。最近的研究 [Sokar et al. 2021] 表明,在深度強(qiáng)化學(xué)習(xí)中直接采用動(dòng)態(tài)稀疏訓(xùn)練框架仍然無(wú)法在不同環(huán)境中實(shí)現(xiàn)模型的良好壓縮。因此,這一重要的開(kāi)放問(wèn)題仍然懸而未決:
能否通過(guò)全程使用超稀疏網(wǎng)絡(luò)從頭訓(xùn)練出高效的深度強(qiáng)化學(xué)習(xí)智能體?

方法 清華大學(xué)黃隆波團(tuán)隊(duì)對(duì)這一問(wèn)題給出了肯定的答案,并提出了一種強(qiáng)化學(xué)習(xí)專(zhuān)用的動(dòng)態(tài)稀疏訓(xùn)練框架,“Rigged Reinforcement Learning Lottery”(RLx2),用于離策略強(qiáng)化學(xué)習(xí)(Off-policy RL)。這是第一個(gè)在深度強(qiáng)化學(xué)習(xí)領(lǐng)域以 90% 以上稀疏度進(jìn)行全程稀疏訓(xùn)練,并且僅有微小性能損失的算法框架。RLx2 受到了在監(jiān)督學(xué)習(xí)中基于梯度的拓?fù)溲莼膭?dòng)態(tài)稀疏訓(xùn)練方法 RigL [Evci et al. 2020] 的啟發(fā)。然而,直接應(yīng)用 RigL 無(wú)法實(shí)現(xiàn)高稀疏度,因?yàn)橄∈璧纳疃葟?qiáng)化學(xué)習(xí)模型由于假設(shè)空間有限而導(dǎo)致價(jià)值估計(jì)不可靠,進(jìn)而干擾了網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)溲莼?/span> 因此,RLx2 引入了延遲多步差分目標(biāo)(Delayed multi-step TD target)機(jī)制和動(dòng)態(tài)容量回放緩沖區(qū)(Dynamic capacity buffer),以實(shí)現(xiàn)穩(wěn)健的價(jià)值學(xué)習(xí)(Value learning)。這兩個(gè)新組件解決了稀疏拓?fù)湎碌膬r(jià)值估計(jì)問(wèn)題,并與基于 RigL 的拓?fù)溲莼瘻?zhǔn)則一起實(shí)現(xiàn)了出色的稀疏訓(xùn)練性能。為了闡明設(shè)計(jì) RLx2 的動(dòng)機(jī),作者以一個(gè)簡(jiǎn)單的 MuJoCo 控制任務(wù) InvertedPendulum-v2 為例,對(duì)四種使用不同價(jià)值學(xué)習(xí)和網(wǎng)絡(luò)拓?fù)涓路桨傅南∈栌?xùn)練方法進(jìn)行了比較。

139c5b4a-085d-11ee-962d-dac502259ad0.png

圖:不同網(wǎng)絡(luò)結(jié)構(gòu)更新方案的性能比較。其中,SS 表示采用靜態(tài)稀疏網(wǎng)絡(luò),RigL 表示使用基于梯度的網(wǎng)絡(luò)拓?fù)溲莼姆椒ǎ琑igL+Q * 表示使用 RigL 的拓?fù)溲莼也捎谜鎸?shí)值函數(shù)引導(dǎo)自舉訓(xùn)練的方法(真實(shí)值函數(shù)在實(shí)際算法中并不可知),RLx2 表示使用 RigL 網(wǎng)絡(luò)拓?fù)溲莼也捎米髡咚嶂倒酪龑?dǎo)自舉訓(xùn)練的方法??梢园l(fā)現(xiàn),RLx2 的性能已經(jīng)非常逼近 RigL+Q * 的方法。 下圖展示了 RLx2 算法的主要部分,包括基于梯度的拓?fù)溲莼?、延遲多步差分目標(biāo)和動(dòng)態(tài)容量回放緩沖區(qū)。

13b2918a-085d-11ee-962d-dac502259ad0.png

圖:RLx2 算法的概覽 基于梯度的拓?fù)溲莼?/strong> 在 RLx2 中,作者采用了與 RigL [Evci et al. 2020] 相同的方法來(lái)進(jìn)行拓?fù)浣Y(jié)構(gòu)的演化。作者計(jì)算了損失函數(shù)對(duì)網(wǎng)絡(luò)權(quán)重的梯度值。然后,周期性地增加稀疏網(wǎng)絡(luò)中具有較大梯度的連接,并移除權(quán)重絕對(duì)值最小的現(xiàn)有連接。通過(guò)周期性的結(jié)構(gòu)演化,獲得了一個(gè)結(jié)構(gòu)合理的稀疏神經(jīng)網(wǎng)絡(luò)。 延遲多步差分目標(biāo) RLx2 框架還引入了多步差分目標(biāo):

13d27964-085d-11ee-962d-dac502259ad0.png

這一概念在現(xiàn)有研究中 [Munos et al. 2016] 已被證實(shí)能夠改善差分學(xué)習(xí)(TD learning)。作者還發(fā)現(xiàn),引入多步目標(biāo)可以通過(guò)折扣因子減少稀疏網(wǎng)絡(luò)的擬合誤差,如下式所示:

13e98302-085d-11ee-962d-dac502259ad0.png

然而,訓(xùn)練伊始立即采用多步差分目標(biāo)可能會(huì)導(dǎo)致更大的策略不一致誤差。因此,作者額外采用了延遲方案來(lái)抑制策略不一致性并進(jìn)一步提高值函數(shù)的學(xué)習(xí)效果。 動(dòng)態(tài)容量回放緩沖區(qū) 離策略(Off-policy)算法使用回放緩沖區(qū)(Replay buffer)來(lái)存儲(chǔ)收集到的數(shù)據(jù),并使用從緩沖區(qū)中抽樣的批次數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)。研究表明 [Fedus et al. 2020],當(dāng)使用更大的回放容量時(shí),算法的性能通常會(huì)提高。然而,無(wú)限大小的回放緩沖區(qū)會(huì)因?yàn)槎嗖侥繕?biāo)的不一致性和訓(xùn)練數(shù)據(jù)的不匹配導(dǎo)致策略不一致性。動(dòng)態(tài)容量回放緩沖區(qū)是一種通過(guò)調(diào)整緩沖區(qū)容量控制緩沖區(qū)中數(shù)據(jù)的不一致性,以實(shí)現(xiàn)穩(wěn)健值函數(shù)學(xué)習(xí)的方法。作者引入了以下策略距離度量來(lái)評(píng)估緩沖區(qū)中數(shù)據(jù)的不一致性:

13ff45d4-085d-11ee-962d-dac502259ad0.png

隨著訓(xùn)練的進(jìn)行,當(dāng)回放緩存中的策略距離度量大于閾值時(shí),則停止增加緩沖區(qū)容量,使得策略距離度量始終小于設(shè)定的閾值。 實(shí)驗(yàn) 作者在四個(gè) MuJoCo 環(huán)境(HalfCheetah-v3、Hopper-v3、Walker2d-v3 和 Ant-v3),和兩個(gè)常見(jiàn)的深度強(qiáng)化學(xué)習(xí)算法 TD3 和 SAC 中進(jìn)行了實(shí)驗(yàn)。作者定義了一個(gè)終極壓縮比率,即在該比率下,RLx2 的性能下降在原始稠密模型的 ±3% 之內(nèi)。這也可以理解為具有與原始稠密模型完全相同性能的稀疏模型的最小大小。根據(jù)終極壓縮比率,作者在下表中呈現(xiàn)了不同算法在不同環(huán)境采用相同參數(shù)量的神經(jīng)網(wǎng)絡(luò)的性能。

14198e44-085d-11ee-962d-dac502259ad0.png

性能 在所有四個(gè)環(huán)境中,RLx2 的性能在很大程度上優(yōu)于所有基準(zhǔn)算法(除了 Hopper 環(huán)境中與 RigL 和 SAC 的性能相近)。此外,小型稠密網(wǎng)絡(luò)(Tiny)和隨機(jī)靜態(tài)稀疏網(wǎng)絡(luò)(SS)的性能平均最差。SET 和 RigL 的性能較好,但在 Walker2d-v3 和 Ant-v3 環(huán)境中無(wú)法保持性能,這意味著在稀疏訓(xùn)練下穩(wěn)健的價(jià)值學(xué)習(xí)是必要的。 模型壓縮 RLx2 實(shí)現(xiàn)了優(yōu)秀的壓縮比,并且僅有輕微的性能下降(不到 3%)。具體而言,使用 TD3 算法的 RLx2 實(shí)現(xiàn)了 7.5 倍至 25 倍的模型壓縮,在 Hopper-v3 環(huán)境中獲得了最佳的 25 倍壓縮比。在每個(gè)環(huán)境中,演員網(wǎng)絡(luò)(Actor network)可以壓縮超過(guò) 96% 的參數(shù),評(píng)論家網(wǎng)絡(luò)(Critic network)可以壓縮 85% 至 95% 的參數(shù)。SAC 算法的結(jié)果類(lèi)似。另外,使用 SAC 算法的 RLx2 實(shí)現(xiàn)了 5 倍至 20 倍的模型壓縮。 節(jié)省訓(xùn)練開(kāi)銷(xiāo) 與基于知識(shí)蒸餾或行為克隆的方法 [Vischer et al. 2021] 不同,RLx2 在整個(gè)訓(xùn)練過(guò)程中使用了稀疏網(wǎng)絡(luò)。因此,它具有加速訓(xùn)練并節(jié)省計(jì)算資源的額外潛力。四個(gè)環(huán)境的平均結(jié)果表明,表格中 RLx2-TD3 分別減少了 12 倍和 20 倍的訓(xùn)練和推理浮點(diǎn)運(yùn)算數(shù),RLx2-SAC 分別減少了 7 倍和 12 倍的訓(xùn)練和推理浮點(diǎn)運(yùn)算數(shù)。 總結(jié) 作者提出了一種用于離策略強(qiáng)化學(xué)習(xí)的稀疏訓(xùn)練框架 RLx2,能夠適用于各種離策略強(qiáng)化學(xué)習(xí)算法。這一框架利用基于梯度的結(jié)構(gòu)演化方法實(shí)現(xiàn)了高效的拓?fù)涮剿?,并通過(guò)延遲多步差分目標(biāo)和動(dòng)態(tài)容量回放緩沖區(qū)建立了穩(wěn)健的值函數(shù)學(xué)習(xí)。RLx2 不需要像傳統(tǒng)剪枝方法一樣預(yù)訓(xùn)練稠密網(wǎng)絡(luò),卻能夠在訓(xùn)練過(guò)程中使用超稀疏網(wǎng)絡(luò)來(lái)訓(xùn)練高效的深度強(qiáng)化學(xué)習(xí)智能體,并且?guī)缀鯖](méi)有性能損失。作者在使用 TD3 和 SAC 的 RLx2 上進(jìn)行了實(shí)驗(yàn),結(jié)果表明其稀疏訓(xùn)練性能非常出色:模型壓縮比例為 7.5 倍至 20 倍,性能下降不到 3%,訓(xùn)練和推理的浮點(diǎn)運(yùn)算數(shù)分別減少高達(dá) 20 倍和 50 倍。作者認(rèn)為未來(lái)有趣的工作包括將 RLx2 框架擴(kuò)展到更復(fù)雜的 RL 場(chǎng)景,這些場(chǎng)景對(duì)計(jì)算資源的需求更高,例如多智能體、離線強(qiáng)化學(xué)習(xí)等場(chǎng)景,也包括真實(shí)世界的復(fù)雜決策問(wèn)題而非標(biāo)準(zhǔn)的 MuJoCo 環(huán)境。 參考文獻(xiàn)1.Hessel, Matteo, et al. "Rainbow: Combining improvements in deep reinforcement learning." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.2.Mocanu, Decebal Constantin, et al. "Scalable training of artificial neural networks with adaptive sparse connectivity inspired by network science." Nature communications 9.1 (2018): 2383.3.Evci, Utku, et al. "Rigging the lottery: Making all tickets winners." International Conference on Machine Learning. PMLR, 2020.4.Sokar, Ghada, et al. "Dynamic sparse training for deep reinforcement learning." arXiv preprint arXiv:2106.04217 (2021).5.Munos, Rémi, et al. "Safe and efficient off-policy reinforcement learning." Advances in neural information processing systems 29 (2016).6.Fedus, William, et al. "Revisiting fundamentals of experience replay." International Conference on Machine Learning. PMLR, 2020.7.Vischer, Marc Aurel, Robert Tjarko Lange, and Henning Sprekeler. "On lottery tickets and minimal task representations in deep reinforcement learning." arXiv preprint arXiv:2105.01648 (2021).


原文標(biāo)題:ICLR 2023 Spotlight|節(jié)省95%訓(xùn)練開(kāi)銷(xiāo),清華黃隆波團(tuán)隊(duì)提出強(qiáng)化學(xué)習(xí)專(zhuān)用稀疏訓(xùn)練框架RLx2

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICLR 2023 Spotlight|節(jié)省95%訓(xùn)練開(kāi)銷(xiāo),清華黃隆波團(tuán)隊(duì)提出強(qiáng)化學(xué)習(xí)專(zhuān)用稀疏訓(xùn)練框架RLx2

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    清華光芯片取得新突破,邁向AI光訓(xùn)練

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)近日,清華大學(xué)發(fā)布官方消息稱(chēng),清華大學(xué)電子工程系方璐教授課題組、自動(dòng)化系戴瓊海院士課題組另辟蹊徑,首創(chuàng)了全前向智能光計(jì)算訓(xùn)練架構(gòu),研制了“太極-II”光訓(xùn)練
    的頭像 發(fā)表于 08-13 01:23 ?3230次閱讀

    大模型訓(xùn)練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個(gè)用于簡(jiǎn)化和加速深度學(xué)習(xí)模型訓(xùn)練的庫(kù),它支持在多種硬件配置上進(jìn)行分布式訓(xùn)練,包括 CPU、GPU、TPU 等。Accelerate 允許用戶(hù)
    的頭像 發(fā)表于 01-14 14:24 ?69次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)
    的頭像 發(fā)表于 11-05 17:43 ?593次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器學(xué)習(xí)庫(kù),
    的頭像 發(fā)表于 11-05 17:34 ?344次閱讀

    什么是協(xié)議分析儀和訓(xùn)練

    協(xié)議分析儀和訓(xùn)練器是兩種不同但相關(guān)的設(shè)備或工具,它們?cè)诰W(wǎng)絡(luò)通信、電子設(shè)計(jì)和測(cè)試等領(lǐng)域發(fā)揮著重要作用。以下是對(duì)這兩種設(shè)備的詳細(xì)解釋?zhuān)阂?、協(xié)議分析儀 定義:協(xié)議分析儀(Protocol Analyzer
    發(fā)表于 10-29 14:33

    冠軍說(shuō)|第二屆OpenHarmony競(jìng)賽訓(xùn)練營(yíng)冠軍團(tuán)隊(duì)專(zhuān)訪

    在剛剛結(jié)束的第三屆OpenHarmony技術(shù)大會(huì)上 今年的OpenHarmony競(jìng)賽訓(xùn)練營(yíng)獲獎(jiǎng)團(tuán)隊(duì) 舉行了星光熠熠的頒獎(jiǎng)儀式 10月11日,經(jīng)過(guò)激烈的現(xiàn)場(chǎng)決賽角逐共有10個(gè)賽隊(duì)脫穎而出 其中來(lái)自
    發(fā)表于 10-28 17:11

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?237次閱讀
    Pytorch深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>訓(xùn)練</b>的方法

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣吣P托阅?、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定
    的頭像 發(fā)表于 07-11 10:12 ?1154次閱讀

    如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集

    理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集,是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了模型學(xué)習(xí)與評(píng)估的基礎(chǔ)框架,還直接關(guān)系到模型性
    的頭像 發(fā)表于 07-10 15:45 ?4500次閱讀

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

    PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時(shí),數(shù)據(jù)集是不可或缺的組成部分。然而,很多時(shí)候,我們可能需要使用自己的數(shù)據(jù)集
    的頭像 發(fā)表于 07-02 14:09 ?1907次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過(guò)程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型,本質(zhì)上是通過(guò)優(yōu)化算法調(diào)整模型參數(shù),使模型能夠更好地?cái)M合數(shù)據(jù),提高預(yù)測(cè)或分類(lèi)的準(zhǔn)
    的頭像 發(fā)表于 07-01 16:13 ?1408次閱讀

    基于毫米的人體跟蹤和識(shí)別算法

    。雷達(dá)已被提議作為粗粒度活動(dòng)識(shí)別的替代模式,使用微多普勒頻譜圖捕捉環(huán)境信息的最小子集。然而,由于低成本毫米雷達(dá)系統(tǒng)產(chǎn)生稀疏和不均勻的點(diǎn)云,訓(xùn)練細(xì)粒度、準(zhǔn)確的活動(dòng)分類(lèi)器是一個(gè)挑戰(zhàn)。在本文中,我們
    發(fā)表于 05-14 18:40

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型:從理論到實(shí)踐

    強(qiáng)化學(xué)習(xí)展開(kāi),詳細(xì)介紹各階段使用的算法、數(shù)據(jù)、難點(diǎn)及實(shí)踐經(jīng)驗(yàn)。 預(yù)訓(xùn)練階段需要利用包含數(shù)千億甚至數(shù)萬(wàn)億單詞的訓(xùn)練數(shù)據(jù),并借助由數(shù)千塊高性能GPU 和高速網(wǎng)絡(luò)組成的超級(jí)計(jì)算機(jī),花費(fèi)數(shù)十天完成深度神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 03-11 15:16

    星動(dòng)紀(jì)元開(kāi)源人形機(jī)器人訓(xùn)練框架Humanoid-Gym

    星動(dòng)紀(jì)元,這家專(zhuān)注于人形機(jī)器人技術(shù)的創(chuàng)新公司,近日宣布計(jì)劃將其訓(xùn)練框架Humanoid-Gym進(jìn)行開(kāi)源。Humanoid-Gym是一個(gè)為人形機(jī)器人設(shè)計(jì)的訓(xùn)練框架,其開(kāi)源將極大地推動(dòng)人形
    的頭像 發(fā)表于 03-06 18:13 ?2144次閱讀

    谷歌發(fā)布ASPIRE訓(xùn)練框架,提升AI選擇性預(yù)測(cè)能力

    框架分為三步驟:“特定任務(wù)調(diào)整”、“答案采樣”以及“自我評(píng)估學(xué)習(xí)”。首先,“特定任務(wù)調(diào)整”階段針對(duì)基本訓(xùn)練的大型語(yǔ)言模型進(jìn)一步深化訓(xùn)練,重點(diǎn)提高預(yù)測(cè)能力。其次,“答案采樣”階段模型會(huì)
    的頭像 發(fā)表于 01-23 11:19 ?582次閱讀