亚洲AV永久青草无码精品,亚洲欧美日韩另类小说,久久综合亚洲一区二区三区

該研究提出了第一個在單片機上實現(xiàn)訓練的解決方案，并且系統(tǒng)協(xié)同設(shè)計（System-Algorithm Co-design）大大減少了訓練所需內(nèi)存。

說到神經(jīng)網(wǎng)絡(luò)訓練，大家的第一印象都是 GPU + 服務(wù)器 + 云平臺。傳統(tǒng)的訓練由于其巨大的內(nèi)存開銷，往往是云端進行訓練而邊緣平臺僅負責推理。然而，這樣的設(shè)計使得 AI 模型很難適應(yīng)新的數(shù)據(jù)：畢竟現(xiàn)實世界是一個動態(tài)的，變化的，發(fā)展的場景，一次訓練怎么能覆蓋所有場景呢？

為了使得模型能夠不斷的適應(yīng)新數(shù)據(jù)，我們能否在邊緣進行訓練（on-device training），使設(shè)備不斷的自我學習？在這項工作中，我們僅用了不到 256KB 內(nèi)存就實現(xiàn)了設(shè)備上的訓練，開銷不到 PyTorch 的 1/1000，同時在視覺喚醒詞任務(wù)上 (VWW) 達到了云端訓練的準確率。該項技術(shù)使得模型能夠適應(yīng)新傳感器數(shù)據(jù)。用戶在享受定制的服務(wù)的同時而無需將數(shù)據(jù)上傳到云端，從而保護隱私。

網(wǎng)站：https://tinytraining.mit.edu/

論文：https://arxiv.org/abs/2206.15472

Demo: https://www.bilibili.com/video/BV1qv4y1d7MV

代碼: https://github.com/mit-han-lab/tiny-training

背景

設(shè)備上的訓練（On-device Training）允許預(yù)訓練的模型在部署后適應(yīng)新環(huán)境。通過在移動端進行本地訓練和適應(yīng)，模型可以不斷改進其結(jié)果并為用戶定制模型。例如，微調(diào)語言模型讓其能從輸入歷史中學習；調(diào)整視覺模型使得智能相機能夠不斷識別新的物體。通過讓訓練更接近終端而不是云端，我們能有效在提升模型質(zhì)量的同時保護用戶隱私，尤其是在處理醫(yī)療數(shù)據(jù)、輸入歷史記錄這類隱私信息時。

然而，在小型的 IoT 設(shè)備進行訓練與云訓練有著本質(zhì)的區(qū)別，非常具有挑戰(zhàn)性，首先， AIoT 設(shè)備（MCU）的 SRAM 大小通常有限（256KB）。這種級別的內(nèi)存做推理都十分勉強，更不用說訓練了。再者，現(xiàn)有的低成本高效轉(zhuǎn)移學習算法，例如只訓練最后一層分類器（last FC），只進行學習 bias 項，往往準確率都不盡如人意，無法用于實踐，更不用說現(xiàn)有的深度學習框架無法將這些算法的理論數(shù)字轉(zhuǎn)化為實測的節(jié)省。最后，現(xiàn)代深度訓練框架（PyTorch，TensorFlow）通常是為云服務(wù)器設(shè)計的，即便把 batch-size 設(shè)置為 1，訓練小模型 (MobileNetV2-w0.35) 也需要大量的內(nèi)存占用。因此，我們需要協(xié)同設(shè)計算法和系統(tǒng)，以實現(xiàn)智能終端設(shè)備上的訓練。

方法與結(jié)果

我們發(fā)現(xiàn)設(shè)備上訓練有兩個獨特的挑戰(zhàn)：（1）模型在邊緣設(shè)備上是量化的。一個真正的量化圖（如下圖所示）由于低精度的張量和缺乏批量歸一化層而難以優(yōu)化；（2）小型硬件的有限硬件資源（內(nèi)存和計算）不允許完全反向傳播，其內(nèi)存用量很容易超過微控制器的 SRAM 的限制（一個數(shù)量級以上），但如果只更新最后一層，最后的精度又難免差強人意。

為了應(yīng)對優(yōu)化的困難，我們提出了 Quantization-Aware Scaling (QAS) 來自動縮放不同位精度的張量的梯度（如下左圖所示）。QAS 在不需要額外超參數(shù)的同時，可以自動匹配梯度和參數(shù) scale 并穩(wěn)定訓練。在 8 個數(shù)據(jù)集上，QAS 均可以達到與浮點訓練一致的性能（如下右圖）。

為了減少反向傳播所需要的內(nèi)存占用，我們提出了 Sparse Update，以跳過不太重要的層和子張的梯度計算。我們開發(fā)了一種基于貢獻分析的自動方法來尋找最佳更新方案。對比以往的 bias-only, last-k layers update, 我們搜索到的 sparse update 方案擁有 4.5 倍到 7.5 倍的內(nèi)存節(jié)省，在 8 個下游數(shù)據(jù)集上的平均精度甚至更高。

為了將算法中的理論減少轉(zhuǎn)換為實際數(shù)值，我們設(shè)計了 Tiny Training Engine（TTE）：它將自動微分的工作轉(zhuǎn)到編譯時，并使用 codegen 來減少運行時開銷。它還支持 graph pruning 和 reordering，以實現(xiàn)真正的節(jié)省與加速。與 Full Update 相比，Sparse Update 有效地減少了 7-9 倍的峰值內(nèi)存，并且可以通過 reorder 進一步提升至 20-21 倍的總內(nèi)存節(jié)省。相比于 TF-Lite，TTE 里經(jīng)過優(yōu)化的內(nèi)核和 sparse update 使整體訓練速度提高了 23-25 倍。

結(jié)論

本文中，我們提出了第一個在單片機上實現(xiàn)訓練的解決方案（僅用 256KB 內(nèi)存和 1MB 閃存）。我們的算法系統(tǒng)協(xié)同設(shè)計（System-Algorithm Co-design）大大減少了訓練所需內(nèi)存（1000 倍 vs PyTorch）和訓練耗時（20 倍 vs TF-Lite），并在下游任務(wù)上達到較高的準確率。Tiny Training 可以賦能許多有趣的應(yīng)用，例如手機可以根據(jù)用戶的郵件 / 輸入歷史來定制語言模型，智能相機可以不斷地識別新的面孔 / 物體，一些無法聯(lián)網(wǎng)的 AI 場景也能持續(xù)學習（例如農(nóng)業(yè)，海洋，工業(yè)流水線）。通過我們的工作，小型終端設(shè)備不僅可以進行推理，還可以進行訓練。在這過程中個人數(shù)據(jù)永遠不會上傳到云端，從而沒有隱私風險，同時 AI 模型也可以不斷自我學習，以適應(yīng)一個動態(tài)變化的世界

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

內(nèi)存

內(nèi)存

+關(guān)注

關(guān)注
8

文章
3052

瀏覽量
74252
IOT

IOT

+關(guān)注

關(guān)注
187

文章
4230

瀏覽量
197447

原文標題：用少于256KB內(nèi)存實現(xiàn)邊緣訓練，開銷不到PyTorch千分之一

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

大模型訓練框架(五)之Accelerate

Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫，它支持在多種硬件配置上進行分布式訓練，包括 C

發(fā)表于 01-14 14:24 ?107次閱讀

在邊緣設(shè)備上設(shè)計和部署深度神經(jīng)網(wǎng)絡(luò)的實用框架

???? 機器學習和深度學習應(yīng)用程序正越來越多地從云端轉(zhuǎn)移到靠近數(shù)據(jù)源頭的嵌入式設(shè)備。隨著邊緣計算市場的快速擴張，多種因素正在推動邊緣人工智

發(fā)表于 12-20 11:28 ?260次閱讀

邊緣學習:降本增效,開啟物流新未來

展現(xiàn)出獨特優(yōu)勢。邊緣學習作為深度學習的一個子集，具有易于部署和成本效益高的特點。它不需要復雜的編程知識，只需通過簡單的配置和訓練，即可快速投入使用。其

發(fā)表于 12-20 09:07 ?132次閱讀

AI模型部署邊緣設(shè)備的奇妙之旅：目標檢測模型

網(wǎng)絡(luò)（DenseNet）等創(chuàng)新設(shè)計都是為了克服深層網(wǎng)絡(luò)訓練中的挑戰(zhàn)而提出的。 3 邊緣端設(shè)備部署在邊緣端

發(fā)表于 12-19 14:33

AI模型部署邊緣設(shè)備的奇妙之旅：如何實現(xiàn)手寫數(shù)字識別

了量化操作。這意味著在整個訓練過程中，模型會“學習”如何更好地適應(yīng)量化后的環(huán)境。步驟包括：模擬量化：在前向傳播時，模擬量化過程，即用低精度數(shù)值代替高精度數(shù)值來進行計算。反向傳播與

發(fā)表于 12-06 17:20

LLM和傳統(tǒng)機器學習的區(qū)別

和訓練方法 LLM：預(yù)訓練和微調(diào)： LLM通常采用預(yù)訓練（Pre-training）和微調(diào)（Fine-tuning）的方法。預(yù)訓練階段，模

發(fā)表于 11-08 09:25 ?702次閱讀

Pytorch深度學習訓練的方法

掌握這 17 種方法，用最省力的方式，加速你的 Pytorch 深度學習訓練。

發(fā)表于 10-28 14:05 ?257次閱讀

Pytorch深度<b class='flag-5'>學習</b><b class='flag-5'>訓練</b>的方法

邊緣計算與邊緣設(shè)備的關(guān)系

邊緣計算與邊緣設(shè)備之間存在著密切的關(guān)系，它們是相互依存、相互促進的。以下是對這兩者關(guān)系的介紹：一、定義與功能邊緣計算邊緣計算是一種分布

發(fā)表于 10-24 14:33 ?425次閱讀

FPGA做深度學習能走多遠？

電子領(lǐng)域，F(xiàn)PGA 可能需要在性能、成本和功耗之間進行更精細的平衡，以滿足市場需求。 ? 市場競爭：隨著深度學習市場的不斷發(fā)展，其他技術(shù)（如 GPU、ASIC 等）也在

發(fā)表于 09-27 20:53

如何使物聯(lián)網(wǎng)邊緣設(shè)備高效節(jié)能？

電源效率對于物聯(lián)網(wǎng)的成功至關(guān)重要。設(shè)備的效率越高，其功能壽命就越長，用戶體驗就越好。您是否在組織中實施了物聯(lián)網(wǎng)解決方案，以提高物聯(lián)網(wǎng)邊緣設(shè)備的能源效率？本文重點介紹了您應(yīng)該考慮的15個

發(fā)表于 09-24 15:18 ?581次閱讀

如何<b class='flag-5'>使</b>物聯(lián)網(wǎng)<b class='flag-5'>邊緣</b><b class='flag-5'>設(shè)備</b>高效節(jié)能？

如何利用AI進行提升自我呢？

支持，包括稀疏計算、圖學習和語音處理等。選擇適合你學習目標和項目需求的框架。預(yù)訓練模型：如文心ERNIE 3.0 Tiny v2，它是一個開源的小模型，適用于端側(cè)等低資源場景，可以用于各種自然語言處理任務(wù)。理解并應(yīng)用AI技

發(fā)表于 07-19 10:46 ?646次閱讀

預(yù)訓練和遷移學習的區(qū)別和聯(lián)系

預(yù)訓練和遷移學習是深度學習和機器學習領(lǐng)域中的兩個重要概念，它們在提高模型性能、減少訓練時間和降低

發(fā)表于 07-11 10:12 ?1182次閱讀

深度學習模型訓練過程詳解

深度學習模型訓練是一個復雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓練一個深度學習模型，本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù)，使

發(fā)表于 07-01 16:13 ?1467次閱讀

部署在邊緣設(shè)備上的輕量級模型

電子發(fā)燒友網(wǎng)報道（文/李彎彎）邊緣AI算法是一種將人工智能（AI）算法和計算能力放置在接近數(shù)據(jù)源的終端設(shè)備中的策略。這種算法通常被部署在邊緣

發(fā)表于 05-11 00:17 ?2677次閱讀

ChatGPT在邊緣設(shè)備的應(yīng)用探索

這要求在更接近數(shù)據(jù)源的地方大幅提高性能，但仍然只能使用非常少的功耗，并且價格便宜。雖然訓練將繼續(xù)在云中進行，但長距離移動大量數(shù)據(jù)的成本很高，所以邊緣

發(fā)表于 04-07 12:40 ?585次閱讀

搜索歷史

能否在邊緣進行訓練（on-device training），使設(shè)備不斷的自我學習？

評論