日韩一级美一级A片,11学生粉嫩下面自慰喷水,av无码免费岛国动作片不卡

0. 這篇文章干了啥？

基于Transformer的模型已經(jīng)成為各個領(lǐng)域的主流選擇，包括自然語言處理（NLP）和計算機(jī)視覺（CV）領(lǐng)域。大部分擁有數(shù)十億參數(shù)的大型模型都基于Transformer架構(gòu)，但其異常龐大的規(guī)模給實際開發(fā)帶來了挑戰(zhàn)。例如，GPT-3模型有1750億個參數(shù)，需要約350GB的存儲空間（float16）。參數(shù)的數(shù)量龐大以及相關(guān)的計算開銷要求設(shè)備具有極高的存儲和計算能力。直接部署這樣的模型會產(chǎn)生巨大的資源成本，特別是在手機(jī)這樣的邊緣設(shè)備上的模型部署變得不切實際。

模型壓縮是減少Transformer模型開發(fā)成本的有效策略，包括修剪、量化、知識蒸餾、高效架構(gòu)設(shè)計等各種類別。網(wǎng)絡(luò)修剪直接刪除冗余組件，如塊、注意力頭、FFN層或個別參數(shù)。通過采用不同的修剪粒度和修剪標(biāo)準(zhǔn)，可以派生出不同的子模型。量化通過用較低位表示模型權(quán)重和中間特征來減少開發(fā)成本。例如，當(dāng)將一個全精度模型（float32）量化為8位整數(shù)時，存儲成本可以減少四分之一。根據(jù)計算過程，可以分為后訓(xùn)練量化（PTQ）或量化感知訓(xùn)練（QAT），其中前者只產(chǎn)生有限的訓(xùn)練成本，對于大型模型更有效。知識蒸餾作為一種訓(xùn)練策略，將知識從大模型（教師）轉(zhuǎn)移到較小模型（學(xué)生）。學(xué)生通過模擬模型的輸出和中間特征來模仿教師的行為。還可以直接降低注意力模塊或FFN模塊的計算復(fù)雜性來產(chǎn)生高效的架構(gòu)。

因此，這篇文章全面調(diào)查了如何壓縮Transformer模型，并根據(jù)量化、知識蒸餾、修剪、高效架構(gòu)設(shè)計等對方法進(jìn)行分類。在每個類別中，分別研究了NLP和CV領(lǐng)域的壓縮方法。

下面一起來閱讀一下這項工作~

作者：Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhijun Tu, Kai Han, Hailin Hu, Dacheng Tao

2. 摘要

基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用，特別是在自然語言處理（NLP）和計算機(jī)視覺（CV）領(lǐng)域。模型壓縮方法降低了它們的內(nèi)存和計算成本，這是在實際設(shè)備上實現(xiàn)Transformer模型的必要步驟。鑒于Transformer的獨特架構(gòu)，具有替代注意力和前饋神經(jīng)網(wǎng)絡(luò)（FFN）模塊，需要特定的壓縮技術(shù)。這些壓縮方法的效率也至關(guān)重要，因為通常不現(xiàn)實在整個訓(xùn)練數(shù)據(jù)集上重新訓(xùn)練大型模型。這項調(diào)查全面審查了最近的壓縮方法，重點關(guān)注它們在Transformer模型中的應(yīng)用。壓縮方法主要分為剪枝、量化、知識蒸餾和高效架構(gòu)設(shè)計。在每個類別中，我們討論了CV和NLP任務(wù)的壓縮方法，突出了共同的基本原理。最后，我們深入探討了各種壓縮方法之間的關(guān)系，并討論了該領(lǐng)域的進(jìn)一步發(fā)展方向。

3. 壓縮方法總結(jié)

Transformer模型的代表性壓縮方法總結(jié)。

基于Transformer的視覺模型的不同PTQ（Post-training quantization）和QAT（Quantization-aware training）方法的比較。W/A表示權(quán)重和激活度的位寬，結(jié)果顯示在ImageNet-1k驗證集上的精確度最高。*代表混合精度。

4. 模型量化

量化（Quantization）是在各種設(shè)備上部署 Transformer 的關(guān)鍵步驟，特別是在為低精度算術(shù)設(shè)計專用電路的 GPU和 NPU 上。在量化過程中，浮點張量被轉(zhuǎn)換為具有相應(yīng)量化參數(shù)（比例因子 s和零點 z）的整數(shù)張量，然后整數(shù)張量可以被量化回浮點數(shù)，但與原始相比會導(dǎo)致一定的精度誤差。

Transformer量化總結(jié)。頂部展示了計算機(jī)視覺和自然語言處理現(xiàn)有作品中解決的不同問題，底部顯示了標(biāo)準(zhǔn)transformer塊的正常INT8推理過程。

在NVIDIA A100-80GB GPU上使用Faster Transformer時ViT和OPT的推理延遲。

5. 知識蒸餾

知識蒸餾（Knowledge distillation，KD）旨在通過從教師網(wǎng)絡(luò)中蒸餾或傳遞知識來訓(xùn)練學(xué)生網(wǎng)絡(luò)。這篇文章主要關(guān)注的蒸餾方法是：實現(xiàn)緊湊學(xué)生模型的，同時與繁重的教師模型相比保持令人滿意的性能。學(xué)生模型通常具有較窄且較淺的架構(gòu)，使它們更適合部署在資源有限的系統(tǒng)上。并主要介紹基于 logits 的方法（在 logits 級別傳遞知識）以及基于 hint 的方法（通過中間特征傳遞知識）。

用于大型Transformer模型的知識蒸餾分類。

與以前基于transformer的語言模型蒸餾方法的比較，GLUE得分是8個任務(wù)的平均值。

6. 模型剪枝

模型剪枝包括修剪和模型訓(xùn)練的順序，結(jié)構(gòu)規(guī)范以及確定修剪參數(shù)的方式。下面總結(jié)了Transformer模型剪枝方法的分類。

視覺轉(zhuǎn)換庫典型剪枝方法的比較。

大型語言Transformer上典型剪枝方法的比較。

幾種具有代表性的基于Transformer的LLM和LVM的模型卡，帶有公開的配置詳細(xì)信息。

從訓(xùn)練并行化（TP）、推理成本（時間）和內(nèi)存復(fù)雜性（內(nèi)存）進(jìn)行模型比較。N和d分別表示序列長度和特征維數(shù)。

7. 其他壓縮方法

除了量化、蒸餾、修剪和新穎的網(wǎng)絡(luò)架構(gòu)之外，還有幾種其他模型壓縮和加速方法。

張量分解。 張量或矩陣分解旨在將大張量或矩陣分解為較小的張量或矩陣，以節(jié)省參數(shù)數(shù)量和計算成本。這種方法首先被引入到全連接層和卷積網(wǎng)絡(luò)的壓縮中。至于大型語言模型，張量分解被用于簡化模型的權(quán)重或嵌入層。

早期退出。 早期退出可以動態(tài)為每個輸入樣本分配不同的資源并保持原始性能，這在信息檢索系統(tǒng)和卷積網(wǎng)絡(luò)中已經(jīng)成功使用。許多早期退出技術(shù)已被提出用于僅編碼器的變壓器。早期退出的關(guān)鍵問題是確定何時退出?，F(xiàn)有的作品主要利用內(nèi)在的置信度度量、提前路由或訓(xùn)練一個早期退出分類器。

猜測采樣。 猜測采樣是一種特殊的Transformer解碼加速方法，通過并行計算幾個令牌來進(jìn)行。在大型語言模型中，解碼K個令牌需要模型的K次運(yùn)行，這是緩慢的。利用從較小模型生成的參考令牌，猜測采樣并行運(yùn)行這些令牌可以顯著加快解碼過程。此外，拒絕方案可以保持原始LLM的分布，從而理論上實現(xiàn)猜測采樣的無損。

8. 總結(jié) & 未來趨勢

這篇綜述系統(tǒng)地調(diào)查了Transformer模型的壓縮方法。與其他架構(gòu)（如CNN或RNN）不同，Transformer具有獨特的架構(gòu)設(shè)計，具有替代注意力和FFN模塊，因此需要專門定制的壓縮方法以獲得最佳的壓縮率。此外，對于這些大型模型，壓縮方法的效率變得特別關(guān)鍵。某些模型壓縮技術(shù)需要大量的計算資源，這可能對這些龐大的模型來說是不可行的。本調(diào)查旨在涵蓋與Transformer相關(guān)的大部分最近的工作，并闡述其壓縮的全面路線圖。隨后，深入探討了各種方法之間的相互關(guān)系，解決了后期挑戰(zhàn)，并概述了未來研究的方向。

不同壓縮方法之間的關(guān)系。 不同的壓縮方法可以一起使用，以獲得極其高效的架構(gòu)。常見的順序是首先定義一個具有高效操作的新架構(gòu)。然后刪除多余的組件（例如注意力頭、層），以獲得一個較小的模型。對于實際硬件實現(xiàn)，將權(quán)重或激活量量化為較低的位數(shù)是必不可少的。所需位數(shù)的選擇不僅取決于誤差的容忍度，還取決于硬件設(shè)計。例如，

訓(xùn)練高效的壓縮策略。 與壓縮傳統(tǒng)模型不同，對壓縮方法的計算成本的重視程度增加了。目前，大型Transformer正在使用大量的計算資源在龐大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。例如，Llama2在數(shù)千個GPU上訓(xùn)練了2萬億個令牌，持續(xù)了幾個月。在預(yù)訓(xùn)練期間使用相當(dāng)?shù)挠嬎阗Y源進(jìn)行微調(diào)是不切實際的，特別是當(dāng)原始數(shù)據(jù)通常是不可訪問的。因此，訓(xùn)練后的高效壓縮方法的可行性變得更加可行。然而，對于較低的位數(shù)（例如4位），量化模型仍然會遭受顯著的性能降低。值得注意的是，極低位模型，例如二進(jìn)制Transformer，在傳統(tǒng)的小型模型中已經(jīng)得到了廣泛的探索，但在大型模型的背景下仍然相對未知。

對于修剪來說， 后期訓(xùn)練的挑戰(zhàn)與修剪粒度緊密相關(guān)。盡管非結(jié)構(gòu)化的稀疏性可以在最小微調(diào)要求下實現(xiàn)高壓縮率，但類似的策略難以轉(zhuǎn)移到結(jié)構(gòu)性修剪中。直接刪除整個注意力頭或?qū)訉?dǎo)致模型架構(gòu)的重大改變和因此準(zhǔn)確性的顯著降低。如何識別有效權(quán)重以及如何有效地恢復(fù)性能都是洞察力方向。識別有效權(quán)重和恢復(fù)表示能力的有效策略是解決這些挑戰(zhàn)的關(guān)鍵研究方向。

超越Transformer的高效架構(gòu)。 在現(xiàn)實世界的應(yīng)用中，Transformer架構(gòu)的輸入上下文可以延伸到極長的長度，包括NLP中的序列文本（例如，一本擁有數(shù)十萬字的書）或CV中的高分辨率圖像。基礎(chǔ)注意力機(jī)制對輸入序列長度的復(fù)雜度呈二次復(fù)雜度，對于長序列輸入構(gòu)成了重大的計算挑戰(zhàn)。許多研究通過減少注意力的計算成本來解決這個問題，采用了稀疏注意力、局部注意力等技術(shù)。然而，這些注意力壓縮策略通常會損害表示能力，導(dǎo)致性能下降。

新興的架構(gòu)， 如RWKV和RetNet采用了類似于RNN的遞歸輸出生成，有效地將計算復(fù)雜度降低到O(N)。這一發(fā)展有望在探索更高效模型的過程中進(jìn)一步發(fā)展。對于計算機(jī)視覺任務(wù)，即使是沒有注意力模塊的純MLP架構(gòu)也可以實現(xiàn)SOTA性能。過仔細(xì)研究它們的效率、泛化性和擴(kuò)展能力，探索新的高效架構(gòu)是有希望的。

審核編輯：黃飛

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

變壓器

變壓器

+關(guān)注

關(guān)注
162

文章
7757

瀏覽量
138949
編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3786

瀏覽量
137617
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4925

瀏覽量
130940
人工智能

人工智能

+關(guān)注

關(guān)注
1805

文章
48905

瀏覽量
248014
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
628

瀏覽量
14092

原文標(biāo)題：GPU不夠用？網(wǎng)絡(luò)不夠快？一文看懂Transformer壓縮技巧！

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

基于Transformer模型的壓縮方法

評論

電子發(fā)燒友