0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

transformer模型詳解:Transformer 模型的壓縮方法

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-07-17 10:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

動機(jī)&背景

Transformer 模型在各種自然語言任務(wù)中取得了顯著的成果,但內(nèi)存和計(jì)算資源的瓶頸阻礙了其實(shí)用化部署。低秩近似和結(jié)構(gòu)化剪枝是緩解這一瓶頸的主流方法。然而,作者通過分析發(fā)現(xiàn),結(jié)構(gòu)化剪枝在高稀疏率時(shí)往往不可避免地刪除表達(dá)神經(jīng)元,這將導(dǎo)致模型性能嚴(yán)重降低。低秩近似則旨在壓縮表達(dá)神經(jīng)元,它對于壓縮神經(jīng)元中的相干部分十分有效,其本質(zhì)就是提取神經(jīng)元共享相干子空間的公共基,該方法在 Transformer 結(jié)構(gòu)上也遇到了困難,不同于 CNN,Transformer 模型的權(quán)重矩陣往往是滿秩的,這導(dǎo)致低秩近似會破壞神經(jīng)元的多樣性,從而影響模型的表達(dá)能力。

為了解決結(jié)構(gòu)化剪枝和低秩近似的局限性和困難,本文提出了一種新的模型壓縮技術(shù) LoSparse(Low-Rank and Sparse approximation),該技術(shù)通過低秩矩陣和稀疏矩陣的和來近似權(quán)重矩陣。這種復(fù)合近似將相干部分與神經(jīng)元的非相干部分解耦。低秩近似壓縮神經(jīng)元中的連貫和表達(dá)部分,而修剪去除神經(jīng)元中的不連貫和非表達(dá)部分。從這個意義上說,低秩近似可以防止剪枝過度去除表達(dá)神經(jīng)元,而稀疏近似增強(qiáng)了低秩近似的多樣性。

3. 方法:LoSparse

本文提出了一種 Transformer 模型的壓縮方法——LoSparse。具體來說,LoSparse 通過低秩矩陣和稀疏矩陣的和來近似權(quán)重矩陣(如圖 1 所示)。這兩個近似的組合使得壓縮方法更有效和穩(wěn)定。

4a564b1a-23c8-11ee-962d-dac502259ad0.png圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進(jìn)行前向傳遞)

圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進(jìn)行前向傳遞)

3.1 低秩矩陣和稀疏矩陣的近似

給定一個權(quán)重矩陣 ,通常采用結(jié)構(gòu)化剪枝稀疏矩陣 來近似 以進(jìn)行壓縮。然而,稀疏矩陣近似導(dǎo)致性能不佳,尤其是當(dāng)壓縮比率較高時(shí)。因此,本文引入了一個低秩矩陣來改進(jìn)近似。具體來說,權(quán)重矩陣可以表示為:

其中 和 的乘積表示秩為 的低秩矩陣。

4a7a9e66-23c8-11ee-962d-dac502259ad0.png圖 2. 語言模型的奇異值

圖 2. 語言模型的奇異值

為什么需要低秩矩陣?首先,它可以有效地逼近神經(jīng)元的相干部分。如圖 2 所示,我們可以看到語言模型中權(quán)重矩陣的頻譜在開始時(shí)迅速下降。這表明權(quán)重矩陣中的神經(jīng)元有一個共同的子空間,可以看作是這些神經(jīng)元的連貫部分。此外,公共子空間可以通過頂部奇異值的奇異向量來恢復(fù)。其次,低秩矩陣和稀疏矩陣的解耦使得剪枝變得容易。圖 2 中的尾譜表示每個神經(jīng)元跨越它們的單個子空間,可以表示這些神經(jīng)元的非相干部分。由于這些子空間不共享,因此低秩近似無法捕獲非相干部分。幸運(yùn)的是,低秩矩陣能夠?qū)⑾喔刹糠峙c神經(jīng)元的非相干部分解耦。這使我們能夠通過添加一個新的矩陣 來近似剩余的不連貫部分,然后修剪非表達(dá)不連貫的部分。圖 3 表明,大多數(shù)不連貫的部分在解耦后具有較低的重要性分?jǐn)?shù),這有助于剪枝刪除這些冗余參數(shù)。

4ab4dde2-23c8-11ee-962d-dac502259ad0.png圖3. 線性投影的神經(jīng)元的重要性得分分布情況(ITP vs LoSparse)

圖3. 線性投影的神經(jīng)元的重要性得分分布情況(ITP vs LoSparse)

3.2 算法

給定一個預(yù)訓(xùn)練的權(quán)重矩陣 ,我們首先基于 的奇異值分解(SVD)初始化秩 的低秩矩陣。具體來說,本文選擇:

在此基礎(chǔ)上,我們可以初始化 為:

原始的前向傳遞()可替換為更高效的形式:

LoSparse 對模型的每個權(quán)重矩陣應(yīng)用這樣的分解,并將 表示為所有稀疏矩陣的集合。初始化后,本文對 進(jìn)行迭代結(jié)構(gòu)化剪枝。具體來說,在第 次迭代時(shí),我們首先采用隨機(jī)梯度下降更新 、 和 。重要性得分和迭代更新策略均采用標(biāo)準(zhǔn)設(shè)置(一階泰勒評估重要性+三次時(shí)間表的迭代衰減策略)。具體算法見算法 1。

4aca28e6-23c8-11ee-962d-dac502259ad0.pngUntitled

4. 實(shí)驗(yàn)

自然語言理解:表 1 和 表 2 分別展示了 DeBERTaV3-base 和 BERT-base 模型上各個壓縮方法在 GLUE 上的表現(xiàn)。LoSparse 表現(xiàn)出了遠(yuǎn)超其他方法的性能,與此同時(shí),它還比其他方法更穩(wěn)定,這是因?yàn)?LoSparse 方法中每個權(quán)重矩陣至少有一個低秩矩陣來保證連貫和表達(dá)神經(jīng)元信息的不過分丟失。

4ae445a0-23c8-11ee-962d-dac502259ad0.png表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

4af61d48-23c8-11ee-962d-dac502259ad0.png表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

問答任務(wù):表 3 對比了 LoSparse 方法在 SQuAD v1.1 上的表現(xiàn)。在所有壓縮比率下,LoSparse 都優(yōu)于其他壓縮方法,尤其是在更高壓縮比的情況下。

4b087560-23c8-11ee-962d-dac502259ad0.png表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)

自然語言生成:表 4 說明在自然語言生成任務(wù)上,LoSparse 仍然表現(xiàn)優(yōu)異,在各個壓縮比下優(yōu)于現(xiàn)有方法。值得注意的是,LoSparse 在更困難的摘要任務(wù)上表現(xiàn)更好。

4b2485d4-23c8-11ee-962d-dac502259ad0.png表 4. XSum 上 BART-Large 的壓縮結(jié)果(Ratio表示剩余權(quán)重比例,最佳結(jié)果以粗體顯示)

表 4. XSum 上 BART-Large 的壓縮結(jié)果(Ratio表示剩余權(quán)重比例,最佳結(jié)果以粗體顯示)

消融實(shí)驗(yàn):論文分析了稀疏近似的有效性和稀疏分配的影響(低秩矩陣和稀疏矩陣的權(quán)重占比),實(shí)驗(yàn)表明本文提出的稀疏近似對于性能有很大正貢獻(xiàn),且 LoSparse 對稀疏分配策略相對魯棒,具體細(xì)節(jié)可見原文。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3504

    瀏覽量

    50205
  • 神經(jīng)元
    +關(guān)注

    關(guān)注

    1

    文章

    368

    瀏覽量

    18795
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6465

原文標(biāo)題:標(biāo)題:ICML 2023 | LoSparse:低秩近似和結(jié)構(gòu)化剪枝的有機(jī)組合

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

    Transformer模型在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指讓機(jī)器在與環(huán)境互動的過程中,通過試錯來學(xué)習(xí)最優(yōu)的行為策略。
    發(fā)表于 02-20 09:55 ?2.3w次閱讀
    一文<b class='flag-5'>詳解</b><b class='flag-5'>Transformer</b>神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?3841次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    大語言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer這一概念也走進(jìn)了大眾視野。Transformer是一種非常流行的深度學(xué)習(xí)模型,最早于2017年
    的頭像 發(fā)表于 12-25 08:36 ?5310次閱讀
    大語言<b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先,概述自然語言的基本表示,這是理解大語言模型技術(shù)的前提。接著,詳細(xì)介紹自然語言處理預(yù)訓(xùn)練的經(jīng)典結(jié)構(gòu)Transformer,以及其工作原理,為構(gòu)建大語言
    發(fā)表于 05-05 12:17

    詳解ABBYY PDF Transformer+從文件創(chuàng)建PDF文檔

    可使用ABBYY PDF Transformer+從Microsoft Word、Microsoft Excel、Microsoft PowerPoint、HTML、RTF、Microsoft
    發(fā)表于 10-17 14:13

    你了解在單GPU上就可以運(yùn)行的Transformer模型

    最近,谷歌推出了Reformer架構(gòu),Transformer模型旨在有效地處理處理很長的時(shí)間序列的數(shù)據(jù)(例如,在語言處理多達(dá)100萬個單詞)。Reformer的執(zhí)行只需要更少的內(nèi)存消耗,并且即使在
    發(fā)表于 11-02 15:19

    Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

    隨著Transformer在視覺中的崛起,Transformer在多模態(tài)中應(yīng)用也是合情合理的事情,甚至以后可能會有更多的類似的paper。
    的頭像 發(fā)表于 03-25 09:29 ?1.1w次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的多模態(tài)學(xué)習(xí)應(yīng)用

    使用跨界模型Transformer來做物體檢測!

    用了Transformer 架構(gòu)開發(fā)的一個目標(biāo)檢測模型。在這篇文章中,我將通過分析DETR架構(gòu)的內(nèi)部工作方式來幫助提供一些關(guān)于它的直覺。 下面,我將解釋一些結(jié)構(gòu),但是如果你只是想了解如何使用模型,可以直接跳到代碼部分
    的頭像 發(fā)表于 06-10 16:04 ?2467次閱讀
    使用跨界<b class='flag-5'>模型</b><b class='flag-5'>Transformer</b>來做物體檢測!

    Microsoft使用NVIDIA Triton加速AI Transformer模型應(yīng)用

    Microsoft 的目標(biāo)是,通過結(jié)合使用 Azure 與 NVIDIA GPU 和 Triton 推理軟件,率先將一系列強(qiáng)大的 AI Transformer 模型投入生產(chǎn)用途。
    的頭像 發(fā)表于 04-02 13:04 ?2020次閱讀

    Transformer結(jié)構(gòu)及其應(yīng)用詳解

    本文首先詳細(xì)介紹Transformer的基本結(jié)構(gòu),然后再通過GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名應(yīng)用工作的介紹并附上GitHub鏈接,看看Transformer是如何在各個著名的
    的頭像 發(fā)表于 06-08 09:56 ?2625次閱讀
    <b class='flag-5'>Transformer</b>結(jié)構(gòu)及其應(yīng)用<b class='flag-5'>詳解</b>

    基于Transformer的大型語言模型(LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解它們的內(nèi)部
    的頭像 發(fā)表于 06-25 15:08 ?1886次閱讀
    基于<b class='flag-5'>Transformer</b>的大型語言<b class='flag-5'>模型</b>(LLM)的內(nèi)部機(jī)制

    基于 Transformer 的分割與檢測方法

    ,并能做出屬于自己的 SAM 模型,那么接下這篇 Transformer-Based 的 Segmentation Survey 是不容錯過!近期,南洋理工大學(xué)和上海人工智能實(shí)驗(yàn)室?guī)孜谎芯咳藛T寫了一篇
    的頭像 發(fā)表于 07-05 10:18 ?1445次閱讀
    基于 <b class='flag-5'>Transformer</b> 的分割與檢測<b class='flag-5'>方法</b>

    基于Transformer模型壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?1025次閱讀
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的<b class='flag-5'>壓縮</b><b class='flag-5'>方法</b>

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Trans
    的頭像 發(fā)表于 07-02 11:41 ?2529次閱讀

    Transformer語言模型簡介與實(shí)現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于
    的頭像 發(fā)表于 07-10 11:48 ?2910次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品