動機(jī)&背景
Transformer 模型在各種自然語言任務(wù)中取得了顯著的成果,但內(nèi)存和計(jì)算資源的瓶頸阻礙了其實(shí)用化部署。低秩近似和結(jié)構(gòu)化剪枝是緩解這一瓶頸的主流方法。然而,作者通過分析發(fā)現(xiàn),結(jié)構(gòu)化剪枝在高稀疏率時(shí)往往不可避免地刪除表達(dá)神經(jīng)元,這將導(dǎo)致模型性能嚴(yán)重降低。低秩近似則旨在壓縮表達(dá)神經(jīng)元,它對于壓縮神經(jīng)元中的相干部分十分有效,其本質(zhì)就是提取神經(jīng)元共享相干子空間的公共基,該方法在 Transformer 結(jié)構(gòu)上也遇到了困難,不同于 CNN,Transformer 模型的權(quán)重矩陣往往是滿秩的,這導(dǎo)致低秩近似會破壞神經(jīng)元的多樣性,從而影響模型的表達(dá)能力。
為了解決結(jié)構(gòu)化剪枝和低秩近似的局限性和困難,本文提出了一種新的模型壓縮技術(shù) LoSparse(Low-Rank and Sparse approximation),該技術(shù)通過低秩矩陣和稀疏矩陣的和來近似權(quán)重矩陣。這種復(fù)合近似將相干部分與神經(jīng)元的非相干部分解耦。低秩近似壓縮神經(jīng)元中的連貫和表達(dá)部分,而修剪去除神經(jīng)元中的不連貫和非表達(dá)部分。從這個意義上說,低秩近似可以防止剪枝過度去除表達(dá)神經(jīng)元,而稀疏近似增強(qiáng)了低秩近似的多樣性。
3. 方法:LoSparse
本文提出了一種 Transformer 模型的壓縮方法——LoSparse。具體來說,LoSparse 通過低秩矩陣和稀疏矩陣的和來近似權(quán)重矩陣(如圖 1 所示)。這兩個近似的組合使得壓縮方法更有效和穩(wěn)定。
圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進(jìn)行前向傳遞)
圖 1. LoSparse 在單個線性投影矩陣的示意圖(兩部分并行進(jìn)行前向傳遞)
3.1 低秩矩陣和稀疏矩陣的近似
給定一個權(quán)重矩陣 ,通常采用結(jié)構(gòu)化剪枝稀疏矩陣 來近似 以進(jìn)行壓縮。然而,稀疏矩陣近似導(dǎo)致性能不佳,尤其是當(dāng)壓縮比率較高時(shí)。因此,本文引入了一個低秩矩陣來改進(jìn)近似。具體來說,權(quán)重矩陣可以表示為:
其中 和 的乘積表示秩為 的低秩矩陣。
圖 2. 語言模型的奇異值
圖 2. 語言模型的奇異值
為什么需要低秩矩陣?首先,它可以有效地逼近神經(jīng)元的相干部分。如圖 2 所示,我們可以看到語言模型中權(quán)重矩陣的頻譜在開始時(shí)迅速下降。這表明權(quán)重矩陣中的神經(jīng)元有一個共同的子空間,可以看作是這些神經(jīng)元的連貫部分。此外,公共子空間可以通過頂部奇異值的奇異向量來恢復(fù)。其次,低秩矩陣和稀疏矩陣的解耦使得剪枝變得容易。圖 2 中的尾譜表示每個神經(jīng)元跨越它們的單個子空間,可以表示這些神經(jīng)元的非相干部分。由于這些子空間不共享,因此低秩近似無法捕獲非相干部分。幸運(yùn)的是,低秩矩陣能夠?qū)⑾喔刹糠峙c神經(jīng)元的非相干部分解耦。這使我們能夠通過添加一個新的矩陣 來近似剩余的不連貫部分,然后修剪非表達(dá)不連貫的部分。圖 3 表明,大多數(shù)不連貫的部分在解耦后具有較低的重要性分?jǐn)?shù),這有助于剪枝刪除這些冗余參數(shù)。
圖3. 線性投影的神經(jīng)元的重要性得分分布情況(ITP vs LoSparse)
圖3. 線性投影的神經(jīng)元的重要性得分分布情況(ITP vs LoSparse)
3.2 算法
給定一個預(yù)訓(xùn)練的權(quán)重矩陣 ,我們首先基于 的奇異值分解(SVD)初始化秩 的低秩矩陣。具體來說,本文選擇:
在此基礎(chǔ)上,我們可以初始化 為:
原始的前向傳遞()可替換為更高效的形式:
LoSparse 對模型的每個權(quán)重矩陣應(yīng)用這樣的分解,并將 表示為所有稀疏矩陣的集合。初始化后,本文對 進(jìn)行迭代結(jié)構(gòu)化剪枝。具體來說,在第 次迭代時(shí),我們首先采用隨機(jī)梯度下降更新 、 和 。重要性得分和迭代更新策略均采用標(biāo)準(zhǔn)設(shè)置(一階泰勒評估重要性+三次時(shí)間表的迭代衰減策略)。具體算法見算法 1。
Untitled
4. 實(shí)驗(yàn)
自然語言理解:表 1 和 表 2 分別展示了 DeBERTaV3-base 和 BERT-base 模型上各個壓縮方法在 GLUE 上的表現(xiàn)。LoSparse 表現(xiàn)出了遠(yuǎn)超其他方法的性能,與此同時(shí),它還比其他方法更穩(wěn)定,這是因?yàn)?LoSparse 方法中每個權(quán)重矩陣至少有一個低秩矩陣來保證連貫和表達(dá)神經(jīng)元信息的不過分丟失。
表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)
表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)
表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)
表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)
問答任務(wù):表 3 對比了 LoSparse 方法在 SQuAD v1.1 上的表現(xiàn)。在所有壓縮比率下,LoSparse 都優(yōu)于其他壓縮方法,尤其是在更高壓縮比的情況下。
表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)
表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果(Ratio 表示剩余權(quán)重比例,N.A.表示模型不收斂,最佳結(jié)果以粗體顯示)
自然語言生成:表 4 說明在自然語言生成任務(wù)上,LoSparse 仍然表現(xiàn)優(yōu)異,在各個壓縮比下優(yōu)于現(xiàn)有方法。值得注意的是,LoSparse 在更困難的摘要任務(wù)上表現(xiàn)更好。
表 4. XSum 上 BART-Large 的壓縮結(jié)果(Ratio表示剩余權(quán)重比例,最佳結(jié)果以粗體顯示)
表 4. XSum 上 BART-Large 的壓縮結(jié)果(Ratio表示剩余權(quán)重比例,最佳結(jié)果以粗體顯示)
消融實(shí)驗(yàn):論文分析了稀疏近似的有效性和稀疏分配的影響(低秩矩陣和稀疏矩陣的權(quán)重占比),實(shí)驗(yàn)表明本文提出的稀疏近似對于性能有很大正貢獻(xiàn),且 LoSparse 對稀疏分配策略相對魯棒,具體細(xì)節(jié)可見原文。
-
模型
+關(guān)注
關(guān)注
1文章
3504瀏覽量
50205 -
神經(jīng)元
+關(guān)注
關(guān)注
1文章
368瀏覽量
18795 -
Transformer
+關(guān)注
關(guān)注
0文章
151瀏覽量
6465
原文標(biāo)題:標(biāo)題:ICML 2023 | LoSparse:低秩近似和結(jié)構(gòu)化剪枝的有機(jī)組合
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

如何使用MATLAB構(gòu)建Transformer模型

大語言模型背后的Transformer,與CNN和RNN有何不同

【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)
詳解ABBYY PDF Transformer+從文件創(chuàng)建PDF文檔
你了解在單GPU上就可以運(yùn)行的Transformer模型嗎
Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

使用跨界模型Transformer來做物體檢測!

Microsoft使用NVIDIA Triton加速AI Transformer模型應(yīng)用
Transformer結(jié)構(gòu)及其應(yīng)用詳解

基于Transformer的大型語言模型(LLM)的內(nèi)部機(jī)制

基于 Transformer 的分割與檢測方法

基于Transformer模型的壓縮方法

評論