人妻91无码久久一二三区免费,老真人三级片a级,国产精品老女人精品视频

動機(jī)&背景

Transformer 模型在各種自然語言任務(wù)中取得了顯著的成果，但內(nèi)存和計(jì)算資源的瓶頸阻礙了其實(shí)用化部署。低秩近似和結(jié)構(gòu)化剪枝是緩解這一瓶頸的主流方法。然而，作者通過分析發(fā)現(xiàn)，結(jié)構(gòu)化剪枝在高稀疏率時(shí)往往不可避免地刪除表達(dá)神經(jīng)元，這將導(dǎo)致模型性能嚴(yán)重降低。低秩近似則旨在壓縮表達(dá)神經(jīng)元，它對于壓縮神經(jīng)元中的相干部分十分有效，其本質(zhì)就是提取神經(jīng)元共享相干子空間的公共基，該方法在 Transformer 結(jié)構(gòu)上也遇到了困難，不同于 CNN，Transformer 模型的權(quán)重矩陣往往是滿秩的，這導(dǎo)致低秩近似會破壞神經(jīng)元的多樣性，從而影響模型的表達(dá)能力。

為了解決結(jié)構(gòu)化剪枝和低秩近似的局限性和困難，本文提出了一種新的模型壓縮技術(shù) LoSparse（Low-Rank and Sparse approximation），該技術(shù)通過低秩矩陣和稀疏矩陣的和來近似權(quán)重矩陣。這種復(fù)合近似將相干部分與神經(jīng)元的非相干部分解耦。低秩近似壓縮神經(jīng)元中的連貫和表達(dá)部分，而修剪去除神經(jīng)元中的不連貫和非表達(dá)部分。從這個意義上說，低秩近似可以防止剪枝過度去除表達(dá)神經(jīng)元，而稀疏近似增強(qiáng)了低秩近似的多樣性。

3. 方法：LoSparse

本文提出了一種 Transformer 模型的壓縮方法——LoSparse。具體來說，LoSparse 通過低秩矩陣和稀疏矩陣的和來近似權(quán)重矩陣（如圖 1 所示）。這兩個近似的組合使得壓縮方法更有效和穩(wěn)定。

圖 1. LoSparse 在單個線性投影矩陣的示意圖（兩部分并行進(jìn)行前向傳遞）

3.1 低秩矩陣和稀疏矩陣的近似

給定一個權(quán)重矩陣，通常采用結(jié)構(gòu)化剪枝稀疏矩陣來近似以進(jìn)行壓縮。然而，稀疏矩陣近似導(dǎo)致性能不佳，尤其是當(dāng)壓縮比率較高時(shí)。因此，本文引入了一個低秩矩陣來改進(jìn)近似。具體來說，權(quán)重矩陣可以表示為：

其中和的乘積表示秩為的低秩矩陣。

圖 2. 語言模型的奇異值

為什么需要低秩矩陣？首先，它可以有效地逼近神經(jīng)元的相干部分。如圖 2 所示，我們可以看到語言模型中權(quán)重矩陣的頻譜在開始時(shí)迅速下降。這表明權(quán)重矩陣中的神經(jīng)元有一個共同的子空間，可以看作是這些神經(jīng)元的連貫部分。此外，公共子空間可以通過頂部奇異值的奇異向量來恢復(fù)。其次，低秩矩陣和稀疏矩陣的解耦使得剪枝變得容易。圖 2 中的尾譜表示每個神經(jīng)元跨越它們的單個子空間，可以表示這些神經(jīng)元的非相干部分。由于這些子空間不共享，因此低秩近似無法捕獲非相干部分。幸運(yùn)的是，低秩矩陣能夠?qū)⑾喔刹糠峙c神經(jīng)元的非相干部分解耦。這使我們能夠通過添加一個新的矩陣來近似剩余的不連貫部分，然后修剪非表達(dá)不連貫的部分。圖 3 表明，大多數(shù)不連貫的部分在解耦后具有較低的重要性分?jǐn)?shù)，這有助于剪枝刪除這些冗余參數(shù)。

圖3. 線性投影的神經(jīng)元的重要性得分分布情況（ITP vs LoSparse）

3.2 算法

給定一個預(yù)訓(xùn)練的權(quán)重矩陣，我們首先基于的奇異值分解（SVD）初始化秩的低秩矩陣。具體來說，本文選擇：

在此基礎(chǔ)上，我們可以初始化為：

原始的前向傳遞（）可替換為更高效的形式：

LoSparse 對模型的每個權(quán)重矩陣應(yīng)用這樣的分解，并將表示為所有稀疏矩陣的集合。初始化后，本文對進(jìn)行迭代結(jié)構(gòu)化剪枝。具體來說，在第次迭代時(shí)，我們首先采用隨機(jī)梯度下降更新、和。重要性得分和迭代更新策略均采用標(biāo)準(zhǔn)設(shè)置（一階泰勒評估重要性+三次時(shí)間表的迭代衰減策略）。具體算法見算法 1。

Untitled

4. 實(shí)驗(yàn)

自然語言理解：表 1 和表 2 分別展示了 DeBERTaV3-base 和 BERT-base 模型上各個壓縮方法在 GLUE 上的表現(xiàn)。LoSparse 表現(xiàn)出了遠(yuǎn)超其他方法的性能，與此同時(shí)，它還比其他方法更穩(wěn)定，這是因?yàn)?LoSparse 方法中每個權(quán)重矩陣至少有一個低秩矩陣來保證連貫和表達(dá)神經(jīng)元信息的不過分丟失。

表 1. GLUE 驗(yàn)證集上 DeBERTaV3-base 的壓縮結(jié)果（Ratio 表示剩余權(quán)重比例，N.A.表示模型不收斂，最佳結(jié)果以粗體顯示）

表 2. GLUE 驗(yàn)證集上 BERT-base 的壓縮結(jié)果（Ratio 表示剩余權(quán)重比例，N.A.表示模型不收斂，最佳結(jié)果以粗體顯示）

問答任務(wù)：表 3 對比了 LoSparse 方法在 SQuAD v1.1 上的表現(xiàn)。在所有壓縮比率下，LoSparse 都優(yōu)于其他壓縮方法，尤其是在更高壓縮比的情況下。

表 3. SQuAD v1.1 上 DeBERTaV3-base 的壓縮結(jié)果（Ratio 表示剩余權(quán)重比例，N.A.表示模型不收斂，最佳結(jié)果以粗體顯示）

自然語言生成：表 4 說明在自然語言生成任務(wù)上，LoSparse 仍然表現(xiàn)優(yōu)異，在各個壓縮比下優(yōu)于現(xiàn)有方法。值得注意的是，LoSparse 在更困難的摘要任務(wù)上表現(xiàn)更好。

表 4. XSum 上 BART-Large 的壓縮結(jié)果（Ratio表示剩余權(quán)重比例，最佳結(jié)果以粗體顯示）

消融實(shí)驗(yàn)：論文分析了稀疏近似的有效性和稀疏分配的影響（低秩矩陣和稀疏矩陣的權(quán)重占比），實(shí)驗(yàn)表明本文提出的稀疏近似對于性能有很大正貢獻(xiàn)，且 LoSparse 對稀疏分配策略相對魯棒，具體細(xì)節(jié)可見原文。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴