0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從統(tǒng)一視角看各類高效finetune方法實(shí)現(xiàn)最優(yōu)tuning框架設(shè)計(jì)

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-11-29 11:13 ? 次閱讀

隨著預(yù)訓(xùn)練模型參數(shù)量越來越大,遷移學(xué)習(xí)的成本越來越高,parameter-efficient tuning成為一個(gè)熱點(diǎn)研究方向。在以前我們?cè)谙掠稳蝿?wù)使用預(yù)訓(xùn)練大模型,一般需要finetune模型的所有參數(shù)。隨著parameter-efficient tuning技術(shù)的發(fā)展,一些注入adaptor、prefix tuning、LoRA等成本更低的finetune方法被提出。那么各種各樣的parameter-efficient tuning方法之間是否存在某些潛在的關(guān)系呢?ICLR 2022就有一篇相關(guān)的研究,從統(tǒng)一的視角理解現(xiàn)有的各類parameter-efficient tuning方法,并提出了一套遷移框架,可以實(shí)現(xiàn)更接近全量參數(shù)finetune效果的部分參數(shù)finetune。

1各類tuning方法回顧

比較經(jīng)典的高效finetune方法主要包括adaptor、prefix-tuning、LoRA這三類,這里進(jìn)行一個(gè)簡(jiǎn)單的回顧。

Adaptor核心是在原Bert中增加參數(shù)量更小的子網(wǎng)絡(luò),finetune時(shí)固定其他參數(shù)不變,只更新這個(gè)子網(wǎng)絡(luò)的參數(shù)。Adaptor是最早的一類高效finetune方法的代表,在Parameter-Efficient Transfer Learning for NLP(ICML 2019)這篇文章中被提出。在原來的Bert模型的每層中間加入兩個(gè)adapter。Adapter通過全連接對(duì)原輸入進(jìn)行降維進(jìn)一步縮小參數(shù)量,經(jīng)過內(nèi)部的NN后再將維度還原,形成一種bottleneck的結(jié)構(gòu)。在finetune過程中,原預(yù)訓(xùn)練Bert模型的參數(shù)freeze住不更新,只更新adapter的參數(shù),大大減少了finetune階段需要更新和保存的參數(shù)量。

b60e7bc4-6f24-11ed-8abf-dac502259ad0.png

Prefix-tuning的核心是為每個(gè)下游任務(wù)增加一個(gè)prefix embedding,只finetune這些embedding,其他參數(shù)freeze。Prefix-tuning對(duì)應(yīng)的論文是Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021),這類方法的思想來源于prefix prompt,prefix embedding相當(dāng)于一個(gè)上下文信息,對(duì)模型最終產(chǎn)出的結(jié)果造成影響,進(jìn)而只finetune這個(gè)embedding實(shí)現(xiàn)下游任務(wù)的遷移。

b6af57e2-6f24-11ed-8abf-dac502259ad0.png

LoRA的核心是通過引入?yún)?shù)量遠(yuǎn)小于原模型的可分解的兩小矩陣建立一個(gè)旁路,通過finetune這個(gè)旁路來影響預(yù)訓(xùn)練模型。LoRA于LoRA: Low-rank adaptation of large language models(2021)論文中被提出,利用低秩矩陣替代原來全量參數(shù)的訓(xùn)練,提升finetune效率。

b75a2758-6f24-11ed-8abf-dac502259ad0.png

2統(tǒng)一視角看高效finetune方法

ICLR 2022的這篇文章從統(tǒng)一的視角來看各類不同的parameter-efficient tuning方法。首先對(duì)于prefix tuning,Transformer的每個(gè)head的結(jié)果可以進(jìn)行如下的公式推導(dǎo)變換:

b76eb9f2-6f24-11ed-8abf-dac502259ad0.png

其中,第一行的P就是prefix embedding,C對(duì)應(yīng)著key和value的序列向量,x代表query。經(jīng)過中間的變換后,可以發(fā)現(xiàn)prefix tuning的attention計(jì)算可以分為兩個(gè)部分的加權(quán)求和,第一部分是原始的attention,第二部分是和key或value無關(guān)的一項(xiàng),只用query和prefix embedding進(jìn)行self-attention的計(jì)算。而權(quán)重則是根據(jù)prefix embedding的attention權(quán)重。通過上述公式,我們可以從另一個(gè)視角來看prefix-tuning:即在原始attention的輸出結(jié)果上,對(duì)位相加一個(gè)由prefix embedding得到的attention值,實(shí)現(xiàn)對(duì)原始attention score的修正。

我們?cè)賮砜碅daptor和LoRA兩種tuning方式的數(shù)學(xué)表示。Adaptor和LoRA方法可以分別表示為如下公式:

b780c99e-6f24-11ed-8abf-dac502259ad0.png

我們把prefix embedding也可以轉(zhuǎn)換成相同的表達(dá)形式:

b7a5b77c-6f24-11ed-8abf-dac502259ad0.png

可以發(fā)現(xiàn)這些finetune方法都具有相似的表達(dá)形式。并且,prefix-tuning中prefix embedding的數(shù)量其實(shí)和Adapter中降維的維度具有相似的功能。三種方法在這個(gè)視角下的對(duì)比如下圖所示:

b7c173ea-6f24-11ed-8abf-dac502259ad0.png

3統(tǒng)一的高效finetune框架

既然上述幾類方法表達(dá)形式相似,并且主要學(xué)的都是如何修改原來attention的輸出結(jié)果,那么我們可以建立一個(gè)統(tǒng)一的框架,涵蓋上述各類finetune方法。這個(gè)框架的核心是如何生成修改原始attention score的向量。為了生成這個(gè)向量,需要考慮以下4個(gè)核心模塊:

Functional Form:用什么樣的函數(shù)生成,上述方法基本都是全連接降維+激活函數(shù)+全連接升維的形式,當(dāng)然也可以設(shè)計(jì)更復(fù)雜的函數(shù)形式;

Modified Representation:對(duì)哪個(gè)位置的信息進(jìn)行直接修改;

Insertion Form:向量引入的形式,Adapter采用的是串聯(lián)的方式,根據(jù)上一層的隱狀態(tài)生成向量;而prefix tuning和LoRA采用并聯(lián)的方式,直接根據(jù)輸入序列生成向量;

Composition Function:向量的使用方式,利用adapter中采用簡(jiǎn)單的對(duì)位相加的形式。

Adapter、Prefix-tuning、LoRA等方法按照 上面4個(gè)維度拆分,各自的實(shí)現(xiàn)形式如下表:

b7f18ad0-6f24-11ed-8abf-dac502259ad0.png

接下來,文中基于上述4個(gè)模塊設(shè)計(jì)了一些新的方法:

Parallel Adapter:將Adapter的串聯(lián)形式修改為并聯(lián)形式;

Multi-head Parallel Adapter:在Parallel Adapter基礎(chǔ)上修改了Modified Representation,使用旁路向量修改attention輸出結(jié)果;

Scaled Parallel Adapter:將LoRA的scaling引入進(jìn)來。

b80cc340-6f24-11ed-8abf-dac502259ad0.png

4實(shí)驗(yàn)結(jié)果

本文由于站在了更高的視角,看到了parameter-efficient tuning的統(tǒng)一形式,因此可以實(shí)現(xiàn)更加靈活的建模方式,基于這個(gè)框架尋找最節(jié)省參數(shù)量、最能達(dá)到更好效果的結(jié)構(gòu)。從下圖可以看出,本文提出的方法實(shí)現(xiàn)接接近全量參數(shù)finetune的效果,參數(shù)量也比Adapter、LoRA等方法有所減少。

b8268032-6f24-11ed-8abf-dac502259ad0.png

文中通過大量的實(shí)驗(yàn)對(duì)比各個(gè)模塊采用什么樣的形式能帶來最好的效果-效率的這種,并最終提出最優(yōu)的模型MAM-Adapter。核心的實(shí)驗(yàn)發(fā)現(xiàn)包括:并聯(lián)的方式比串聯(lián)的好;對(duì)FFN輸出結(jié)果的修改比對(duì)Attention輸出結(jié)果修改要好等。

b880989c-6f24-11ed-8abf-dac502259ad0.png

5總結(jié)

本文從統(tǒng)一視角看parameter-efficient tuning,實(shí)現(xiàn)了更高視角的最優(yōu)tuning框架設(shè)計(jì)。這也啟發(fā)我們尋找同類問題不同建模方式背后原理的統(tǒng)一性,能夠跳出一種模型結(jié)構(gòu)去看各類建模方式的相似性,實(shí)現(xiàn)更高視角下對(duì)問題的理解。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • LoRa
    +關(guān)注

    關(guān)注

    349

    文章

    1700

    瀏覽量

    232129

原文標(biāo)題:從統(tǒng)一視角看各類高效finetune方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    詳解框架設(shè)計(jì)

    后臺(tái)程序(控制中心),是程序的核心。它實(shí)現(xiàn)各類RPC接口(遠(yuǎn)程調(diào)用接口),供前臺(tái)程序、MQTT程序使用。
    的頭像 發(fā)表于 01-09 16:48 ?112次閱讀
    詳解<b class='flag-5'>框架設(shè)</b>計(jì)

    HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))習(xí)慣推薦方案概述

    用戶的行為習(xí)慣。 2.在HarmonyOS學(xué)習(xí)到用戶的行為習(xí)慣后,會(huì)給用戶推薦相應(yīng)功能,并且嘗試補(bǔ)充詳細(xì)功能參數(shù),減少用戶執(zhí)行任務(wù)的步驟。 以聽音樂為例,意圖框架設(shè)計(jì)了統(tǒng)一的意圖——播放歌單意圖,該意圖可以讓
    發(fā)表于 11-19 17:59

    特斯拉智能駕駛未來發(fā)展

    編者語:「智駕最前沿」微信公眾號(hào)后臺(tái)回復(fù):C-0587,獲取本文參考報(bào)告:《特斯拉視角,智能駕駛研究框架》pdf下載方式。 隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,智能駕駛已成為汽車行業(yè)技術(shù)競(jìng)
    的頭像 發(fā)表于 11-16 16:49 ?1245次閱讀
    <b class='flag-5'>從</b>特斯拉<b class='flag-5'>看</b>智能駕駛未來發(fā)展

    種簡(jiǎn)單高效配置FPGA的方法

    本文描述了種簡(jiǎn)單高效配置FPGA的方法,該方法利用微處理器串行外圍接口(SPI)閃存配置FPGA設(shè)備。這種
    的頭像 發(fā)表于 10-24 14:57 ?744次閱讀
    <b class='flag-5'>一</b>種簡(jiǎn)單<b class='flag-5'>高效</b>配置FPGA的<b class='flag-5'>方法</b>

    藍(lán)牙協(xié)議棧視角探索信道探測(cè)

    親愛的藍(lán)牙科技愛好者們,上期的“干貨”希望大家看得過癮!在本期節(jié)目中,主講人藍(lán)牙技術(shù)聯(lián)盟技術(shù)與市場(chǎng)工程師魯公羽會(huì)繼續(xù)為您詳解信道探測(cè)(Channel Sounding),藍(lán)牙協(xié)議棧的視角探索信道探測(cè)的技術(shù)細(xì)節(jié)!
    的頭像 發(fā)表于 10-12 16:49 ?359次閱讀
    <b class='flag-5'>從</b>藍(lán)牙協(xié)議棧<b class='flag-5'>視角</b>探索信道探測(cè)

    使用PPC3軟件,進(jìn)入Tuning and Audio Processing模塊后,喇叭就不發(fā)聲了怎么解決?

    自己的電腦,不管是筆記本還是臺(tái)式機(jī),都是上述那個(gè)問題,是不是我的電腦驅(qū)動(dòng)跟PPC3有沖突,還是PPC3需要進(jìn)行些設(shè)置才能使用Tuning and Audio Processing模塊呢?
    發(fā)表于 10-12 07:58

    般高壓架設(shè)線路用的什么線

    高壓架設(shè)線路是指用于輸送高壓電流的架空線路,通常用于遠(yuǎn)距離輸電。高壓架設(shè)線路的選用和設(shè)計(jì)需要考慮多種因素,包括線路的電壓等級(jí)、輸電距離、地形地貌、氣候條件等。 、高壓架設(shè)線路的類型
    的頭像 發(fā)表于 08-16 09:15 ?819次閱讀

    統(tǒng)一多云管理平臺(tái)怎么用?

    的IT基礎(chǔ)設(shè)施管理功能,幫助企業(yè)在日益復(fù)雜的云計(jì)算環(huán)境中實(shí)現(xiàn)高效管理和成本優(yōu)化,Rak小編統(tǒng)一多云管理平臺(tái)怎么用?
    的頭像 發(fā)表于 08-14 11:28 ?251次閱讀

    ESP32-S3-KROVO2如何在ADF框架實(shí)現(xiàn)wifi連接?

    本人現(xiàn)在想要做個(gè)項(xiàng)目,能夠實(shí)現(xiàn)wifi連接并在LCD上顯示圖片,目前能夠分別使用idf框架實(shí)現(xiàn)wifi連接,和adf框架下的圖片LCD顯示
    發(fā)表于 06-28 08:02

    視覺新紀(jì)元:解碼LED顯示屏的視角、可視角、最佳視角的最終奧秘

    在璀璨奪目的LED顯示屏世界里,每個(gè)絢爛畫面的背后,都離不開三個(gè)關(guān)鍵概念:視角、可視角與最佳視角。這些術(shù)語不僅是衡量顯示效果的重要標(biāo)尺,也是連接觀眾與精彩內(nèi)容的橋梁。讓我們
    的頭像 發(fā)表于 06-23 02:55 ?692次閱讀
    視覺新紀(jì)元:解碼LED顯示屏的<b class='flag-5'>視角</b>、可<b class='flag-5'>視角</b>、最佳<b class='flag-5'>視角</b>的最終奧秘

    鴻蒙Ability Kit(程序框架服務(wù))【應(yīng)用啟動(dòng)框架AppStartup】

    `AppStartup`提供了種更加簡(jiǎn)單高效的初始化組件的方式,支持異步初始化組件加速應(yīng)用的啟動(dòng)時(shí)間。使用啟動(dòng)框架應(yīng)用開發(fā)者只需要分別為待初始化的組件實(shí)現(xiàn)`AppStartup`提供
    的頭像 發(fā)表于 06-10 18:38 ?750次閱讀

    訊維融合通信系統(tǒng):如何助力企業(yè)實(shí)現(xiàn)高效溝通?

    訊維融合通信系統(tǒng)是款功能強(qiáng)大的通信解決方案,專為滿足現(xiàn)代企業(yè)高效溝通需求而設(shè)計(jì)。通過其先進(jìn)的通信技術(shù)和智能化的管理功能,該系統(tǒng)能夠助力企業(yè)實(shí)現(xiàn)高效、便捷和安全的溝通,進(jìn)而提升整體運(yùn)營(yíng)
    的頭像 發(fā)表于 04-10 16:35 ?465次閱讀

    高效的KV緩存壓縮框架--GEAR

    GEAR框架通過結(jié)合三種互補(bǔ)的技術(shù)來解決這挑戰(zhàn):首先對(duì)大多數(shù)相似幅度的條目應(yīng)用超低精度量化;然后使用低秩矩陣來近似量化誤差。
    發(fā)表于 03-19 10:12 ?359次閱讀
    <b class='flag-5'>一</b>種<b class='flag-5'>高效</b>的KV緩存壓縮<b class='flag-5'>框架</b>--GEAR

    自制測(cè)試框架(設(shè)置界面密碼1)

    鼠標(biāo),按鍵盤,目視確認(rèn)顏色或CheckSUM值的。直接可以實(shí)現(xiàn)自動(dòng)或半自動(dòng)操作,實(shí)現(xiàn)程序防呆; 5、可連接各類儀器和板卡; *附件:測(cè)試框架.rar
    發(fā)表于 03-02 19:33

    【鴻蒙】NAPI 框架生成工具實(shí)現(xiàn)流程

    NAPI 框架生成工具 可以根據(jù)用戶指定路徑下的 ts(typescript)接口文件鍵生成 NAPI 框架代碼、業(yè)務(wù)代碼框架、GN 文件等。在開發(fā) JS 應(yīng)用與 NAPI 間接口時(shí)
    的頭像 發(fā)表于 02-28 17:00 ?716次閱讀
    【鴻蒙】NAPI <b class='flag-5'>框架</b>生成工具<b class='flag-5'>實(shí)現(xiàn)</b>流程