本文對(duì)基于適配器的可遷移推薦系統(tǒng)進(jìn)行了實(shí)驗(yàn)探索和深入研究。發(fā)現(xiàn)在文本推薦方面,基于適配器的可遷移推薦取得了有競(jìng)爭(zhēng)力的結(jié)果;在圖像推薦方面,基于適配器的可遷移推薦略落后于全量微調(diào)。后續(xù)本文對(duì)四種著名的適配器微調(diào)方法進(jìn)行了基準(zhǔn)測(cè)試,并深入研究了可能影響適配器微調(diào)在推薦任務(wù)中的幾個(gè)關(guān)鍵因素。
論文題目:
Exploring Adapter-based Transfer Learning for Recommender Systems: Empirical Studies and Practical Insights
論文鏈接:
https://arxiv.org/abs/2305.15036
代碼鏈接:
https://github.com/westlake-repl/Adapter4Rec/
研究動(dòng)機(jī)
可遷移的推薦系統(tǒng) (TransRec) 通常包含一個(gè)用戶(hù)編碼器和一個(gè)或多個(gè)基于模態(tài)的物品編碼器,其中基于模態(tài)的物品編碼器通常是經(jīng)過(guò)預(yù)訓(xùn)練的 ViT, BERT, RoBERTA, 與 GPT 等模型,他們往往包含很大的參數(shù)量。常見(jiàn)使用 TransRec 的范式是先經(jīng)過(guò)一個(gè)源域數(shù)據(jù)集的預(yù)訓(xùn)練之后再遷移到目標(biāo)域,遷移的過(guò)程往往都需要再進(jìn)行微調(diào)。
傳統(tǒng)的全參數(shù)微調(diào) (Fine-tune All, FTA) 是很有效的方式,但它存在如下幾個(gè)問(wèn)題:
1. 如上圖所示,推薦系統(tǒng)往往都包含一個(gè)主頻道和多個(gè)垂直頻道,如果想利用主頻道預(yù)訓(xùn)練過(guò)的模型遷移至每個(gè)垂直頻道,則每個(gè)垂直通道的模型更新、維護(hù)和存儲(chǔ)都需要很多額外成本;
2. 全參數(shù)微調(diào)往往存在過(guò)擬合問(wèn)題;
3. 昂貴的訓(xùn)練成本,往往微調(diào)越大的模型所需要的 GPU 顯存越高。
這促使研究者們?cè)?TransRec 中探索基于適配器 (Adapter) 的高效微調(diào)范式 (Adapter tuning, AdaT) 。AdaT 與傳統(tǒng) FTA 的比較如下圖所示,AdaT 僅僅微調(diào)新插入的適配器和對(duì)應(yīng)的 layer-normalization 層:
適配器是一種在 NLP 和 CV 中廣泛采用的參數(shù)高效方法用于解決高效遷移大規(guī)?;A(chǔ)模型,然而在當(dāng)前 TransRec 范式的推薦系統(tǒng)領(lǐng)域并沒(méi)有被系統(tǒng)的探究過(guò)該方法的有效性。針對(duì)于該有效性的探究,論文提出如下幾個(gè)關(guān)鍵研究問(wèn)題:
RQ1: 基于適配器的 TransRec 性能上能否與典型的基于微調(diào)的 TransRec 相當(dāng)?該結(jié)論適用于不同模態(tài)的場(chǎng)景嗎?
RQ2: 如果 RQ1 為正確或部分正確,那么這些 NLP 和 CV 社區(qū)當(dāng)中流行的適配器性能又如何呢?
RQ3: 是否有因素影響這些基于適配器的 TransRec 模型的性能?
針對(duì)于 RQ1, 論文在兩種物品模態(tài)(即文本和圖像)上對(duì)基于適配器和基于全參數(shù)微調(diào)的 TransRec 進(jìn)行了嚴(yán)格的比較研究。其中包括采用兩種流行的推薦架構(gòu)(即 SASRec 和 CPC)以及四種強(qiáng)大的模態(tài)編碼(即 BERT、RoBERTa、ViT 和 MAE)。
針對(duì)于 RQ2, 論文對(duì) NLP 和 CV 中廣泛采用的四種適配器進(jìn)行了基準(zhǔn)測(cè)試。還加入了 LoRA、Prompt-tuning 和 layer-normalization tuning 的結(jié)果,以進(jìn)行綜合比較。
針對(duì)于 RQ3, 該文章進(jìn)行了不同策略的性能比較,這些策略包括插入適配器的方式和位置,以及是否調(diào)整相應(yīng)的 layer-normalization 等。除此之外,論文還研究了 TransRec 在源域和目標(biāo)域中的數(shù)據(jù)縮放效應(yīng),以考察在使用較大數(shù)據(jù)集預(yù)訓(xùn)練 TransRec 時(shí) AdaT 的有效性。
網(wǎng)絡(luò)架構(gòu)
TransRec 架構(gòu)包含兩個(gè)子模塊,即物品編碼器和用戶(hù)編碼器,這兩個(gè)模塊都基于 Transformer 模塊。論文采用插入適配器到物品和用戶(hù)編碼器當(dāng)中。基于適配器的 TransRec 架構(gòu)如下圖所示。論文采用 SASRec 和 CPC 框架對(duì) TransRec 進(jìn)行二元交叉熵 (BCE) 損失訓(xùn)練。
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集:論文用兩種模式對(duì)基于適配器的 TransRec 進(jìn)行了評(píng)估。對(duì)于具有文本模態(tài)的物品,使用 MIND 英語(yǔ)新聞推薦數(shù)據(jù)集作為源域,并使用 Adressa 挪威語(yǔ)新聞推薦數(shù)據(jù)集作為目標(biāo)域。對(duì)于視覺(jué)模態(tài),使用亞馬遜用于服裝和鞋類(lèi)的評(píng)論數(shù)據(jù)集作為目標(biāo)域,并使用 H&M 個(gè)性化時(shí)尚推薦數(shù)據(jù)集作為源域。
預(yù)訓(xùn)練模型的使用:文本模態(tài)采用 bert-base-uncased 和 roberta-base 模型;圖片模態(tài)采用 vit-base-patch16-224 和 vit-mae-base 模型。
評(píng)價(jià)標(biāo)準(zhǔn):論文采用 "leave-one-out"的策略來(lái)分割數(shù)據(jù)集:交互序列中的最后一項(xiàng)用于評(píng)估,最后一項(xiàng)之前的一項(xiàng)用于驗(yàn)證,其余的用于訓(xùn)練。評(píng)估指標(biāo)采用 HR@10(命中率)和 NDCG@10(歸一化累計(jì)收益)。所有實(shí)驗(yàn)結(jié)果均為測(cè)試集的結(jié)果。
主要發(fā)現(xiàn)
RQ1: 在文本內(nèi)容中,使用 AdaT 的 TransRec 可獲得與 FTA 相當(dāng)?shù)男阅?,但在視覺(jué)場(chǎng)景中性能有所下降。
對(duì)比 FTA 和 AdaT 在文本和圖片場(chǎng)景下的實(shí)驗(yàn)結(jié)果如下表所示:
RQ2: 與其他流行的參數(shù)高效微調(diào)的方法相比,經(jīng)典的Houlsby 適配器在 TransRec 中取得了最佳效果。
對(duì)比常用不同的參數(shù)高效微調(diào)方法的基準(zhǔn)測(cè)試:
RQ3: 該文章認(rèn)為,TransRec 應(yīng)為用戶(hù)和物品編碼器放置適配器,以獲得最佳效果。插入位置同樣也很重要,Transformer當(dāng)中的FFN (Feed-Forward Network) 和 MHA (Multi-Head Attentions) 的后面一層都需要單獨(dú)的適配器模塊。其次插入方式 (串行或并行) 和 LayerNorm 優(yōu)化等其他因素對(duì)于推薦任務(wù)的性能上并不重要。
插入適配器的位置到物品 (Ei) 或用戶(hù)編碼器 (Eu) 的性能對(duì)比:
插入適配器到 MHA 和 FFN 之后的位置的性能對(duì)比:
采用序列和并行插入的性能對(duì)比:
除此之外,該文章還進(jìn)行了充分的數(shù)據(jù)縮放實(shí)驗(yàn),發(fā)現(xiàn) TransRec 的遷移學(xué)習(xí)中如果有更多預(yù)訓(xùn)練的源領(lǐng)域數(shù)據(jù),目標(biāo)域性能會(huì)有更大的提升:
總結(jié)
文章發(fā)現(xiàn)了兩個(gè)事實(shí):1)在文本推薦方面,與微調(diào)所有參數(shù) (FTA) 相比,AdaT 取得了有競(jìng)爭(zhēng)力的結(jié)果;2)在圖像推薦方面,AdaT 性能良好,但略落后于 FTA。
論文對(duì)四種著名的 AdaT 方法進(jìn)行了基準(zhǔn)測(cè)試,發(fā)現(xiàn)經(jīng)典的 Houlsby 適配器性能最佳。隨后,該文章深入研究了可能影響 AdaT 在推薦任務(wù)中的結(jié)果的幾個(gè)關(guān)鍵因素。最后,論文發(fā)現(xiàn) TransRec 的 AdaT 和 FTA 符合理想的數(shù)據(jù)縮放效應(yīng)——TransRec 在增大源領(lǐng)域數(shù)據(jù)時(shí)能提升性能。
該工作為模態(tài)推薦模型的參數(shù)高效遷移學(xué)習(xí)提供了重要指導(dǎo)。它對(duì)推薦系統(tǒng)社區(qū)的基礎(chǔ)模型也有重要的實(shí)際意義,是實(shí)現(xiàn)推薦系統(tǒng)社區(qū)“one model for all”的目標(biāo)上重要的一環(huán)。該方向未來(lái)的工作包括探究圖片推薦當(dāng)中如何提升 AdaT 的性能以及引入更多不同的模態(tài)等。
審核編輯:黃飛
-
編碼器
+關(guān)注
關(guān)注
45文章
3645瀏覽量
134579 -
適配器
+關(guān)注
關(guān)注
8文章
1956瀏覽量
68045 -
推薦系統(tǒng)
+關(guān)注
關(guān)注
1文章
43瀏覽量
10078 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24713
原文標(biāo)題:WSDM 2024 | 系統(tǒng)探究適配器微調(diào)對(duì)于可遷移推薦的影響
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論