0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過多模態(tài)對比學習增強句子特征學習

深度學習自然語言處理 ? 來源:知乎 ? 作者:李加貝 ? 2022-09-21 10:06 ? 次閱讀

論文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings

鏈接:https://aclanthology.org/2022.naacl-main.436.pdf

代碼:https://github.com/uds-lsv/MCSE

8e32bb9e-22ce-11ed-ba43-dac502259ad0.png

視覺作為人類感知體驗的核心部分,已被證明在建立語言模型和提高各種NLP任務的性能方面是有效的。作者認為視覺作為輔助語義信息可以進一步促進句子表征學習。在這篇論文中,為了同時利用視覺信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并將其擴展為多模態(tài)對比目標。作者發(fā)現(xiàn),除了文本語料庫之外,使用少量多模態(tài)數(shù)據(jù)可以顯著提高STS任務的性能。在論文的最后,作者也對該方法所存在的局限性進行了分析

雖然這篇論文的框架非常簡單,但是我覺得對于實驗和作者的局限性分析還是有值得思考的地方

方法

8e5651da-22ce-11ed-ba43-dac502259ad0.png

MCSE模型

SimCSE

8e8929c0-22ce-11ed-ba43-dac502259ad0.png

就是通過dropout+編碼兩次構(gòu)建正樣本對,進行對比學習

給定一個圖像句子對,把他們映射到一個共同的嵌入空間中

8e9d2420-22ce-11ed-ba43-dac502259ad0.png

f()為預訓練的語言編碼器和預訓練的圖像編碼器,g()為映射頭

接下來就是多模態(tài)對比學習:

8eac4fea-22ce-11ed-ba43-dac502259ad0.png

最終的損失函數(shù)為 SimCSE的損失+多模態(tài)對比損失:

8ec916c0-22ce-11ed-ba43-dac502259ad0.png

Experiments

作者使用Flickr30k(包含29, 783個訓練圖像)和MS-COCO(包含82, 783個訓練圖像)作為多模態(tài)數(shù)據(jù)集,使用Wiki1M(個句子)作為文本語料庫

SimCSEMCSE的差別就是,MCSE利用了圖像-句子對,引入了多模態(tài)對比損失。即使多模態(tài)數(shù)據(jù)量相對較小,可獲得輔助視覺信息的MCSE模型也能進一步取得顯著的改進。在STS16上,Bert+MCSE的性能較差,作者解釋為域差異,其中一些接近訓練分布的子集比其他子集更能從視覺基礎中獲益。

8ed9a648-22ce-11ed-ba43-dac502259ad0.png

表1

為了進一步研究不同數(shù)據(jù)集的影響,作者只在多模態(tài)數(shù)據(jù)上訓練模型,并在表2中報告結(jié)果。我們觀察到,在沒有大型純文本語料庫的情況下,性能比表1中的結(jié)果下降了很多,但是依然可以超過SimCSE。此外,作者將成對的圖像替換為打亂的圖像進行訓練,模型下降了0.8-5.0個點,進一步驗證了視覺語義的有效性。

這點其實我不太理解,是將圖像句子對的匹配關系給打亂了么,如果是這樣的話,感覺好像沒什么意義呀

8eeaba50-22ce-11ed-ba43-dac502259ad0.png

表2

作者使用bert-base model只在多模態(tài)數(shù)據(jù)上進行了訓練,來研究數(shù)據(jù)規(guī)模大小對性能的影響,在數(shù)量有限的樣本上,SimCSE取得了更好的性能,隨著數(shù)據(jù)量的增加,MCSE的性能更好,作者推測,這一現(xiàn)象可以歸因于多模態(tài)映射投權(quán)重的漸進訓練。

8f03863e-22ce-11ed-ba43-dac502259ad0.png

作者報告了alignment and uniformity兩個量化指標,結(jié)果表明,與SimCSE模型相比,MCSE模型在保持一致性的同時獲得了更好的對齊得分。這一分析進一步支持了視覺基礎可以通過改善文本嵌入空間的對齊特性來增強句子特征學習。

8f1fef4a-22ce-11ed-ba43-dac502259ad0.png

8f2ce7a4-22ce-11ed-ba43-dac502259ad0.png

8f3a9cd2-22ce-11ed-ba43-dac502259ad0.png

Limitations

作者還指出了該方法所存在的局限性,多模態(tài)數(shù)據(jù)收集標注困難,如果可以合理的利用噪聲圖像-句子對,或者擺脫顯式的圖像文本對齊關系,將會有很大的實用價值。此外,我們發(fā)現(xiàn)只有來自相關領域的子集可以獲得顯著的改進,而其他子集則受到域偏移的影響。對于學習通用的句子嵌入來說,減小域偏移是至關重要的。此外,“語義相似度”的定義是高度任務依賴的。除了STS基準之外,值得探討的是純文本模型和多模態(tài)模型在其他基準上的性能差距,這些基準也可以評估句子特征的質(zhì)量。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22053

原文標題:NAACL22 | 引入多模態(tài)對比學習來增強句子特征學習

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學習數(shù)據(jù)增強技術

    本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學習數(shù)據(jù)增強技術。 ? 自監(jiān)督學習算法在自然語言處理、計算機視覺等領域取得了重大進展。這些自監(jiān)督學習
    的頭像 發(fā)表于 09-04 10:07 ?1135次閱讀
    適用于任意數(shù)據(jù)<b class='flag-5'>模態(tài)</b>的自監(jiān)督<b class='flag-5'>學習</b>數(shù)據(jù)<b class='flag-5'>增強</b>技術

    基于增強學習算法的PID參數(shù)調(diào)整方法研究

    本文首先介紹了增強學習的基本原理,然后分析了利用基于增強學習算法進行PID 參數(shù)調(diào)節(jié)的步驟,并給出了具體的實現(xiàn)流程,最后通過仿真驗證了
    發(fā)表于 08-07 14:33 ?27次下載

    通過對比深度學習各大框架的優(yōu)缺點尋找最優(yōu)

    開源的深度學習神經(jīng)網(wǎng)絡正步入成熟,而現(xiàn)在有許多框架具備為個性化方案提供先進的機器學習和人工智能的能力。那么如何決定哪個開源框架最適合你呢?本文試圖通過對比深度
    發(fā)表于 11-15 19:04 ?2.3w次閱讀
    <b class='flag-5'>通過</b><b class='flag-5'>對比</b>深度<b class='flag-5'>學習</b>各大框架的優(yōu)缺點尋找最優(yōu)

    基于多模態(tài)特征數(shù)據(jù)的多標記遷移學習方法的早期阿爾茨海默病診斷

    特征選擇模塊和多模態(tài)多標記分類回歸學習器模塊。首先,通過稀疏多標記學習模型對分類和回歸學習任務進
    發(fā)表于 12-14 11:22 ?3次下載

    多文化場景下的多模態(tài)情感識別

    學習特征,并通過多模態(tài)融合方法結(jié)合不同的模態(tài)。比較不同單模態(tài)
    發(fā)表于 12-18 14:47 ?0次下載

    通過多模態(tài)特征融合來設計三維點云分類模型

    針對點云數(shù)據(jù)本身信息量不足導致現(xiàn)有三維點云分類方法分類精度較低的問題,結(jié)合多模態(tài)特征融合,設計一種三維點云分類模型。通過引入投影圖對點云數(shù)據(jù)信息進行擴充,將點云數(shù)據(jù)與圖像數(shù)據(jù)同時作為輸入
    發(fā)表于 03-11 14:09 ?3次下載
    <b class='flag-5'>通過多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>特征</b>融合來設計三維點云分類模型

    基于語義耦合相關的判別式跨模態(tài)哈希特征表示學習算法

    特征表示的語義判別性,從而導致哈希碼表示的類別區(qū)分性不強,降低了最近鄰搜索的準確性和魯棒性。該文提出了基于語義耦合相關的判別式跨模態(tài)哈希特征表示學習算法。算法在模型的優(yōu)化目標函數(shù)設計上
    發(fā)表于 03-31 11:28 ?12次下載
    基于語義耦合相關的判別式跨<b class='flag-5'>模態(tài)</b>哈希<b class='flag-5'>特征</b>表示<b class='flag-5'>學習</b>算法

    可提高跨模態(tài)行人重識別算法精度的特征學習框架

    為了提升跨模態(tài)行人重識別算法的識別精度,提出了一種基于改進困難三元組損失的特征學習框架。首先,改進了傳統(tǒng)困難三元組損失,使其轉(zhuǎn)換為全局三元組損失。其次,基于跨模態(tài)行亼重識別中存在
    發(fā)表于 05-10 11:06 ?9次下載

    特征選擇和機器學習的軟件缺陷跟蹤系統(tǒng)對比

    軟件缺陷報告嚴重程度。通過對4種特征選擇算法及4種機器學習算法處理結(jié)果的交叉對比表明,使用信息增益特征選擇算法對原始數(shù)據(jù)集進行
    發(fā)表于 06-10 10:50 ?12次下載

    基于耦合字典學習與圖像正則化的跨模態(tài)檢索

    基于耦合字典學習與圖像正則化的跨模態(tài)檢索
    發(fā)表于 06-27 11:23 ?39次下載

    對比學習的關鍵技術和基本應用分析

    對比學習的主要思想是相似的樣本的表示相近,而不相似的遠離。對比學習可以應用于監(jiān)督和無監(jiān)督的場景下,并且目前在CV、NLP等領域中取得了較好的性能。本文先對
    的頭像 發(fā)表于 03-09 16:28 ?5282次閱讀

    結(jié)合句子間差異的無監(jiān)督句子嵌入對比學習方法-DiffCSE

    句向量表征技術目前已經(jīng)通過對比學習獲取了很好的效果。而對比學習的宗旨就是拉近相似數(shù)據(jù),推開不相似數(shù)據(jù),有效地
    的頭像 發(fā)表于 05-05 11:35 ?1241次閱讀

    通過對比學習的角度來解決細粒度分類的特征質(zhì)量問題

    一、本文貢獻 1.網(wǎng)絡通過提取顯著性區(qū)域并融合這些區(qū)域特征,以同時學習局部和全局的特征2.通過混雜來自負例的注意力
    的頭像 發(fā)表于 05-13 16:54 ?2369次閱讀
    <b class='flag-5'>通過</b><b class='flag-5'>對比</b><b class='flag-5'>學習</b>的角度來解決細粒度分類的<b class='flag-5'>特征</b>質(zhì)量問題

    CMU最新《多模態(tài)機器學習的基礎和最新趨勢》綜述

    開發(fā)具有智能能力的計算機智能體一直是人工智能的一個宏偉目標,如通過多模態(tài)經(jīng)驗和數(shù)據(jù)進行理解、推理和學習,就像我們?nèi)祟愂褂枚喾N感官模式感知世界的方式一樣。
    的頭像 發(fā)表于 12-07 14:43 ?1027次閱讀

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實現(xiàn)一種新的通過強化學習策略的特征選擇。我們先討論強化
    的頭像 發(fā)表于 06-05 08:27 ?375次閱讀
    <b class='flag-5'>通過強化學習</b>策略進行<b class='flag-5'>特征</b>選擇