論文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings
鏈接:https://aclanthology.org/2022.naacl-main.436.pdf
代碼:https://github.com/uds-lsv/MCSE
視覺作為人類感知體驗的核心部分,已被證明在建立語言模型和提高各種NLP任務的性能方面是有效的。作者認為視覺作為輔助語義信息可以進一步促進句子表征學習。在這篇論文中,為了同時利用視覺信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并將其擴展為多模態(tài)對比目標。作者發(fā)現(xiàn),除了文本語料庫之外,使用少量多模態(tài)數(shù)據(jù)可以顯著提高STS任務的性能。在論文的最后,作者也對該方法所存在的局限性進行了分析
雖然這篇論文的框架非常簡單,但是我覺得對于實驗和作者的局限性分析還是有值得思考的地方
方法
MCSE模型
SimCSE:
就是通過dropout+編碼兩次構(gòu)建正樣本對,進行對比學習
給定一個圖像句子對,把他們映射到一個共同的嵌入空間中
f()為預訓練的語言編碼器和預訓練的圖像編碼器,g()為映射頭
接下來就是多模態(tài)對比學習:
最終的損失函數(shù)為 SimCSE的損失+多模態(tài)對比損失:
Experiments
作者使用Flickr30k(包含29, 783個訓練圖像)和MS-COCO(包含82, 783個訓練圖像)作為多模態(tài)數(shù)據(jù)集,使用Wiki1M(個句子)作為文本語料庫
SimCSE和MCSE的差別就是,MCSE利用了圖像-句子對,引入了多模態(tài)對比損失。即使多模態(tài)數(shù)據(jù)量相對較小,可獲得輔助視覺信息的MCSE模型也能進一步取得顯著的改進。在STS16上,Bert+MCSE的性能較差,作者解釋為域差異,其中一些接近訓練分布的子集比其他子集更能從視覺基礎中獲益。
表1
為了進一步研究不同數(shù)據(jù)集的影響,作者只在多模態(tài)數(shù)據(jù)上訓練模型,并在表2中報告結(jié)果。我們觀察到,在沒有大型純文本語料庫的情況下,性能比表1中的結(jié)果下降了很多,但是依然可以超過SimCSE。此外,作者將成對的圖像替換為打亂的圖像進行訓練,模型下降了0.8-5.0個點,進一步驗證了視覺語義的有效性。
這點其實我不太理解,是將圖像句子對的匹配關系給打亂了么,如果是這樣的話,感覺好像沒什么意義呀
表2
作者使用bert-base model只在多模態(tài)數(shù)據(jù)上進行了訓練,來研究數(shù)據(jù)規(guī)模大小對性能的影響,在數(shù)量有限的樣本上,SimCSE取得了更好的性能,隨著數(shù)據(jù)量的增加,MCSE的性能更好,作者推測,這一現(xiàn)象可以歸因于多模態(tài)映射投權(quán)重的漸進訓練。
作者報告了alignment and uniformity兩個量化指標,結(jié)果表明,與SimCSE模型相比,MCSE模型在保持一致性的同時獲得了更好的對齊得分。這一分析進一步支持了視覺基礎可以通過改善文本嵌入空間的對齊特性來增強句子特征學習。
Limitations
作者還指出了該方法所存在的局限性,多模態(tài)數(shù)據(jù)收集標注困難,如果可以合理的利用噪聲圖像-句子對,或者擺脫顯式的圖像文本對齊關系,將會有很大的實用價值。此外,我們發(fā)現(xiàn)只有來自相關領域的子集可以獲得顯著的改進,而其他子集則受到域偏移的影響。對于學習通用的句子嵌入來說,減小域偏移是至關重要的。此外,“語義相似度”的定義是高度任務依賴的。除了STS基準之外,值得探討的是純文本模型和多模態(tài)模型在其他基準上的性能差距,這些基準也可以評估句子特征的質(zhì)量。
編輯:黃飛
-
nlp
+關注
關注
1文章
489瀏覽量
22053
原文標題:NAACL22 | 引入多模態(tài)對比學習來增強句子特征學習
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論