0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助機(jī)器翻譯來生成偽視覺-目標(biāo)語言對(duì)進(jìn)行跨語言遷移

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:王雅冰 ? 2022-10-14 14:59 ? 次閱讀

雖然目前傳統(tǒng)的跨模態(tài)檢索工作已取得了巨大的進(jìn)展,但由于缺少低資源語言的標(biāo)注數(shù)據(jù),這些工作通常關(guān)注于高資源語言(比如英語),因此極大地限制了低資源語言在該領(lǐng)域的發(fā)展。

為了解決這一問題,作者針對(duì)跨語言跨模態(tài)檢索任務(wù)(CCR)展開了研究,該任務(wù)旨在僅使用人工標(biāo)注的視覺-源語言(如英語)語料庫對(duì)模型進(jìn)行訓(xùn)練,使其可以適用于其他目標(biāo)語言(非英語)進(jìn)行評(píng)估【如下圖所示】。

5532ed5e-4b79-11ed-a3b6-dac502259ad0.png

傳統(tǒng)跨模態(tài)檢索&跨語言跨模態(tài)檢索(CCR)

在這篇論文中,作者旨在借助機(jī)器翻譯來生成偽視覺-目標(biāo)語言對(duì)進(jìn)行跨語言遷移,來緩解人工標(biāo)注多語言視覺-語言語料庫困難的問題。雖然機(jī)器翻譯可以快速的處理大量的文本語言轉(zhuǎn)換,但是其準(zhǔn)確性并不能得到保證,因此在翻譯過程中將會(huì)引入大量的噪聲,導(dǎo)致翻譯的目標(biāo)語言句子并不能準(zhǔn)確的描述其對(duì)應(yīng)的視覺內(nèi)容【如下圖所示】。

55ccce88-4b79-11ed-a3b6-dac502259ad0.png

然而之前的基于機(jī)器翻譯的CCR工作大多忽略了這個(gè)問題,它們通常使用大規(guī)模的預(yù)訓(xùn)練模型在通過機(jī)器翻譯得到的大規(guī)模多語言視覺-語言語料庫上進(jìn)行大規(guī)模預(yù)訓(xùn)練,并且只關(guān)注于視覺-目標(biāo)語言數(shù)據(jù)對(duì)之間的對(duì)齊。然而直接在這種噪聲數(shù)據(jù)對(duì)上應(yīng)用跨模態(tài)匹配將會(huì)嚴(yán)重影響檢索性能,神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的能力來擬合這種給定的(噪聲)數(shù)據(jù)。

為了解決這個(gè)問題,作者提出了一個(gè)噪聲魯棒學(xué)習(xí)方法來緩解機(jī)器翻譯中所引入的噪聲問題,該論文是首個(gè)關(guān)注于CCR任務(wù)中由機(jī)器翻譯所引入噪聲問題的工作。

方法

55e19ebc-4b79-11ed-a3b6-dac502259ad0.png

模型框架圖

作者首先先引入了其「基線模型」

基線模型

視覺編碼器:給定一個(gè)視頻,使用預(yù)訓(xùn)練的2D CNN來提取視頻特征序列,然后輸入到Transformer塊中,來增強(qiáng)幀間交互,最終得到一個(gè)視頻特征向量

561ecfbc-4b79-11ed-a3b6-dac502259ad0.png


文本編碼器:作者設(shè)計(jì)了一個(gè)雙分支編碼器,分別又一個(gè)源語言分支和一個(gè)目標(biāo)語言分支組成。每個(gè)語言分支都包含一個(gè)Transformer block 和一個(gè)預(yù)訓(xùn)練的mBERT backbone,將源語言和目標(biāo)語言分別輸入到對(duì)應(yīng)的分支中,得到對(duì)應(yīng)的源語言句子特征和目標(biāo)語言句子特征

563278dc-4b79-11ed-a3b6-dac502259ad0.png


將以上三個(gè)特征分別映射到多語言多模態(tài)空間中

564f8c6a-4b79-11ed-a3b6-dac502259ad0.png


作者使用了傳統(tǒng)的跨模態(tài)檢索任務(wù)中常用的triplet ranking loss進(jìn)行約束:

566ce9f4-4b79-11ed-a3b6-dac502259ad0.png


噪聲魯棒的特征學(xué)習(xí)

基線模型只是簡單的進(jìn)行了跨語言跨模態(tài)對(duì)齊,并沒有對(duì)噪聲進(jìn)行處理,接下來作者提出了多視圖自蒸餾來生成pseudo-tagets以監(jiān)督目標(biāo)語言分支的學(xué)習(xí)

作者首先借助于cross-attention來生成一個(gè)相對(duì)干凈的中間目標(biāo)語言句子特征,通過將源語言token序列作為query,利用cross-attenion固有的性質(zhì),對(duì)目標(biāo)語言token序列進(jìn)行過濾。

567df00a-4b79-11ed-a3b6-dac502259ad0.png

cross-attention權(quán)重示例圖

如圖3所示,錯(cuò)誤的單詞(用紅色標(biāo)記)和源語言單詞之間的注意權(quán)重被分配了低值。其過程表示如下:

56ac79e8-4b79-11ed-a3b6-dac502259ad0.png


多視角自蒸餾

作者引入了基于相似度視角和基于特征視角的自蒸餾損失

基于相似度視角的自蒸餾(Similarity-based view):

給定(V, S, T),默認(rèn)其兩兩之間互為匹配對(duì),忽視翻譯得到的目標(biāo)語言句子T中所包含噪聲的事實(shí)。對(duì)此,作者將cross-attention所生成的特征作為teacher,使用特征和視覺特征計(jì)算計(jì)算得到一個(gè)soft pseudo-targets作為目標(biāo)語言分支的監(jiān)督

56c23d32-4b79-11ed-a3b6-dac502259ad0.png

soft pseudo-targets示例圖

57508fec-4b79-11ed-a3b6-dac502259ad0.png576e47e4-4b79-11ed-a3b6-dac502259ad0.png


基于特征視角的自蒸餾(Feature-based view):

通過l1范式實(shí)現(xiàn)特征蒸餾

57838398-4b79-11ed-a3b6-dac502259ad0.png


循環(huán)語義一致性

受無監(jiān)督機(jī)器翻譯的啟發(fā),作者引入了循環(huán)語義一致性模塊,提高源語言分支從噪聲中提高原始語義信息的能力。增加源語言分支的魯棒性。

579c5d96-4b79-11ed-a3b6-dac502259ad0.png57b21654-4b79-11ed-a3b6-dac502259ad0.png


語言無關(guān)特征學(xué)習(xí)

考慮到特定語言特征缺少跨語言遷移能力,作者通過對(duì)抗學(xué)習(xí)的方式來訓(xùn)練模型學(xué)習(xí)語言無關(guān)特征。構(gòu)建一個(gè)分類器F作為判別器來分辨輸入特征是源語言還是目標(biāo)語言,判別器和特征編碼器相互博弈:

57c9d3de-4b79-11ed-a3b6-dac502259ad0.png

訓(xùn)練和測(cè)試

最終的目標(biāo)函數(shù)為:

57e20ae4-4b79-11ed-a3b6-dac502259ad0.png

測(cè)試時(shí)作者采用了目標(biāo)語言和翻譯的源語言(由于測(cè)試時(shí)只使用目標(biāo)語言)加權(quán)和的方式:

57f04514-4b79-11ed-a3b6-dac502259ad0.png

實(shí)驗(yàn)

作者在三個(gè)跨語言跨模態(tài)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比,其中為兩個(gè)多語言視頻文本檢索數(shù)據(jù)集(VATEX和MSRVTT-CN),一個(gè)多語言圖像文本檢索(Multi30K);其中MSRVTT-CN是作者對(duì)MSRVTT進(jìn)行中文擴(kuò)展得到的多語言數(shù)據(jù)集

57fef85c-4b79-11ed-a3b6-dac502259ad0.png

在VATEX數(shù)據(jù)集上進(jìn)行SOTA對(duì)比實(shí)驗(yàn)

581a9378-4b79-11ed-a3b6-dac502259ad0.png

MSRVTT-CN上性能對(duì)比


58498458-4b79-11ed-a3b6-dac502259ad0.png

Multi30K上進(jìn)行性能對(duì)比實(shí)驗(yàn)

魯棒分析實(shí)驗(yàn)

為了進(jìn)一步證明模型對(duì)抗翻譯噪聲的魯棒能力,作者通過增加翻譯次數(shù)以進(jìn)一步增加訓(xùn)練數(shù)據(jù)的噪聲程度,如圖所示,在經(jīng)過多次翻譯后,基線模型的性能明顯下降,而本文所提出的模型性能更加的穩(wěn)定,驗(yàn)證了噪聲魯棒特征學(xué)習(xí)的有效性

58632bb0-4b79-11ed-a3b6-dac502259ad0.png

將目標(biāo)語言句子根據(jù)句子長度進(jìn)行分組,作者假設(shè)越長的句子,翻譯越困難,因此包含的噪聲可能更多。結(jié)果表明,本文所提出的模型和基線模型的性能差距隨著句子長度的增加而增加。

587a1e6a-4b79-11ed-a3b6-dac502259ad0.png

t-SNE可視化實(shí)驗(yàn)

作者隨機(jī)從VATEX的中文測(cè)試集中隨機(jī)選擇20個(gè)樣本,其中每個(gè)樣本包含10個(gè)對(duì)應(yīng)的英語翻譯句子和一個(gè)對(duì)應(yīng)的視頻。如圖所示,NRCCR的類內(nèi)特征更加的緊湊,表明了模型更好的學(xué)習(xí)到了跨語言跨模態(tài)對(duì)齊。

58a5f314-4b79-11ed-a3b6-dac502259ad0.png

消融實(shí)驗(yàn)

結(jié)果表明,使用兩個(gè)視角,性能得到了提升,表明基于相似度視角和基于特征視角彼此互補(bǔ)。引入循環(huán)語義一致性后,實(shí)現(xiàn)了額外的性能收益。此外,還表明了語言無關(guān)特征學(xué)習(xí)的重要性

58cdae5e-4b79-11ed-a3b6-dac502259ad0.png




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3646

    瀏覽量

    134657
  • C語言
    +關(guān)注

    關(guān)注

    180

    文章

    7605

    瀏覽量

    137000

原文標(biāo)題:ACMMM 2022 | 首個(gè)針對(duì)跨語言跨模態(tài)檢索的噪聲魯棒研究工作

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于機(jī)器翻譯增加的語言機(jī)器閱讀理解算法

    利用一個(gè)注意力機(jī)制的教師來將源語言的答案轉(zhuǎn)移到目標(biāo)語言的答案輸出空間,從而進(jìn)行深度級(jí)別的輔助以增強(qiáng)語言傳輸能力。同時(shí),提出了一種改進(jìn)的交叉
    的頭像 發(fā)表于 12-12 10:28 ?598次閱讀
    基于<b class='flag-5'>機(jī)器翻譯</b>增加的<b class='flag-5'>跨</b><b class='flag-5'>語言</b><b class='flag-5'>機(jī)器</b>閱讀理解算法

    機(jī)器翻譯三大核心技術(shù)原理 | AI知識(shí)科普

    的大腦翻譯來實(shí)現(xiàn)基于規(guī)則的機(jī)器翻譯?這里面涉及到中間語言,首先將源語言用中間語言進(jìn)行描述,然后
    發(fā)表于 07-06 10:30

    機(jī)器翻譯三大核心技術(shù)原理 | AI知識(shí)科普 2

    ,就可以得到目標(biāo)語言的譯文。04 機(jī)器翻譯的基本應(yīng)用機(jī)器翻譯的基本應(yīng)用可分為三大場景:信息獲取為目的場景、信息發(fā)布為目的的場景、信息交流為目的場景。以信息獲取為目的的應(yīng)用場景,可能大家都比較熟悉,比如說
    發(fā)表于 07-06 10:46

    神經(jīng)機(jī)器翻譯的方法有哪些?

    目前,神經(jīng)機(jī)器翻譯(NMT)已經(jīng)成為在學(xué)術(shù)界和工業(yè)界最先進(jìn)的機(jī)器翻譯方法。最初的這種基于編碼器-解碼器架構(gòu)的機(jī)器翻譯系統(tǒng)都針對(duì)單個(gè)語言對(duì)進(jìn)行
    發(fā)表于 11-23 12:14

    基于淺層句法信息的翻譯實(shí)例獲取方法研究

    翻譯實(shí)例庫是基于實(shí)例的機(jī)器翻譯系統(tǒng)的主要知識(shí)源。本文采用基于淺層句法分析的方法進(jìn)行翻譯實(shí)例的獲取。首先根據(jù)淺層句法信息劃分源語言
    發(fā)表于 11-24 15:32 ?13次下載

    淺談人工智能中語言機(jī)器翻譯的重要性

    機(jī)器翻譯之所以重要的原因是在于語言對(duì)人類的重要性,《圣經(jīng)·創(chuàng)世記》有個(gè)故事,當(dāng)時(shí)人類聯(lián)合起來興建希望塔頂通天能傳揚(yáng)己名的巴別塔。為了阻止人類的計(jì)劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,計(jì)劃因此失敗,人類自此各散東西。
    發(fā)表于 03-29 16:24 ?9369次閱讀

    機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)了自然語言處理的又一里程碑突破

    微軟機(jī)器翻譯團(tuán)隊(duì)研究經(jīng)理Arul Menezes表示,團(tuán)隊(duì)想要證明的是:當(dāng)一種語言對(duì)(比如中-英)擁有較多的訓(xùn)練數(shù)據(jù),且測(cè)試集中包含的是常見的大眾類新聞詞匯時(shí),那么在人工智能技術(shù)的加持下,機(jī)器翻譯系統(tǒng)的表現(xiàn)可以與人類媲美。
    的頭像 發(fā)表于 03-16 14:15 ?5808次閱讀
    <b class='flag-5'>機(jī)器翻譯</b>系統(tǒng)實(shí)現(xiàn)了自然<b class='flag-5'>語言</b>處理的又一里程碑突破

    RNN基本原理和RNN種類與實(shí)例

    這是一個(gè)delay模型,經(jīng)過一段延遲,即把所有輸入都讀取后,在decoder中獲取輸入并輸出一個(gè)序列。這個(gè)模型在機(jī)器翻譯中使用較廣泛,源語言輸在入放入encoder,濃縮在狀態(tài)信息中,生成目標(biāo)
    的頭像 發(fā)表于 07-27 17:22 ?3.9w次閱讀
    RNN基本原理和RNN種類與實(shí)例

    MIT和谷歌開發(fā)失傳語言機(jī)器翻譯系統(tǒng)

    注釋數(shù)據(jù)庫和讓機(jī)器從中學(xué)習(xí)的技術(shù)讓語言學(xué)習(xí)發(fā)生了革命性變化,這使得機(jī)器翻譯變得越來越普遍。
    發(fā)表于 07-17 10:56 ?626次閱讀

    Facebook的AI翻譯系統(tǒng)能翻譯100種語言!

    近日,F(xiàn)acebook 宣稱已經(jīng)開發(fā)出一種人工智能翻譯系統(tǒng),能夠在 100 種語言之間進(jìn)行精確翻譯,而不需要像許多現(xiàn)有 AI 翻譯那樣先
    的頭像 發(fā)表于 10-30 09:25 ?2918次閱讀

    人工智能翻譯mRASP:可翻譯32種語言

    利用計(jì)算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程就是機(jī)器翻譯機(jī)器翻譯對(duì)于信息時(shí)代下海量信息的捕獲無疑具有重要作用,事實(shí)上,人們對(duì)于機(jī)器翻譯
    的頭像 發(fā)表于 12-01 14:03 ?3217次閱讀
    人工智能<b class='flag-5'>翻譯</b>mRASP:可<b class='flag-5'>翻譯</b>32種<b class='flag-5'>語言</b>

    未來機(jī)器翻譯會(huì)取代人工翻譯

    所謂機(jī)器翻譯,就是利用計(jì)算機(jī)將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言目標(biāo)語言)的過程。它是計(jì)算語言
    的頭像 發(fā)表于 12-29 10:12 ?5036次閱讀

    語言翻譯新范式的工作:機(jī)器翻譯界的BERT

    思想就是打造“機(jī)器翻譯界的BERT”,通過預(yù)訓(xùn)練技術(shù)再在具體語種上微調(diào)即可達(dá)到領(lǐng)先的翻譯效果,其在32個(gè)語種上預(yù)訓(xùn)練出的統(tǒng)一模型在47個(gè)翻譯測(cè)試集上取得了全面顯著的提升。 目錄 機(jī)器翻譯
    的頭像 發(fā)表于 03-31 17:24 ?3001次閱讀
    多<b class='flag-5'>語言</b><b class='flag-5'>翻譯</b>新范式的工作:<b class='flag-5'>機(jī)器翻譯</b>界的BERT

    語言模型的多語言機(jī)器翻譯能力分析

    以ChatGPT為代表的大語言模型(Large Language Models, LLM)在機(jī)器翻譯(Machine Translation, MT)任務(wù)上展現(xiàn)出了驚人的潛力。
    的頭像 發(fā)表于 05-17 09:56 ?2058次閱讀
    大<b class='flag-5'>語言</b>模型的多<b class='flag-5'>語言</b><b class='flag-5'>機(jī)器翻譯</b>能力分析

    機(jī)器翻譯研究進(jìn)展

    機(jī)器翻譯使用計(jì)算機(jī)將一種語言翻譯成另一種語言,具有低成本、高效率和高翻譯質(zhì)量等優(yōu)勢(shì),在語音翻譯、
    的頭像 發(fā)表于 07-06 11:19 ?832次閱讀
    <b class='flag-5'>機(jī)器翻譯</b>研究進(jìn)展