0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?

深度學(xué)習(xí)自然語言處理 ? 來源:AI公園 ? 作者:Synced ? 2021-03-08 10:30 ? 次閱讀

一個模型完成了CV,NLP方向的7個任務(wù),每個任務(wù)上表現(xiàn)都非常好。

Transformer架構(gòu)在自然語言處理和其他領(lǐng)域的機(jī)器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功,但大多僅限于單個領(lǐng)域或特定的多模態(tài)領(lǐng)域的任務(wù)。例如,ViT專門用于視覺相關(guān)的任務(wù),BERT專注于語言任務(wù),而VILBERT-MT只用于相關(guān)的視覺和語言任務(wù)。

一個自然產(chǎn)生的問題是:我們能否建立一個單一的Transformer,能夠在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?最近,F(xiàn)acebook的一個人工智能研究團(tuán)隊(duì)進(jìn)行了一個新的統(tǒng)一Transformer(UniT) encoder-decoder模型的挑戰(zhàn),該模型在不同的模態(tài)下聯(lián)合訓(xùn)練多個任務(wù),并通過一組統(tǒng)一的模型參數(shù)在這些不同的任務(wù)上都實(shí)現(xiàn)了強(qiáng)大的性能。

Transformer首先應(yīng)用于sequence-to-sequence模型的語言領(lǐng)域。它們已經(jīng)擴(kuò)展到視覺領(lǐng)域,甚至被應(yīng)用于視覺和語言的聯(lián)合推理任務(wù)。盡管可以針對各種下游任務(wù)中的應(yīng)用對預(yù)先訓(xùn)練好的Transformer進(jìn)行微調(diào),并獲得良好的結(jié)果,但這種模型微調(diào)方法會導(dǎo)致為每個下游任務(wù)創(chuàng)建不同的參數(shù)集。

Facebook的人工智能研究人員提出,一個Transformer可能就是我們真正需要的。他們的UniT是建立在傳統(tǒng)的Transformer編碼器-解碼器架構(gòu)上,包括每個輸入模態(tài)類型的獨(dú)立編碼器,后面跟一個具有簡單的每個任務(wù)特定的頭的解碼器。輸入有兩種形式:圖像和文本。首先,卷積神經(jīng)網(wǎng)絡(luò)骨干網(wǎng)提取視覺特征,然后BERT將語言輸入編碼成隱藏狀態(tài)序列。然后,Transformer解碼器應(yīng)用于編碼的單個模態(tài)或兩個編碼模態(tài)的連接序列(取決于任務(wù)是單模態(tài)還是多模態(tài))。最后,Transformer解碼器的表示將被傳遞到特定任務(wù)的頭,該頭將輸出最終的預(yù)測。

UniT模型概要

評估UniT的性能,研究人員進(jìn)行了實(shí)驗(yàn),需要共同學(xué)習(xí)來自不同領(lǐng)域的許多流行的任務(wù):COCO目標(biāo)檢測和 Visual Genome數(shù)據(jù)集,語言理解任務(wù)的GLUE基準(zhǔn)(QNLI, QQP、MNLI-mismatched SST-2),以及視覺推理任務(wù)VQAv2 SNLI-VE數(shù)據(jù)集。

8d044a88-7f2a-11eb-8b86-12bb97331649.png

多任務(wù)訓(xùn)練的UniT性能優(yōu)于單獨(dú)訓(xùn)練的目標(biāo)檢測和VQA

8d3f74fa-7f2a-11eb-8b86-12bb97331649.png

基于UniT模型的目標(biāo)檢測與VQA的分析

8d86f6fe-7f2a-11eb-8b86-12bb97331649.png

UniT模型在8個數(shù)據(jù)集的7個任務(wù)上的性能

具有共享解碼器的UniT模型的預(yù)測

結(jié)果表明,所提出的UniT 模型同時處理8個數(shù)據(jù)集上的7個任務(wù),在統(tǒng)一的模型參數(shù)集下,每個任務(wù)都有較強(qiáng)的性能。強(qiáng)大的性能表明UniT有潛力成為一種領(lǐng)域未知的transformer 架構(gòu),向更通用的智能的目標(biāo)邁進(jìn)了一步。

原文標(biāo)題:【多模態(tài)】來自Facebook AI的多任務(wù)多模態(tài)的統(tǒng)一Transformer:向更通用的智能邁出了一步

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31054

    瀏覽量

    269406
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47387

    瀏覽量

    238900
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8423

    瀏覽量

    132757

原文標(biāo)題:【多模態(tài)】來自Facebook AI的多任務(wù)多模態(tài)的統(tǒng)一Transformer:向更通用的智能邁出了一步

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    智慧交通技術(shù)的廣泛應(yīng)用領(lǐng)域

    智慧交通 是一種結(jié)合了信息技術(shù)、通信技術(shù)和交通管理的創(chuàng)新模式,旨在提高城市交通系統(tǒng)的效率、安全性和可持續(xù)性。智慧交通技術(shù)各個領(lǐng)域廣泛的運(yùn)用范圍,涵蓋了城市交通管理、公共交通系統(tǒng)、道路安全、車輛
    的頭像 發(fā)表于 12-11 11:51 ?502次閱讀

    利用OpenVINO部署Qwen2多模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,多模態(tài)大模型可以可以理解
    的頭像 發(fā)表于 10-18 09:39 ?477次閱讀

    FPGA圖像處理領(lǐng)域的優(yōu)勢有哪些?

    高的應(yīng)用領(lǐng)域,F(xiàn)PGA是圖像處理的理想選擇。 綜上所述,F(xiàn)PGA圖像處理領(lǐng)域具有并行處理能力強(qiáng)
    發(fā)表于 10-09 14:36

    IP宿主信息不同領(lǐng)域廣泛應(yīng)用

    廣泛應(yīng)用。 什么是IP宿主信息? IP宿主信息是指與特定IP地址相關(guān)聯(lián)的詳細(xì)數(shù)據(jù)集合。通過網(wǎng)絡(luò)技術(shù)手段,對特定IP地址進(jìn)行深度解析后獲得的一系列相關(guān)信息。提供郵政編碼、經(jīng)緯度等信息的基礎(chǔ)上為用戶提供更加詳細(xì)的信息,如行業(yè)類型、商圈地址、
    的頭像 發(fā)表于 09-06 09:49 ?400次閱讀

    FPGA自動駕駛領(lǐng)域有哪些應(yīng)用?

    控制。視覺算法方面,F(xiàn)PGA利用自身并行處理和高速存儲器的特點(diǎn),極大地加快了算法的執(zhí)行速度,提高了運(yùn)算效率。 五、未來發(fā)展趨勢隨著自動駕駛技術(shù)的不斷發(fā)展,F(xiàn)PGA自動駕駛領(lǐng)域的應(yīng)用
    發(fā)表于 07-29 17:09

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)自然語言處理(NLP)、時間序列分析等
    的頭像 發(fā)表于 07-12 14:07 ?478次閱讀

    Transformer語言模型簡介與實(shí)現(xiàn)過程

    自然語言處理(NLP)領(lǐng)域Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。
    的頭像 發(fā)表于 07-10 11:48 ?1832次閱讀

    Transformer架構(gòu)自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來了革命性的變革。本文將深入探討
    的頭像 發(fā)表于 07-09 11:42 ?840次閱讀

    Transformer模型語音識別和語音生成中的應(yīng)用優(yōu)勢

    自然語言處理、語音識別、語音生成等多個領(lǐng)域展現(xiàn)出強(qiáng)大的潛力和廣泛的應(yīng)用前景。本文將從Transformer模型的基本原理出發(fā),深入探討其
    的頭像 發(fā)表于 07-03 18:24 ?1169次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建
    的頭像 發(fā)表于 07-02 11:41 ?1688次閱讀

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)
    的頭像 發(fā)表于 02-22 16:27 ?667次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    三坐標(biāo)測量儀的高精度測量功能與廣泛應(yīng)用領(lǐng)域詳解

    三坐標(biāo)測量儀作為一種高精度的測量設(shè)備,被廣泛應(yīng)用于各種復(fù)雜零件的檢測和測量。它綜合了機(jī)械、光學(xué)、電子、計(jì)算機(jī)等多種技術(shù),能夠準(zhǔn)確測量物體的尺寸、形狀、位置和曲面特征等多個方面。具有廣泛的應(yīng)用領(lǐng)
    的頭像 發(fā)表于 02-22 09:12 ?2137次閱讀
    三坐標(biāo)測量儀的高精度測量功能與<b class='flag-5'>廣泛應(yīng)用領(lǐng)域</b>詳解

    一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

    Transformer模型強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指機(jī)器與環(huán)境互動的過程中,通過試錯來學(xué)習(xí)最優(yōu)的
    發(fā)表于 02-20 09:55 ?1.4w次閱讀
    一文詳解<b class='flag-5'>Transformer</b>神經(jīng)網(wǎng)絡(luò)模型

    Transformer壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    隨著人工智能技術(shù)的迅速發(fā)展,Transformer自然語言處理、機(jī)器翻譯、問答系統(tǒng)等領(lǐng)域取得了顯著的性能提升。
    的頭像 發(fā)表于 01-24 14:05 ?1225次閱讀
    <b class='flag-5'>Transformer</b>壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    基于Transformer的多模態(tài)BEV融合方案

    由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì),將 Transformer 架構(gòu)簡單地應(yīng)用于相機(jī)-激光雷達(dá)融合問題是很困難的。
    發(fā)表于 01-23 11:39 ?867次閱讀
    基于<b class='flag-5'>Transformer</b>的多<b class='flag-5'>模態(tài)</b>BEV融合方案