0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DreamLLM:多功能多模態(tài)大型語言模型,你的DreamLLM~

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-09-25 17:26 ? 次閱讀

今天為大家介紹西安交大,清華大學、華中科大聯(lián)合MEGVII Technology的一篇關于多模態(tài)LLM學習框架的論文,名為DREAMLLM。

  • 論文:DreamLLM: Synergistic Multimodal Comprehension and Creation
  • 論文鏈接:https://arxiv.org/abs/2309.11499
  • GitHub:https://github.com/RunpeiDong/DreamLLM

摘要

DREAMLLM是一個學習框架,實現(xiàn)了通用的多模態(tài)大型語言模型(Multimodal Large Language Models,MLLMs),該模型利用了多模態(tài)理解和創(chuàng)造之間經(jīng)常被忽視的協(xié)同作用。DREAMLLM的運作遵循兩個基本原則:一是在原始多模態(tài)空間中通過直接采樣對語言和圖像后驗進行生成建模有助于獲取更徹底的多模態(tài)理解。二是促進了原始、交錯文檔的生成,對文本和圖像內容以及非結構化布局進行建模,使得模型能夠有效地學習所有條件、邊際和聯(lián)合多模式分布。

簡介

在多模態(tài)任務中,內容理解和創(chuàng)作是機器智能的終極目標之一。為此,多模式大語言模型成功進入視覺領域。MLLMs在多模態(tài)理解能力方面取得了前所未有的進展。通常通過將圖像作為多模式輸入來增強LLM,以促進語言輸出的多模式理解。其目的是通過語言后驗來捕捉多模式的條件分布或邊際分布。然而,涉及生成圖像、文本或兩者的多模式創(chuàng)作,需要一個通用的生成模型來同時學習語言和圖像后驗,而這一點目前尚未得到充分的探索。最近,一些工作顯示出使用MLLMs的條件圖像生成的成功。如下圖所示,

ea2561d0-5b81-11ee-939d-92fbcf53809c.png

由于固有的模態(tài)缺口,如CLIP語義主要關注模態(tài)共享信息,往往忽略了可以增強多模態(tài)理解的模態(tài)特定知識。因此,這些研究并沒有充分認識到多模式創(chuàng)造和理解之間潛在的學習協(xié)同作用,只顯示出創(chuàng)造力的微小提高,并且在多模式理解方面仍然存在不足。

創(chuàng)新點:DREAMLLM以統(tǒng)一的自回歸方式生成原始語言和圖像輸入,本質上實現(xiàn)了交錯生成。

知識背景

  • Autoregressive Generative Modeling:自回歸生成建模
  • Diffusion Model:擴散模型

MLLMs具體做法:現(xiàn)有策略會導致MLLMs出現(xiàn)語義減少的問題,偏離其原始輸出空間,為了避免,提出了替代學習方法如下圖所示,即DREAMLLM模型框架。

ea3adca4-5b81-11ee-939d-92fbcf53809c.png

DREAMLLM架構

DREAMLLM框架如上圖所示,使用交錯的文檔用作輸入,解碼以產(chǎn)生輸出。文本和圖像都被編碼成用于MLLM輸入的順序的、離散的token嵌入。特殊的<dream>標記可以預測在哪里生成圖像。隨后,一系列dream查詢被輸入到MLLM中,捕獲整體歷史語義。圖像由stable diffusion圖像解碼器以查詢的語義為條件進行合成。然后將合成的圖像反饋到MLLM中用于隨后的理解。

其中MLLM是基于在shareGPT上訓練的LLama的Vicuna,采用CLIP-Large作為圖像編碼器,為了合成圖像使用Stable Diffusion作為圖像解碼器。

模型訓練

模型訓練分為對齊訓練、I-GPT預訓練和監(jiān)督微調。

實驗結果

  • 多模態(tài)理解:多模式理解使人類能夠與以單詞和視覺內容為條件的主體進行互動。本文評估了DREAMLLM在幾個基準上的多模式視覺和語言能力。此外,對最近開發(fā)的MMBench和MM-Vet基準進行了零樣本評估,以評估模型在復雜多模式任務中的性能。

ea54d50a-5b81-11ee-939d-92fbcf53809c.png

  • 發(fā)現(xiàn),DREAMLLM在所有基準測試中都優(yōu)于其他MLLM。值得注意的是,DREAMLLM-7B在圖像合成能力方面大大超過了并發(fā)MLLMs,與Emu-13B相比,VQAv2的精度提高了16.6。在MMBench和MMVet等綜合基準測試中,DREAMLLM與所有7B同行相比都取得了最先進的性能。

  • 條件文本圖像合成:條件文本圖像合成是創(chuàng)造性內容生成最常用的技術之一,它通過自由形式的語言生成遵循人類描述的圖像。

ea6dc394-5b81-11ee-939d-92fbcf53809c.png

  • 其結果如上表所示。結果顯示:DREAMLLM 在階段I對齊后顯示出比Stable Diffusion基線顯著提高FID,在 MS-COCO 和 LN-COCO 上分別將分數(shù)分別降低了 3.67 和 11.83。此外,預訓練和監(jiān)督微調后實現(xiàn)了 3.97 和 13.73 的 FID 改進。LN-COCO 的實質性改進強調了 DREAMLLM 在處理長上下文信息方面的卓越性能。與之前的專家模型相比,DREAMLLM 基于 SD 圖像解碼器提供了有競爭力的結果。DREAMLLM 始終優(yōu)于基于并發(fā) MLLM 的圖像合成方法。

  • 多模態(tài)聯(lián)合創(chuàng)建于比較:分別進行了自由形式的交錯文檔創(chuàng)建、圖片質量和人工評估三個實驗。實驗結果表明:DREAMLLM可以根據(jù)給定的指令生成有意義的響應。系統(tǒng)可以通過預測所提出的令牌在任何指定位置自主創(chuàng)建圖像,從而消除了對額外人工干預的需要。DREAMLLM生成的圖像準確地對應于相關文本。證明了所提方法的有效性。

總結

本文介紹了一個名為DREAMLLM的學習框架,它能夠同時實現(xiàn)多模態(tài)理解和創(chuàng)作。DREAMLLM具有兩個基本原則:第一個原則是通過在原始多模態(tài)空間中進行直接采樣,生成語言和圖像后驗概率的生成建模。第二個原則是促進生成原始、交錯文檔,模擬文本和圖像內容以及無結構的布局,使DREAMLLM能夠有效地學習所有條件、邊際和聯(lián)合多模態(tài)分布。實驗結果表明,DREAMLLM是第一個能夠生成自由形式交錯內容的MLLM,并具有卓越的性能。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 框架
    +關注

    關注

    0

    文章

    403

    瀏覽量

    17484
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • 機器智能
    +關注

    關注

    0

    文章

    55

    瀏覽量

    8599

原文標題:DreamLLM:多功能多模態(tài)大型語言模型,你的DreamLLM~

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文理解模態(tài)語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態(tài)語言模型的論文和博客,在此基礎上,推薦了一篇解
    的頭像 發(fā)表于 12-02 18:29 ?326次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

    大型語言模型有哪些用途?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下,可
    的頭像 發(fā)表于 02-23 19:50 ?5192次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。
    的頭像 發(fā)表于 03-08 13:57 ?8038次閱讀

    利用大語言模型模態(tài)任務

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數(shù)據(jù)。
    的頭像 發(fā)表于 05-10 16:53 ?1049次閱讀
    利用大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務

    如何利用LLM做模態(tài)任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發(fā)表于 05-11 17:09 ?913次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務?

    邱錫鵬團隊提出具有內生跨模態(tài)能力的SpeechGPT,為模態(tài)LLM指明方向

    大型語言模型(LLM)在各種自然語言處理任務上表現(xiàn)出驚人的能力。與此同時,模態(tài)
    的頭像 發(fā)表于 05-22 14:38 ?691次閱讀
    邱錫鵬團隊提出具有內生跨<b class='flag-5'>模態(tài)</b>能力的SpeechGPT,為<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>LLM指明方向

    VisCPM:邁向多語言模態(tài)模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進,模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?718次閱讀
    VisCPM:邁向多<b class='flag-5'>語言</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補全一切」

    當前學界和工業(yè)界都對模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言
    的頭像 發(fā)表于 07-16 20:45 ?724次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全一切」

    探究編輯模態(tài)語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單
    發(fā)表于 11-09 14:53 ?512次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的可行性

    哈工大提出Myriad:利用視覺專家進行工業(yè)異常檢測的大型模態(tài)模型

    最近,大型模態(tài)(即視覺和語言模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務上表現(xiàn)出了卓越的感知能力,使其成為更易于理解的異常
    的頭像 發(fā)表于 11-21 16:08 ?1954次閱讀
    哈工大提出Myriad:利用視覺專家進行工業(yè)異常檢測的<b class='flag-5'>大型</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>

    自動駕駛和模態(tài)語言模型的發(fā)展歷程

    模態(tài)語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結合,通過多模態(tài)對齊使它們能夠更高效地執(zhí)
    發(fā)表于 12-28 11:45 ?526次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的發(fā)展歷程

    機器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作
    發(fā)表于 01-19 11:43 ?420次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>語言</b>視覺大<b class='flag-5'>模型</b>

    韓國Kakao宣布開發(fā)模態(tài)語言模型“蜜蜂”

    韓國互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的模態(tài)大型語言模型。這種創(chuàng)新
    的頭像 發(fā)表于 01-19 16:11 ?696次閱讀

    智譜AI發(fā)布全新模態(tài)開源模型GLM-4-9B

    近日,智譜AI在人工智能領域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態(tài)能力,再次刷新了業(yè)界對于大型
    的頭像 發(fā)表于 06-07 09:17 ?742次閱讀

    一文理解模態(tài)語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)語言模型 - 上》介紹了什么是
    的頭像 發(fā)表于 12-03 15:18 ?128次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下