0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

后ChatGPT時(shí)代NLP的下一個(gè)方向:增強(qiáng)式大規(guī)模語(yǔ)言模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:復(fù)旦DISC ? 2023-04-20 11:19 ? 次閱讀

引言

目前,大規(guī)模語(yǔ)言模型(LLM)在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出了驚人的性能,能夠完成前所未有的任務(wù),為更多的人機(jī)交互形式打開(kāi)了大門(mén),ChatGPT是一個(gè)最好的例子。然而,LLM在大規(guī)模推廣中受到了一些限制,其中一些限制源于其單參數(shù)模型和有限的上下文(N個(gè)token)等基本缺陷。隨著硬件和軟件技術(shù)的不斷發(fā)展,LLM需要更長(zhǎng)的上下文來(lái)展現(xiàn)其更強(qiáng)大的能力,但在實(shí)踐中,大多數(shù)LLM仍然只能使用較小的上下文尺寸。為了解決這些問(wèn)題,出現(xiàn)了增強(qiáng)語(yǔ)言模型(ALM),它是一種利用外部信息來(lái)增強(qiáng)語(yǔ)言模型的方法。ALM包括推理、工具和行為三個(gè)方面,通過(guò)這些方面的增強(qiáng),語(yǔ)言模型可以調(diào)用其他工具來(lái)解決更加復(fù)雜的任務(wù),并對(duì)虛擬或真實(shí)世界產(chǎn)生影響并觀察結(jié)果。本文介紹2種最近出現(xiàn)的增強(qiáng)式語(yǔ)言模型去完成各種模態(tài)的交互式任務(wù):1)VisualChatGPT;2)Toolformer。

文章概覽

文章概覽

Visual-ChatGPT

b2136350-dedb-11ed-bfe3-dac502259ad0.png

微軟最近的一個(gè)開(kāi)源項(xiàng)目:Visual ChatGPT,讓用戶(hù)能夠用交互的形式與大規(guī)模語(yǔ)言模型完成圖片操作的任務(wù)。以此為 ChatGPT 提供了新的玩法。

論文:https://arxiv.org/abs/2303.04671

論文細(xì)節(jié)

介紹

Visual ChatGPT 是一種智能交互系統(tǒng),它將不同的視覺(jué)基礎(chǔ)模型與 ChatGPT 相結(jié)合,使得用戶(hù)可以通過(guò)發(fā)送語(yǔ)言和圖像與 AI 系統(tǒng)進(jìn)行交互。與傳統(tǒng)的 ChatGPT 僅支持文字交互不同,Visual ChatGPT 可以支持文字+圖片的交互方式。除了可以進(jìn)行簡(jiǎn)單的對(duì)話(huà)外,Visual ChatGPT 還可以接收復(fù)雜的視覺(jué)問(wèn)題或視覺(jué)編輯指令,并要求多個(gè) AI 模型之間進(jìn)行協(xié)作和多步驟操作。用戶(hù)還可以給出反饋,并要求修改結(jié)果,從而實(shí)現(xiàn)更加智能化、人性化的交互體驗(yàn)。簡(jiǎn)而言之,Visual ChatGPT 使用戶(hù)可以以一種更加豐富、直觀和自然的方式與 AI 系統(tǒng)進(jìn)行交互。

用戶(hù)可以發(fā)送以下幾種指令進(jìn)行交互:

發(fā)送和接收不僅是語(yǔ)言而且是圖像

提供復(fù)雜的視覺(jué)問(wèn)題或視覺(jué)編輯指令,需要多個(gè) AI 模型之間的協(xié)作和多步驟操作

提供反饋并要求修改結(jié)果,并且它能夠根據(jù)用戶(hù)反饋修改結(jié)果

b23ceaea-dedb-11ed-bfe3-dac502259ad0.gif

方法

文中作者讓ChatGPT與其他視覺(jué)模型進(jìn)行交互,下游模型稱(chēng)作VFM, 是 Visual Foundation Model(視覺(jué)基礎(chǔ)模型)縮寫(xiě),其中Stable Diffusion、ControlNet、BLIP 等圖像處理類(lèi)模型。作者還提出了提示管理器(Prompt Manger)作為 ChatGPT 和 VFM 之間的橋梁。提示管理器(Prompt Manger)明確告知 ChatGPT 每個(gè) VFM 的功能并指定必要的輸入輸出格式; 它將各種類(lèi)型的視覺(jué)信息(例如 png 圖像、深度圖像和遮罩矩陣)轉(zhuǎn)換為語(yǔ)言格式以幫助 ChatGPT 理解。同時(shí)管理不同 VFM 的歷史記錄、優(yōu)先級(jí)和沖突; 通過(guò)使用提示管理器,ChatGPT 可以有效地利用 VFM 并以迭代的方式接收他們的反饋,直到滿(mǎn)足用戶(hù)的要求或達(dá)到結(jié)束條件。

b25c6546-dedb-11ed-bfe3-dac502259ad0.png

詳細(xì)的整體結(jié)構(gòu)如下:

b275100a-dedb-11ed-bfe3-dac502259ad0.png

從左到右分為了三個(gè)部分,中間部分詳細(xì)展示了模型接收到提問(wèn)(Query)后,會(huì)判斷是否需要使用 VFM 進(jìn)行處理,如果需要?jiǎng)t會(huì)調(diào)用下游的VFM相應(yīng)的模型為這個(gè)指令進(jìn)行回答。

Visual-ChatGPT特點(diǎn)

Visual ChatGPT 擴(kuò)展了聊天機(jī)器人的輸入和輸出范圍,超越了傳統(tǒng)的基于文本的通信。它可以處理文本和圖像信息,并根據(jù)用戶(hù)需求生成各種格式的回復(fù)。

Visual ChatGPT 提高了聊天機(jī)器人的智能水平。傳統(tǒng)的聊天機(jī)器人只能在單一領(lǐng)域或任務(wù)上表現(xiàn)出智能行為,而 Visual ChatGPT 可以在多個(gè)領(lǐng)域或任務(wù)上表現(xiàn)出智能行為,并且可以根據(jù)上下文切換不同模式。

Visual ChatGPT 增加了聊天機(jī)器人的趣味性和互動(dòng)性。與傳統(tǒng)的聊天機(jī)器人只能進(jìn)行簡(jiǎn)單而枯燥的對(duì)話(huà)不同,Visual ChatGPT 可以進(jìn)行富有創(chuàng)意和想象力的對(duì)話(huà),并且可以根據(jù)用戶(hù)喜好調(diào)整風(fēng)格。

文章概覽

Toolformer

b28e5d12-dedb-11ed-bfe3-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2302.04761v1.pdf

論文細(xì)節(jié)

介紹

大型語(yǔ)言模型存在一些局限性,例如無(wú)法獲取最新信息、可能會(huì)產(chǎn)生“信息幻覺(jué)”、難以理解低資源語(yǔ)言以及缺乏進(jìn)行精確計(jì)算的數(shù)學(xué)技能等。為了解決這些問(wèn)題,一種簡(jiǎn)單的方法是為模型提供外部工具,例如搜索引擎、計(jì)算器或日歷。然而,現(xiàn)有方法通常需要大量的人工注釋或?qū)⒐ぞ叩氖褂孟拗圃谔囟ㄈ蝿?wù)設(shè)置下,這使得語(yǔ)言模型與外部工具的結(jié)合使用難以推廣。為了克服這種瓶頸,Meta AI 最近提出了一種名為 Toolformer 的新方法,該方法使得語(yǔ)言模型能夠?qū)W會(huì)“使用”各種外部工具。

Toolformer滿(mǎn)足了以下實(shí)際需求:

大型語(yǔ)言模型應(yīng)該在自監(jiān)督的方式下學(xué)習(xí)工具的使用,而不需要大量的人工注釋。人工注釋的成本很高,而且人類(lèi)認(rèn)為有用的東西可能與模型認(rèn)為有用的東西不同。

語(yǔ)言模型需要更全面地使用不受特定任務(wù)約束的工具。Toolformer打破了大語(yǔ)言模型的瓶頸。接下來(lái)我們將詳細(xì)介紹Toolformer的方法

方法

Toolformer基于帶有in-context learning(ICL)的大型語(yǔ)言模型從頭開(kāi)始生成數(shù)據(jù)集。這種方法只需要提供少量人類(lèi)使用API的樣本,就可以讓語(yǔ)言模型用潛在的API調(diào)用標(biāo)注一個(gè)巨大的語(yǔ)言建模數(shù)據(jù)集。然后,使用自監(jiān)督損失函數(shù)來(lái)確定哪些API調(diào)用實(shí)際上有助于模型預(yù)測(cè)未來(lái)的token,并根據(jù)對(duì)LM本身有用的API調(diào)用進(jìn)行微調(diào)。由于Toolformer與所使用的數(shù)據(jù)集無(wú)關(guān),因此可以將其用于與模型預(yù)訓(xùn)練完全相同的數(shù)據(jù)集,這確保了模型不會(huì)失去任何通用性和語(yǔ)言建模能力。具體來(lái)說(shuō),該研究旨在讓語(yǔ)言模型具備一種能力——通過(guò)API調(diào)用使用各種工具。為了實(shí)現(xiàn)這個(gè)目標(biāo),每個(gè)API的輸入和輸出都可以表征為文本序列。這允許將API調(diào)用無(wú)縫插入到任何給定文本中,并使用特殊的token來(lái)標(biāo)記每個(gè)此類(lèi)調(diào)用的開(kāi)始和結(jié)束。

該工作把每個(gè)API調(diào)用建模為一個(gè)元祖,如下所示:

b2a89f88-dedb-11ed-bfe3-dac502259ad0.png

其中 是 API 的名稱(chēng), 是相應(yīng)的輸入。給定一個(gè)API調(diào)用c和一個(gè)對(duì)應(yīng)的結(jié)果r,上面的式子表示不帶有結(jié)果的API調(diào)用,下面的式子表示帶有API調(diào)用的結(jié)果的線性化序列。其中,和→是特殊的 token。這種方法讓 LM 學(xué)會(huì)了控制各種工具,并為自己選擇在何時(shí)以及如何使用哪種工具。

b2b54292-dedb-11ed-bfe3-dac502259ad0.png

b2c559b6-dedb-11ed-bfe3-dac502259ad0.png

給定一個(gè)只含有普通文本的數(shù)據(jù)集

b2d0c35a-dedb-11ed-bfe3-dac502259ad0.png

作者首先將這個(gè)數(shù)據(jù)集轉(zhuǎn)換成一個(gè)增加了 API 調(diào)用表示的數(shù)據(jù)集 C*。這個(gè)操作分為三步如下圖所示

b2dad26e-dedb-11ed-bfe3-dac502259ad0.png

1)首先,該研究利用 LM 的 in-context learning 能力對(duì)大量潛在的 API 調(diào)用進(jìn)行采樣

2)然后執(zhí)行這些 API 調(diào)用

3)再檢查獲得的響應(yīng)是否有助于預(yù)測(cè)未來(lái)的 token,以用作篩選標(biāo)準(zhǔn)。

4) 篩選之后,該研究合并對(duì)不同工具的 API 調(diào)用,最終生成數(shù)據(jù)集 C*,并在此數(shù)據(jù)集上微調(diào) LM 本身。

Toolformer結(jié)合了一系列的工具,包括一個(gè)計(jì)算器、一個(gè)Q/A系統(tǒng)、兩個(gè)不同的搜索引擎、一個(gè)翻譯系統(tǒng)和一個(gè)日歷。Toolformer在各種下游任務(wù)中實(shí)現(xiàn)了大幅提高的零樣本性能,通常與更大的模型競(jìng)爭(zhēng),而不犧牲其核心語(yǔ)言建模能力。

總結(jié)

本文介紹了兩種增強(qiáng)式大語(yǔ)言模型(Visual-ChatGPT,Toolformer),使得大語(yǔ)言模型能夠通過(guò)調(diào)用其他基礎(chǔ)視覺(jué)模型,來(lái)通過(guò)交互讓用戶(hù)能夠與大規(guī)模語(yǔ)言模型進(jìn)行多模態(tài)任務(wù)的溝通;并且,通過(guò)構(gòu)建API數(shù)據(jù)集的方式微調(diào),讓大規(guī)模語(yǔ)言模型學(xué)會(huì)利用調(diào)用API來(lái)執(zhí)行各種任務(wù)。在當(dāng)今火爆的大語(yǔ)言模型的浪潮下,增強(qiáng)式語(yǔ)言模型的范式為我們前往通用人工智能提供了有力的支持。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    533

    瀏覽量

    10303
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24753
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1564

    瀏覽量

    7865

原文標(biāo)題:后ChatGPT時(shí)代NLP的下一個(gè)方向:增強(qiáng)式大規(guī)模語(yǔ)言模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ChatGPT爆火背后,NLP呈爆發(fā)式增長(zhǎng)!

    種自然語(yǔ)言處理技術(shù),用于計(jì)算機(jī)中模擬人類(lèi)的對(duì)話(huà)和文本理解。主要源于AI大模型化的NLP技術(shù)突破是將深度學(xué)習(xí)技術(shù)與傳統(tǒng)的NLP方法結(jié)合在起,
    的頭像 發(fā)表于 02-13 09:47 ?3140次閱讀

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型:從理論到實(shí)踐

    ,在大模型實(shí)踐和理論研究的過(guò)程中,歷時(shí)8個(gè)月完成 《大規(guī)模語(yǔ)言模型:從理論到實(shí)踐》 書(shū)的撰寫(xiě)。
    發(fā)表于 03-11 15:16

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    處理各種自然語(yǔ)言任務(wù)時(shí)都表現(xiàn)出了驚人的能力。這促使個(gè)新的研究方向誕生——基于Transformer 的預(yù)訓(xùn)練語(yǔ)言
    發(fā)表于 05-05 12:17

    大規(guī)模語(yǔ)言模型:從理論到實(shí)踐】- 每日進(jìn)步點(diǎn)點(diǎn)

    非常推薦大家去讀 【大規(guī)模語(yǔ)言模型:從理論到實(shí)踐】這本書(shū),系統(tǒng)的講解了大模型的前世今生,對(duì)各個(gè)環(huán)節(jié)知識(shí)進(jìn)行了普及。 今天跟我起學(xué)習(xí)歸
    發(fā)表于 05-31 19:54

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.34】大語(yǔ)言模型應(yīng)用指南:以ChatGPT為起點(diǎn),從入門(mén)到精通的AI實(shí)踐教程

    主要包括以下 5 個(gè)方向。 數(shù)據(jù)是最重要的競(jìng)爭(zhēng)優(yōu)勢(shì),它扮演著護(hù)城河的角色,可以實(shí)現(xiàn)循環(huán)增值。閉源大語(yǔ)言模型的制造商會(huì)經(jīng)常探索新的產(chǎn)品形態(tài),以不斷積累新的數(shù)據(jù)。例如,OpenAI 推出了
    發(fā)表于 06-03 11:39

    科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?

    大算力、高成本,用大規(guī)模的數(shù)據(jù)“喂”出來(lái)的AI模型。 03 看清方向,謹(jǐn)慎入局 ChatGPT總共可以分為三個(gè)訓(xùn)練階段:人工“投喂”數(shù)據(jù)進(jìn)行
    發(fā)表于 03-03 14:28

    人類(lèi)科技的下一個(gè)時(shí)代將是VR/AR的時(shí)代

    最近的30年,第次計(jì)算科技的浪潮給我們帶來(lái)了個(gè)人計(jì)算機(jī)、互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng),而下一個(gè)30年,將是個(gè)人頭顯(眼鏡)、虛擬混合世界和移動(dòng)虛擬混合世界的時(shí)代,也就是我們說(shuō)VR/AR科技。
    發(fā)表于 08-30 10:05 ?1543次閱讀

    C 語(yǔ)言下一個(gè) ISO標(biāo)準(zhǔn)將會(huì)是 C2x ?

    C 語(yǔ)言下一個(gè) ISO 標(biāo)準(zhǔn)將會(huì)是 C2x ?
    的頭像 發(fā)表于 02-27 16:40 ?2670次閱讀

    下一個(gè)更智能的物聯(lián)網(wǎng)時(shí)代:RFID的機(jī)會(huì)與挑戰(zhàn)

    下一個(gè)更智能的物聯(lián)網(wǎng)時(shí)代,RFID的價(jià)值如何最大化?
    的頭像 發(fā)表于 05-08 17:48 ?2506次閱讀

    如何向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型中融入知識(shí)?

    本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如RoBERTa、BERT等)中融入知識(shí)。
    的頭像 發(fā)表于 06-23 15:07 ?4276次閱讀
    如何向<b class='flag-5'>大規(guī)模</b>預(yù)訓(xùn)練<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>中融入知識(shí)?

    NVIDIA NeMo最新語(yǔ)言模型服務(wù)幫助開(kāi)發(fā)者定制大規(guī)模語(yǔ)言模型

    NVIDIA NeMo 大型語(yǔ)言模型(LLM)服務(wù)幫助開(kāi)發(fā)者定制大規(guī)模語(yǔ)言模型;NVIDIA BioNeMo 服務(wù)幫助研究人員生成和預(yù)測(cè)分子
    發(fā)表于 09-22 10:42 ?934次閱讀

    檢索增強(qiáng)語(yǔ)言模型方法的詳細(xì)剖析

    啟發(fā)。 1 簡(jiǎn)介:Retrieval-based LMs = Retrieval + LMs 首先對(duì)于個(gè)常規(guī)的(自回歸)語(yǔ)言模型,其任務(wù)目標(biāo)為通過(guò)計(jì)算 并加以采樣來(lái)預(yù)測(cè)句子中的
    的頭像 發(fā)表于 08-21 09:58 ?1698次閱讀
    檢索<b class='flag-5'>增強(qiáng)</b>的<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>方法的詳細(xì)剖析

    大規(guī)模語(yǔ)言模型的基本概念、發(fā)展歷程和構(gòu)建流程

    大規(guī)模語(yǔ)言模型(Large Language Models,LLM),也稱(chēng)大規(guī)模語(yǔ)言模型或大型
    的頭像 發(fā)表于 12-07 11:40 ?4413次閱讀
    <b class='flag-5'>大規(guī)模</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的基本概念、發(fā)展歷程和構(gòu)建流程

    nlp自然語(yǔ)言處理模型怎么做

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)是人工智能領(lǐng)域的個(gè)重要分支,它涉及到計(jì)算機(jī)對(duì)人類(lèi)語(yǔ)言的理
    的頭像 發(fā)表于 07-05 09:59 ?677次閱讀

    llm模型chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語(yǔ)言模型,它們是類(lèi)使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語(yǔ)言處理(NLP
    的頭像 發(fā)表于 07-09 09:55 ?1206次閱讀