0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT的潛力和局限

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-06-13 17:23 ? 次閱讀

今天為大家分享一篇研究,當(dāng)ChatGPT穿越到口袋妖怪世界,是否會(huì)理解并應(yīng)用這個(gè)虛構(gòu)世界的知識(shí)呢?

熟悉口袋妖怪的朋友們一定知道,這些可愛(ài)的生物們有著各種不同的屬性、類(lèi)別和技能。它們生活的世界也是一個(gè)完整的環(huán)境:你可以收集口袋妖怪、培養(yǎng)它們的實(shí)力,然后讓它們?cè)趹?zhàn)斗中一展身手。每一個(gè)系統(tǒng)都有詳細(xì)的、明確的規(guī)定。

而現(xiàn)在,我們把這個(gè)酷炫的口袋妖怪世界作為評(píng)估ChatGPT知識(shí)和推理能力的環(huán)境!我們可以檢查ChatGPT對(duì)口袋妖怪世界的了解程度,并向它輸入新的知識(shí),讓它在妖怪們的戰(zhàn)斗中進(jìn)行推理,預(yù)測(cè)戰(zhàn)斗結(jié)果。

通過(guò)在口袋妖怪世界的實(shí)驗(yàn),我們能更好地評(píng)估ChatGPT的潛力和局限,看看它是否能夠?qū)W習(xí)新知識(shí),基于特定情境的特征組合進(jìn)行推理,從而做出更準(zhǔn)確的判斷。

為了評(píng)估ChatGPT,作者引入了一個(gè)分階段的對(duì)話(huà)框架(如下圖),包括三個(gè)明確定義的階段:

72ce0a1e-0605-11ee-962d-dac502259ad0.png

階段1:Audit knowledge

首先,ChatGPT具有口袋妖怪世界的背景知識(shí)嗎?

作者通過(guò)詢(xún)問(wèn)一般性問(wèn)題,如有關(guān)口袋妖怪類(lèi)型和物種的描述,來(lái)審核ChatGPT對(duì)口袋妖怪世界的先驗(yàn)知識(shí)。這些檢索到的知識(shí)被存儲(chǔ)在local memory中,作為對(duì)話(huà)的上下文,以便在接下來(lái)的步驟中構(gòu)建合理的場(chǎng)景。同時(shí),這些知識(shí)還可以提高后續(xù)模型的回應(yīng)準(zhǔn)確性,減少虛構(gòu)情況的發(fā)生。

在階段一,作者從一些初步的一般性問(wèn)題開(kāi)始。這個(gè)階段對(duì)于隨后創(chuàng)建有效的溝通至關(guān)重要。我們區(qū)分global memory和local memory。前者是在訓(xùn)練期間獲得的,包括ChatGPT的先驗(yàn)知識(shí)。local memory僅限于我們之前的相互作用,并作為后驗(yàn)相互作用的參考點(diǎn)。ChatGPT對(duì)口袋妖怪類(lèi)型等問(wèn)題上有很強(qiáng)的抵抗能力。但在Q1.4中的對(duì)抗提問(wèn)中失敗了。

下面是一個(gè)例子:注意ChatGPT的答案用顏色標(biāo)記,如果提供準(zhǔn)確的知識(shí),則用綠色,如果提供虛假陳述(幻覺(jué)),則用紅色,如果陳述模糊或不相關(guān),則用黃色。

7303c17c-0605-11ee-962d-dac502259ad0.png

階段2:Use of knowledge in context

作者呈現(xiàn)了特定的戰(zhàn)斗場(chǎng)景,其中口袋妖怪們的類(lèi)型、等級(jí)、招式和狀態(tài)相互作用并導(dǎo)致特定的結(jié)果。ChatGPT將用于預(yù)測(cè)戰(zhàn)斗的結(jié)果,并逐步解釋其推理過(guò)程。這個(gè)階段將評(píng)估模型是否能夠基于特定情境(上下文)組合特征(組合性),從而確定戰(zhàn)斗結(jié)果。

在階段二,作者呈現(xiàn)了口袋妖怪的簡(jiǎn)單戰(zhàn)斗場(chǎng)景,并逐漸增加復(fù)雜性(不同級(jí)別、天氣和狀態(tài)條件),并要求ChatGPT預(yù)測(cè)戰(zhàn)斗的結(jié)果并解釋其推理。這一階段將幫助我們理解模型是否可以基于決定其結(jié)果的特定場(chǎng)景(上下文)組合特征(組合性)。

結(jié)果發(fā)現(xiàn),大多數(shù)回答都是準(zhǔn)確的。ChatGPT了解口袋妖怪的類(lèi)型、移動(dòng)(攻擊)和等級(jí)如何影響戰(zhàn)斗匹配。ChatGPT能夠預(yù)測(cè),也可以全面地解釋其推理。但是,不同類(lèi)型的問(wèn)題上,ChatGPT的準(zhǔn)確性差異較大。

作者總共測(cè)試了24場(chǎng)戰(zhàn)斗:6場(chǎng)涉及不同類(lèi)型(準(zhǔn)確率為83.3%),6場(chǎng)涉及不同級(jí)別(100%),7場(chǎng)涉及4種天氣條件(85.7%),6場(chǎng)涉及4種狀態(tài)效果(100%)。

作者介紹了具有正式規(guī)格(名稱(chēng)、外觀、類(lèi)型、招式)的新妖怪。然后,要求ChatGPT驗(yàn)證對(duì)這些新概念的掌握,并將其與其先前知識(shí)進(jìn)行比較。注意,ChatGPT將新引入的知識(shí)存儲(chǔ)在local memory中,但它將無(wú)法長(zhǎng)時(shí)間引用它。

下面是一個(gè)測(cè)試?yán)樱鹤⒁釩hatGPT的答案用顏色標(biāo)記,如果提供準(zhǔn)確的知識(shí),則用綠色,如果提供虛假陳述(幻覺(jué)),則用紅色,如果陳述模糊或不相關(guān),則用黃色

盡管在問(wèn)題4.1中出現(xiàn)了部分幻覺(jué),ChatGPT給出了相當(dāng)好的類(lèi)比。作者進(jìn)一步評(píng)估新知識(shí)在語(yǔ)境中的整合,測(cè)試了新的與已知的口袋妖怪的戰(zhàn)斗。結(jié)果表明,ChatGPT能夠重用先驗(yàn)和新引入的知識(shí)來(lái)預(yù)測(cè)結(jié)果,即使涉及的兩個(gè)口袋妖怪都是新引入的。在這種情況下,模型給出了可靠的預(yù)測(cè)。

通過(guò)與ChatGPT在對(duì)話(huà)框架下的互動(dòng),可以得出以下結(jié)論:首先,模型所呈現(xiàn)的事實(shí)的準(zhǔn)確性取決于之前討論的內(nèi)容;其次,對(duì)抗性攻擊可能是成功的,但并不總是成功的,但一般來(lái)說(shuō),對(duì)話(huà)預(yù)處理(知識(shí)檢索)和協(xié)作反饋可以糾正先前模型的錯(cuò)誤。
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4314

    瀏覽量

    85842
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48836
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1560

    瀏覽量

    7666

原文標(biāo)題:在口袋妖怪世界中理解ChatGPT的思維

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【國(guó)產(chǎn)FPGA+OMAPL138開(kāi)發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4

    OMAP-L138(定點(diǎn)/浮點(diǎn)DSP C674x+ARM9)+ FPGA處理器的開(kāi)發(fā)板。 編寫(xiě)一個(gè)用于FPGA訪(fǎng)問(wèn)ChatGPT 4的程序代碼是一個(gè)相當(dāng)復(fù)雜的任務(wù),涉及到硬件設(shè)計(jì)、網(wǎng)絡(luò)通信、數(shù)據(jù)處理等多個(gè)
    發(fā)表于 02-14 21:58

    在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開(kāi)發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計(jì)中,是否也可以用ChatGPT輔助設(shè)計(jì)呢?
    發(fā)表于 03-28 23:41

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來(lái)了

    無(wú)縫切換的場(chǎng)景為特色,高精度處理細(xì)微的查詢(xún)。 · 實(shí)時(shí)數(shù)據(jù)分析和報(bào)告 :在特別引起業(yè)務(wù)分析師共鳴的演示中,ChatGPT-4o處理了大型數(shù)據(jù)集,以提取可操作的見(jiàn)解,具備顯著加快決策的潛力。 新功能摘要
    發(fā)表于 05-27 15:43

    ChatGPT對(duì)話(huà)語(yǔ)音識(shí)別

    ChatGPT
    YS YYDS
    發(fā)布于 :2023年05月30日 22:13:10

    柵漏電流噪聲有哪幾種模型?這幾種模型具有什么特性和局限性?

    柵漏電流噪聲特性是什么?柵漏電流噪聲有哪幾種模型?這幾種模型具有什么特性和局限性?
    發(fā)表于 04-14 06:53

    科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?

    最近,AI(人工智能)圈一股以“ChatGPT”為核心的熱潮從美國(guó)“硅谷”涌入中國(guó)。 2022年11月底,初創(chuàng)公司OpenAI發(fā)布了名為ChatGPT的對(duì)話(huà)式聊天機(jī)器人模型,一經(jīng)推出,便在網(wǎng)絡(luò)上
    發(fā)表于 03-03 14:28

    不到1分鐘開(kāi)發(fā)一個(gè)GPT應(yīng)用!各路大神瘋狂整活,網(wǎng)友:ChatGPT就是新iPhone

    人類(lèi)。 總之,雖然ChatGPT等語(yǔ)言模型的應(yīng)用在一定程度上改變了我們的生活和學(xué)習(xí)方式,但它們并不能完全替代人類(lèi)進(jìn)行創(chuàng)造性思考和創(chuàng)造性活動(dòng)。我們不能將它們簡(jiǎn)單地視為新iPhone之類(lèi)的產(chǎn)品,而是應(yīng)該理性看待它們的應(yīng)用價(jià)值和技術(shù)局限性。
    發(fā)表于 11-19 12:06

    基于微控制器的LED驅(qū)動(dòng)器拓?fù)?、?quán)衡和局限

    本文主要探討基于微控制器的LED驅(qū)動(dòng)器。它考察了以微控制器作為系統(tǒng)核心所能采用的各種不同拓?fù)浣Y(jié)構(gòu)。它還詳細(xì)討論了各種拓?fù)涞臋?quán)衡,著重于它們的主要特性和局限:通訊、電壓
    發(fā)表于 10-26 14:17 ?910次閱讀
    基于微控制器的LED驅(qū)動(dòng)器拓?fù)?、?quán)衡<b class='flag-5'>和局限</b>

    法國(guó)研究超薄太陽(yáng)能電池的潛力和局限性,未來(lái)應(yīng)用將不受限制

    法國(guó)的一項(xiàng)新研究強(qiáng)調(diào)了超薄光伏電池的潛力,但商業(yè)化生產(chǎn)的道路將充滿(mǎn)挑戰(zhàn)。研究人員提出了一系列整合光子和電子元素的新型細(xì)胞結(jié)構(gòu)。
    的頭像 發(fā)表于 11-16 17:02 ?1739次閱讀

    ChatGPT在自然語(yǔ)言處理中的局限性和挑戰(zhàn)

    ,ChatGPT在自然語(yǔ)言處理中仍然存在著一些局限性和挑戰(zhàn)。本文將探討ChatGPT在自然語(yǔ)言處理中的局限性和挑戰(zhàn),并分析其背后的原因。
    的頭像 發(fā)表于 04-18 16:25 ?1421次閱讀

    碳化硅二極管的優(yōu)點(diǎn)和局限性分析

    碳化硅二極管的優(yōu)點(diǎn)和局限性分析 碳化硅(SiC)二極管是一種新型半導(dǎo)體材料,在高頻電源電子裝置中得到了廣泛應(yīng)用。與傳統(tǒng)的硅(Si)材料相比,碳化硅二極管具有許多優(yōu)點(diǎn)和局限性。下面是對(duì)碳化硅二極管
    的頭像 發(fā)表于 12-21 11:31 ?2610次閱讀

    超導(dǎo)材料在輸電領(lǐng)域的應(yīng)用前景、優(yōu)勢(shì)和局限

    超導(dǎo)材料適合作為輸電導(dǎo)線(xiàn)的潛力一直備受矚目。與傳統(tǒng)的金屬材料相比,超導(dǎo)材料具有低電阻和高電流載流能力的獨(dú)特優(yōu)勢(shì)。本文將深入探討超導(dǎo)材料在輸電領(lǐng)域的應(yīng)用前景、優(yōu)勢(shì)和局限性。 在高科技時(shí)代,全球?qū)﹄娔?/div>
    的頭像 發(fā)表于 01-17 11:29 ?1579次閱讀

    WDM技術(shù)的缺點(diǎn)和局限

    和效率。然而,盡管WDM技術(shù)具有諸多優(yōu)勢(shì),但它也存在一些缺點(diǎn)和局限性。以下是對(duì)WDM技術(shù)缺點(diǎn)和局限性的詳細(xì)分析:
    的頭像 發(fā)表于 08-09 11:42 ?794次閱讀

    ChatGPT 適合哪些行業(yè)

    ChatGPT 是一種基于人工智能的自然語(yǔ)言處理技術(shù),它能夠理解和生成人類(lèi)語(yǔ)言。這種技術(shù)在多個(gè)行業(yè)中都有廣泛的應(yīng)用潛力。以下是一些ChatGPT特別適合的行業(yè),以及它在這些行業(yè)中可能的應(yīng)用方式
    的頭像 發(fā)表于 10-25 16:11 ?449次閱讀