0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了!

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-30 14:30 ? 次閱讀

總說(shuō)一下

大型語(yǔ)言模型已經(jīng)看到數(shù)萬(wàn)億個(gè)tokens。然而,誰(shuí)知道里面是什么?最近的工作已經(jīng)在許多不同的任務(wù)中評(píng)估了這些模型,但是,他們是否確保模型沒(méi)有看到訓(xùn)練甚至評(píng)估數(shù)據(jù)集?在這篇博文中,我們展示了一些流行的已經(jīng)被 ChatGPT 記住的基準(zhǔn)數(shù)據(jù)集,并且可以提示 ChatGPT 重新生成它們。

ChatGPT 公開(kāi)發(fā)布已經(jīng)六個(gè)月了。目前,出乎意料的出色表現(xiàn)使它的知名度超出了研究界,通過(guò)媒體傳播到了普通大眾。這是語(yǔ)言模型 (LM) 的轉(zhuǎn)折點(diǎn),以前用作驅(qū)動(dòng)不同產(chǎn)品的引擎,現(xiàn)在變成了自己的產(chǎn)品。

自然語(yǔ)言處理(NLP)領(lǐng)域的研究方向也相應(yīng)發(fā)生了變化。作為一個(gè)跡象,在 5 月 25 日星期四,即 EMNLP23 匿名期開(kāi)始兩天后,在 arXiv 上的計(jì)算和語(yǔ)言類別下發(fā)表了 279 篇論文。在這 279 篇論文中,101 篇包含語(yǔ)言模型或 LM,25 篇是 GPT,10 篇直接提到了 ChatGPT。一年前的同一天,同一類別下發(fā)表了 81 篇論文。

不幸的是,我們對(duì) ChatGPT 和許多其他封閉式 LM 背后的細(xì)節(jié)幾乎一無(wú)所知:架構(gòu)、epoch、loss、過(guò)濾或去重步驟,尤其是用于訓(xùn)練它們的數(shù)據(jù)。鑒于 ChatGPT 的良好性能,許多研究都以它或其他封閉的 LM 為基準(zhǔn)。但與此同時(shí),得出經(jīng)驗(yàn)結(jié)論的過(guò)程幾乎變得不可能。為了更好地理解問(wèn)題,讓我們看一個(gè)例子:

想象一下,您是從事信息提取工作的 NLP 研究人員。你想看看這個(gè)新的封閉 LM 如何以零樣本的方式識(shí)別文本中的相關(guān)實(shí)體,比如人(即不給模型任何帶標(biāo)簽的例子)。您可能會(huì)注意到 ChatGPT 可以很好地執(zhí)行任務(wù)。事實(shí)上,它的性能接近于在大量手動(dòng)標(biāo)注數(shù)據(jù)(監(jiān)督系統(tǒng))上訓(xùn)練過(guò)的模型,并且遠(yuǎn)高于最先進(jìn)的零樣本系統(tǒng)。您能否得出結(jié)論,ChatGPT 比任何其他競(jìng)爭(zhēng) LM 都要好得多?實(shí)際上,不,除非你可以 100% 確定評(píng)估數(shù)據(jù)集在 Internet 上不可用,因此在訓(xùn)練期間沒(méi)有被 ChatGPT 看到。

關(guān)鍵是 ChatGPT 和其他 LM 作為服務(wù)是產(chǎn)品。因此,他們不需要遵循科學(xué)家用于實(shí)證實(shí)驗(yàn)的嚴(yán)格評(píng)估協(xié)議。這些協(xié)議確??梢愿鶕?jù)經(jīng)驗(yàn)確定假設(shè),例如在相同的實(shí)驗(yàn)條件下,系統(tǒng) A 的性能優(yōu)于 B。在大型 LM 的情況下,這些模型有可能在其預(yù)訓(xùn)練或指令微調(diào)期間看到了標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)集。在不排除這種可能性的情況下,我們不能斷定它們優(yōu)于其他系統(tǒng)。

污染和記憶

有足夠的證據(jù)表明 LLM 存在評(píng)估問(wèn)題。在發(fā)布 GPT-4 后的第一天,Horace He(推特上的@cHHillee)展示了該模型如何解決最簡(jiǎn)單的代碼競(jìng)賽問(wèn)題,直到 2021 年,即訓(xùn)練截止日期。相反,對(duì)于該日期之后的任何問(wèn)題,都沒(méi)有得到正確解決。正如 Horace He 指出的那樣,“這強(qiáng)烈表明存在污染”。

8d18874c-fea7-11ed-90ce-dac502259ad0.png

簡(jiǎn)而言之,當(dāng)模型在驗(yàn)證或測(cè)試示例上進(jìn)行訓(xùn)練(或在訓(xùn)練示例上進(jìn)行評(píng)估)時(shí),我們說(shuō)模型被污染了。一個(gè)相關(guān)的概念是記憶。當(dāng)模型能夠在一定程度上生成數(shù)據(jù)集實(shí)例時(shí),我們說(shuō)模型已經(jīng)記住了數(shù)據(jù)集。雖然記憶可能存在問(wèn)題,尤其是對(duì)于個(gè)人、私人或許可數(shù)據(jù),但不查看訓(xùn)練數(shù)據(jù)更容易識(shí)別,即隱藏訓(xùn)練信息時(shí)。相比之下,污染使得無(wú)法得出可靠的結(jié)論,并且除非您可以訪問(wèn)數(shù)據(jù),否則沒(méi)有簡(jiǎn)單的方法來(lái)識(shí)別問(wèn)題。那么,我們可以做些什么來(lái)確保 ChatGPT 不會(huì)在我們的測(cè)試中作弊嗎?我們不能,因?yàn)檫@需要訪問(wèn) ChatGPT 在訓(xùn)練期間使用的全套文檔。但是我們可以從中得到一些線索,如下。

檢測(cè) LM 是否已經(jīng)看到任何特定數(shù)據(jù)集的一種簡(jiǎn)單方法是要求生成數(shù)據(jù)集本身。我們將利用 LM 的記憶功能來(lái)檢測(cè)污染情況。例如,對(duì)于一個(gè)非常流行的命名實(shí)體識(shí)別 (NER) 數(shù)據(jù)集 CoNLL-03,我們要求 ChatGPT 生成數(shù)據(jù)集訓(xùn)練拆分的第一個(gè)實(shí)例,如下所示:

[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.

如下圖 1 所示,該模型完美地生成了文本和標(biāo)簽,即 EU 是一個(gè)組織,德國(guó)人和英國(guó)人是雜項(xiàng),Peter Blackburn 是一個(gè)人,而 BRUSSELS 是一個(gè)位置。事實(shí)上,該模型能夠生成驗(yàn)證甚至測(cè)試拆分,包括標(biāo)注錯(cuò)誤,例如中國(guó)被標(biāo)記為一個(gè)人。在谷歌上快速搜索顯示,至少有 3 篇論文(其中一篇實(shí)際上被頂級(jí)科學(xué)會(huì)議 ACL 2023 接受)確實(shí)將 ChatGPT 或 Codex(另一個(gè)封閉的 LM)評(píng)估為零樣本或少樣本 NER 系統(tǒng) [1,2,3]。順便說(shuō)一句,ChatGPT 在 CoNLL03 上的性能從第一篇論文(2 月 20 日)到第二篇論文(5 月 23 日)提高了近 9 個(gè) F1 點(diǎn),原因不明,但這是本文之外的另一個(gè)故事。

8d1f6fbc-fea7-11ed-90ce-dac502259ad0.png

圖 1:ChatGPT 生成 CoNLL03 數(shù)據(jù)集的示例。生成的示例正是第一個(gè)訓(xùn)練示例。

這如何擴(kuò)展到其他 NLP 數(shù)據(jù)集?為了研究這種現(xiàn)象,我們將用于 CoNLL03 的相同協(xié)議應(yīng)用于各種 NLP 數(shù)據(jù)集。我們使用以下提示進(jìn)行此實(shí)驗(yàn):

“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”

通過(guò)將此提示應(yīng)用于各種 NLP 任務(wù),我們發(fā)現(xiàn) ChatGPT 能夠?yàn)槠渌餍械臄?shù)據(jù)集(如 SQuAD 2.0 和 MNLI)生成準(zhǔn)確的示例。在其他一些情況下,ChatGPT 生成了不存在的示例(幻覺(jué)內(nèi)容),但它在數(shù)據(jù)集中生成了原始屬性,如格式或標(biāo)識(shí)符。即使恢復(fù)屬性而非確切示例的能力顯示出較低程度的記憶,它確實(shí)表明模型在訓(xùn)練期間看到了數(shù)據(jù)集。參見(jiàn)圖 2。

8d2fe1ee-fea7-11ed-90ce-dac502259ad0.png

圖 2:ChatGPT 生成 ACE05 數(shù)據(jù)集的示例。雖然格式有效并生成合理的 doc_id,但數(shù)據(jù)集中不存在該示例。

在下表中,我們總結(jié)了作者熟悉的一些流行數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。如果模型能夠生成數(shù)據(jù)集(文本和標(biāo)簽)的示例,我們就說(shuō)它被污染了。如果模型能夠生成特征屬性,例如數(shù)據(jù)格式、ID 或其他表征數(shù)據(jù)集的相關(guān)信息,則該模型是可疑的。如果模型無(wú)法生成反映在原始數(shù)據(jù)集上的任何內(nèi)容,我們認(rèn)為該模型是干凈的。如果數(shù)據(jù)集的特定拆分不公開(kāi)可用,我們使用標(biāo)簽 n/a。

8d396f98-fea7-11ed-90ce-dac502259ad0.png

該表中的結(jié)果表明,我們分析的許多學(xué)術(shù)基準(zhǔn)被作為訓(xùn)練數(shù)據(jù)提供給 ChatGPT。雖然我們目前提供的數(shù)據(jù)集列表并不詳盡,但我們沒(méi)有理由相信其他公開(kāi)可用的數(shù)據(jù)集被故意排除在 ChatGPT 的訓(xùn)練語(yǔ)料庫(kù)之外。您可以在 LM 污染指數(shù)[6]上找到完整的實(shí)驗(yàn)表。

我們?cè)诒静┛椭姓故镜乃袑?shí)驗(yàn)都是在 ChatGPT 之上進(jìn)行的,ChatGPT 是一個(gè)黑盒 LLM,其架構(gòu)或訓(xùn)練數(shù)據(jù)信息尚未發(fā)布。值得注意的是,雖然我們專注于黑盒 LLM,但我們并未考慮使用公開(kāi)可用的 LLM 時(shí)要解決的數(shù)據(jù)集污染問(wèn)題。我們鼓勵(lì)研究人員發(fā)布用作訓(xùn)練數(shù)據(jù)的文件,妥善記錄并完全可訪問(wèn),以便外部審計(jì)能夠確保它們沒(méi)有被污染。在這方面,BigScience 研討會(huì)下發(fā)布的 ROOTS 搜索工具 [4] 等工具是一個(gè)很好的例子,說(shuō)明如何公開(kāi)訓(xùn)練數(shù)據(jù),并允許研究人員對(duì)用于訓(xùn)練 Bloom LLM 的 ROOTS 語(yǔ)料庫(kù)進(jìn)行查詢模型[5]。

呼吁采取行動(dòng)

在評(píng)估 LLM 的性能時(shí),LLM 的污染是一個(gè)重要問(wèn)題。作為一個(gè)社區(qū),解決這個(gè)問(wèn)題并制定有效的解決方案對(duì)我們來(lái)說(shuō)至關(guān)重要。例如,對(duì) ROOTS 搜索工具的快速搜索使我們能夠驗(yàn)證 ROOTS 語(yǔ)料庫(kù)中只存在 CoNLL03 的第一句及其注釋。在這篇博客中,我們展示了關(guān)于 ChatGPT 對(duì)各種流行數(shù)據(jù)集(包括它們的測(cè)試集)的記憶的一些初步發(fā)現(xiàn)。訓(xùn)練和驗(yàn)證分裂的污染會(huì)損害模型對(duì)零/少樣本實(shí)驗(yàn)的適用性。更重要的是,測(cè)試集中存在污染會(huì)使每個(gè)評(píng)估都無(wú)效。我們的研究提出的一項(xiàng)建議是停止使用未在科學(xué)論文中正確記錄訓(xùn)練數(shù)據(jù)的 LLM,直到有證據(jù)表明它們沒(méi)有受到污染。同樣,程序委員會(huì)在接受包含此類實(shí)驗(yàn)的論文時(shí)應(yīng)謹(jǐn)慎行事。

我們正在積極努力擴(kuò)大所分析的數(shù)據(jù)集和模型的范圍。通過(guò)包含更廣泛的數(shù)據(jù)集和模型,我們希望定義關(guān)于哪些數(shù)據(jù)集/模型組合對(duì)評(píng)估無(wú)效的指南。除了擴(kuò)展我們的分析之外,我們還對(duì)設(shè)計(jì)用于測(cè)量學(xué)術(shù)數(shù)據(jù)集污染的自動(dòng)方法感興趣。

數(shù)據(jù)集和模型的數(shù)量令人生畏。因此,我們正在設(shè)想社區(qū)的努力。如果您對(duì) NLP 研究充滿熱情并希望在 LLM 評(píng)估中為防止污染做出貢獻(xiàn),請(qǐng)聯(lián)系我們并查看下面的 GitHub 存儲(chǔ)庫(kù)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3244

    瀏覽量

    48847
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24704
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1561

    瀏覽量

    7683

原文標(biāo)題:和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了!國(guó)外的一項(xiàng)重要發(fā)現(xiàn)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI發(fā)布滿血版ChatGPT Pro

    ,OpenAI已經(jīng)向所有ChatGPT Plus、Team及Pro用戶開(kāi)放了對(duì)o1模型的完整訪問(wèn)權(quán)限。同時(shí),公司還推出了ChatGPT Pro訂閱服務(wù),月費(fèi)為200美元。訂閱用戶將能夠無(wú)限制地訪問(wèn)o1模型及其專屬版本,從而獲得更
    的頭像 發(fā)表于 12-06 11:10 ?349次閱讀

    智慧路燈哪家強(qiáng)?看完這些案例你就心里有數(shù)了

    智慧路燈哪家強(qiáng)?看完這些案例你就心里有數(shù)了
    的頭像 發(fā)表于 11-14 18:05 ?300次閱讀
    智慧路燈哪家強(qiáng)?看完這些案例你就心里有<b class='flag-5'>數(shù)了</b>

    ChatGPT:怎樣打造智能客服體驗(yàn)的重要工具?

    ChatGPT作為智能對(duì)話生成模型,可以幫助打造智能客服體驗(yàn)的重要工具。以下是一些方法和步驟:1.數(shù)據(jù)收集和準(zhǔn)備:收集和整理與客服相關(guān)的數(shù)據(jù),包括常見(jiàn)問(wèn)題、回答示例、客戶對(duì)話記錄等。這將用于訓(xùn)練
    的頭像 發(fā)表于 11-01 11:12 ?176次閱讀
    <b class='flag-5'>ChatGPT</b>:怎樣打造智能客服體驗(yàn)的重要工具?

    如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性

    評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性是一個(gè)復(fù)雜的過(guò)程,因?yàn)樗婕暗蕉鄠€(gè)因素,包括但不限于數(shù)據(jù)的質(zhì)量和多樣性、模型的訓(xùn)練、上下文的理解、以及輸出內(nèi)容的邏輯一致性。以下是一些評(píng)估 ChatGPT
    的頭像 發(fā)表于 10-25 17:48 ?584次閱讀

    怎樣搭建基于 ChatGPT 的聊天系統(tǒng)

    搭建一個(gè)基于ChatGPT的聊天系統(tǒng)是一個(gè)涉及多個(gè)步驟的過(guò)程,包括理解ChatGPT的API、設(shè)計(jì)用戶界面、處理數(shù)據(jù)和集成ChatGPT模型。以下是一個(gè)簡(jiǎn)化的指南,用于創(chuàng)建一個(gè)基本的聊天系統(tǒng)。 1.
    的頭像 發(fā)表于 10-25 16:23 ?506次閱讀

    ChatGPT 適合哪些行業(yè)

    ChatGPT 是一種基于人工智能的自然語(yǔ)言處理技術(shù),它能夠理解和生成人類語(yǔ)言。這種技術(shù)在多個(gè)行業(yè)中都有廣泛的應(yīng)用潛力。以下是一些ChatGPT特別適合的行業(yè),以及它在這些行業(yè)中可能的應(yīng)用方式
    的頭像 發(fā)表于 10-25 16:11 ?449次閱讀

    如何使用 ChatGPT 進(jìn)行內(nèi)容創(chuàng)作

    ChatGPT平臺(tái)。 選擇模型 : ChatGPT目前支持GPT3.5和GPT4兩個(gè)模型。根據(jù)創(chuàng)作需求,選擇合適的模型。一般來(lái)說(shuō),GPT4在性能和生成質(zhì)量上可能更優(yōu)。 明確創(chuàng)作目標(biāo) : 在開(kāi)始創(chuàng)作之前,明確您的創(chuàng)作目標(biāo),如文章
    的頭像 發(fā)表于 10-25 16:08 ?449次閱讀

    用launch pad燒錄chatgpt_demo項(xiàng)目會(huì)有api key報(bào)錯(cuò)的原因?

    我用launch pad燒錄chatgpt_demo項(xiàng)目問(wèn)題會(huì)有api key報(bào)錯(cuò);請(qǐng)問(wèn)用launch pad要如何設(shè)置api key和調(diào)試?還是只能通過(guò)idf?
    發(fā)表于 06-27 07:59

    使用espbox lite進(jìn)行chatgpt_demo的燒錄報(bào)錯(cuò)是什么原因?

    我使用espbox lite進(jìn)行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時(shí)似乎沒(méi)有什么問(wèn)題 在燒錄時(shí)報(bào)錯(cuò) 請(qǐng)問(wèn)這是什么原因
    發(fā)表于 06-11 08:45

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來(lái)了

    ChatGPT 4 將對(duì)所有人免費(fèi),且模型相同;然而,付費(fèi)用戶的使用量將增加 5 倍,而無(wú)需等待下一次查詢 它的速度是原來(lái)的兩倍,效率是原來(lái)的 5 倍 可以用不同的情緒或聲音交談 可以實(shí)時(shí)翻譯
    發(fā)表于 05-27 15:43

    OpenAI或?qū)⒃?月9日發(fā)布ChatGPT版搜索引擎

    OpenAI可能即將與谷歌展開(kāi)正面競(jìng)爭(zhēng),推出基于ChatGPT的搜索引擎。根據(jù)Reddit網(wǎng)友的最新爆料,OpenAI有望在5月9日公布其全新的搜索產(chǎn)品。據(jù)悉,與這一新產(chǎn)品相對(duì)應(yīng)的搜索網(wǎng)頁(yè)search.chatgpt.com的域
    的頭像 發(fā)表于 05-07 09:28 ?630次閱讀

    【Longan Pi 3H 開(kāi)發(fā)板試用連載體驗(yàn)】給ChatGPT裝上眼睛,還可以語(yǔ)音對(duì)話

    整合成文本并輸入ChatGPT。 將ChatGPT返回的回復(fù)利用Edge-TTS進(jìn)行播放,完成與具備視覺(jué)能力的ChatGPT進(jìn)行語(yǔ)音交互。 預(yù)期成果: 開(kāi)源所有代碼,分享實(shí)現(xiàn)的全過(guò)程,
    發(fā)表于 04-12 12:41

    STM8下載這段相關(guān)選項(xiàng)字節(jié)代碼后,所有程序都不能下載了是為什么?

    STM8下載這段相關(guān)選項(xiàng)字節(jié)代碼后,所有程序都不能下載了
    發(fā)表于 04-07 07:37

    在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開(kāi)發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計(jì)中,是否也可以用ChatGPT輔助設(shè)計(jì)呢?
    發(fā)表于 03-28 23:41

    【國(guó)產(chǎn)FPGA+OMAPL138開(kāi)發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4

    OMAP-L138(定點(diǎn)/浮點(diǎn)DSP C674x+ARM9)+ FPGA處理器的開(kāi)發(fā)板。 編寫(xiě)一個(gè)用于FPGA訪問(wèn)ChatGPT 4的程序代碼是一個(gè)相當(dāng)復(fù)雜的任務(wù),涉及到硬件設(shè)計(jì)、網(wǎng)絡(luò)通信、數(shù)據(jù)處理等多個(gè)
    發(fā)表于 02-14 21:58