91精品免费久久久,国内精品久久久久久麻豆

總說(shuō)一下

大型語(yǔ)言模型已經(jīng)看到數(shù)萬(wàn)億個(gè)tokens。然而，誰(shuí)知道里面是什么？最近的工作已經(jīng)在許多不同的任務(wù)中評(píng)估了這些模型，但是，他們是否確保模型沒(méi)有看到訓(xùn)練甚至評(píng)估數(shù)據(jù)集？在這篇博文中，我們展示了一些流行的已經(jīng)被 ChatGPT 記住的基準(zhǔn)數(shù)據(jù)集，并且可以提示 ChatGPT 重新生成它們。

ChatGPT 公開(kāi)發(fā)布已經(jīng)六個(gè)月了。目前，出乎意料的出色表現(xiàn)使它的知名度超出了研究界，通過(guò)媒體傳播到了普通大眾。這是語(yǔ)言模型 (LM) 的轉(zhuǎn)折點(diǎn)，以前用作驅(qū)動(dòng)不同產(chǎn)品的引擎，現(xiàn)在變成了自己的產(chǎn)品。

自然語(yǔ)言處理（NLP）領(lǐng)域的研究方向也相應(yīng)發(fā)生了變化。作為一個(gè)跡象，在 5 月 25 日星期四，即 EMNLP23 匿名期開(kāi)始兩天后，在 arXiv 上的計(jì)算和語(yǔ)言類別下發(fā)表了 279 篇論文。在這 279 篇論文中，101 篇包含語(yǔ)言模型或 LM，25 篇是 GPT，10 篇直接提到了 ChatGPT。一年前的同一天，同一類別下發(fā)表了 81 篇論文。

不幸的是，我們對(duì) ChatGPT 和許多其他封閉式 LM 背后的細(xì)節(jié)幾乎一無(wú)所知：架構(gòu)、epoch、loss、過(guò)濾或去重步驟，尤其是用于訓(xùn)練它們的數(shù)據(jù)。鑒于 ChatGPT 的良好性能，許多研究都以它或其他封閉的 LM 為基準(zhǔn)。但與此同時(shí)，得出經(jīng)驗(yàn)結(jié)論的過(guò)程幾乎變得不可能。為了更好地理解問(wèn)題，讓我們看一個(gè)例子：

想象一下，您是從事信息提取工作的 NLP 研究人員。你想看看這個(gè)新的封閉 LM 如何以零樣本的方式識(shí)別文本中的相關(guān)實(shí)體，比如人（即不給模型任何帶標(biāo)簽的例子）。您可能會(huì)注意到 ChatGPT 可以很好地執(zhí)行任務(wù)。事實(shí)上，它的性能接近于在大量手動(dòng)標(biāo)注數(shù)據(jù)（監(jiān)督系統(tǒng)）上訓(xùn)練過(guò)的模型，并且遠(yuǎn)高于最先進(jìn)的零樣本系統(tǒng)。您能否得出結(jié)論，ChatGPT 比任何其他競(jìng)爭(zhēng) LM 都要好得多？實(shí)際上，不，除非你可以 100% 確定評(píng)估數(shù)據(jù)集在 Internet 上不可用，因此在訓(xùn)練期間沒(méi)有被 ChatGPT 看到。

關(guān)鍵是 ChatGPT 和其他 LM 作為服務(wù)是產(chǎn)品。因此，他們不需要遵循科學(xué)家用于實(shí)證實(shí)驗(yàn)的嚴(yán)格評(píng)估協(xié)議。這些協(xié)議確?？梢愿鶕?jù)經(jīng)驗(yàn)確定假設(shè)，例如在相同的實(shí)驗(yàn)條件下，系統(tǒng) A 的性能優(yōu)于 B。在大型 LM 的情況下，這些模型有可能在其預(yù)訓(xùn)練或指令微調(diào)期間看到了標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)集。在不排除這種可能性的情況下，我們不能斷定它們優(yōu)于其他系統(tǒng)。

污染和記憶

有足夠的證據(jù)表明 LLM 存在評(píng)估問(wèn)題。在發(fā)布 GPT-4 后的第一天，Horace He（推特上的@cHHillee）展示了該模型如何解決最簡(jiǎn)單的代碼競(jìng)賽問(wèn)題，直到 2021 年，即訓(xùn)練截止日期。相反，對(duì)于該日期之后的任何問(wèn)題，都沒(méi)有得到正確解決。正如 Horace He 指出的那樣，“這強(qiáng)烈表明存在污染”。

簡(jiǎn)而言之，當(dāng)模型在驗(yàn)證或測(cè)試示例上進(jìn)行訓(xùn)練（或在訓(xùn)練示例上進(jìn)行評(píng)估）時(shí)，我們說(shuō)模型被污染了。一個(gè)相關(guān)的概念是記憶。當(dāng)模型能夠在一定程度上生成數(shù)據(jù)集實(shí)例時(shí)，我們說(shuō)模型已經(jīng)記住了數(shù)據(jù)集。雖然記憶可能存在問(wèn)題，尤其是對(duì)于個(gè)人、私人或許可數(shù)據(jù)，但不查看訓(xùn)練數(shù)據(jù)更容易識(shí)別，即隱藏訓(xùn)練信息時(shí)。相比之下，污染使得無(wú)法得出可靠的結(jié)論，并且除非您可以訪問(wèn)數(shù)據(jù)，否則沒(méi)有簡(jiǎn)單的方法來(lái)識(shí)別問(wèn)題。那么，我們可以做些什么來(lái)確保 ChatGPT 不會(huì)在我們的測(cè)試中作弊嗎？我們不能，因?yàn)檫@需要訪問(wèn) ChatGPT 在訓(xùn)練期間使用的全套文檔。但是我們可以從中得到一些線索，如下。

檢測(cè) LM 是否已經(jīng)看到任何特定數(shù)據(jù)集的一種簡(jiǎn)單方法是要求生成數(shù)據(jù)集本身。我們將利用 LM 的記憶功能來(lái)檢測(cè)污染情況。例如，對(duì)于一個(gè)非常流行的命名實(shí)體識(shí)別 (NER) 數(shù)據(jù)集 CoNLL-03，我們要求 ChatGPT 生成數(shù)據(jù)集訓(xùn)練拆分的第一個(gè)實(shí)例，如下所示：

[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.

如下圖 1 所示，該模型完美地生成了文本和標(biāo)簽，即 EU 是一個(gè)組織，德國(guó)人和英國(guó)人是雜項(xiàng)，Peter Blackburn 是一個(gè)人，而 BRUSSELS 是一個(gè)位置。事實(shí)上，該模型能夠生成驗(yàn)證甚至測(cè)試拆分，包括標(biāo)注錯(cuò)誤，例如中國(guó)被標(biāo)記為一個(gè)人。在谷歌上快速搜索顯示，至少有 3 篇論文（其中一篇實(shí)際上被頂級(jí)科學(xué)會(huì)議 ACL 2023 接受）確實(shí)將 ChatGPT 或 Codex（另一個(gè)封閉的 LM）評(píng)估為零樣本或少樣本 NER 系統(tǒng) [1,2,3]。順便說(shuō)一句，ChatGPT 在 CoNLL03 上的性能從第一篇論文（2 月 20 日）到第二篇論文（5 月 23 日）提高了近 9 個(gè) F1 點(diǎn)，原因不明，但這是本文之外的另一個(gè)故事。

圖 1：ChatGPT 生成 CoNLL03 數(shù)據(jù)集的示例。生成的示例正是第一個(gè)訓(xùn)練示例。

這如何擴(kuò)展到其他 NLP 數(shù)據(jù)集？為了研究這種現(xiàn)象，我們將用于 CoNLL03 的相同協(xié)議應(yīng)用于各種 NLP 數(shù)據(jù)集。我們使用以下提示進(jìn)行此實(shí)驗(yàn)：

“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”

通過(guò)將此提示應(yīng)用于各種 NLP 任務(wù)，我們發(fā)現(xiàn) ChatGPT 能夠?yàn)槠渌餍械臄?shù)據(jù)集（如 SQuAD 2.0 和 MNLI）生成準(zhǔn)確的示例。在其他一些情況下，ChatGPT 生成了不存在的示例（幻覺(jué)內(nèi)容），但它在數(shù)據(jù)集中生成了原始屬性，如格式或標(biāo)識(shí)符。即使恢復(fù)屬性而非確切示例的能力顯示出較低程度的記憶，它確實(shí)表明模型在訓(xùn)練期間看到了數(shù)據(jù)集。參見(jiàn)圖 2。

圖 2：ChatGPT 生成 ACE05 數(shù)據(jù)集的示例。雖然格式有效并生成合理的 doc_id，但數(shù)據(jù)集中不存在該示例。

在下表中，我們總結(jié)了作者熟悉的一些流行數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。如果模型能夠生成數(shù)據(jù)集（文本和標(biāo)簽）的示例，我們就說(shuō)它被污染了。如果模型能夠生成特征屬性，例如數(shù)據(jù)格式、ID 或其他表征數(shù)據(jù)集的相關(guān)信息，則該模型是可疑的。如果模型無(wú)法生成反映在原始數(shù)據(jù)集上的任何內(nèi)容，我們認(rèn)為該模型是干凈的。如果數(shù)據(jù)集的特定拆分不公開(kāi)可用，我們使用標(biāo)簽 n/a。

該表中的結(jié)果表明，我們分析的許多學(xué)術(shù)基準(zhǔn)被作為訓(xùn)練數(shù)據(jù)提供給 ChatGPT。雖然我們目前提供的數(shù)據(jù)集列表并不詳盡，但我們沒(méi)有理由相信其他公開(kāi)可用的數(shù)據(jù)集被故意排除在 ChatGPT 的訓(xùn)練語(yǔ)料庫(kù)之外。您可以在 LM 污染指數(shù)[6]上找到完整的實(shí)驗(yàn)表。

我們?cè)诒静┛椭姓故镜乃袑?shí)驗(yàn)都是在 ChatGPT 之上進(jìn)行的，ChatGPT 是一個(gè)黑盒 LLM，其架構(gòu)或訓(xùn)練數(shù)據(jù)信息尚未發(fā)布。值得注意的是，雖然我們專注于黑盒 LLM，但我們并未考慮使用公開(kāi)可用的 LLM 時(shí)要解決的數(shù)據(jù)集污染問(wèn)題。我們鼓勵(lì)研究人員發(fā)布用作訓(xùn)練數(shù)據(jù)的文件，妥善記錄并完全可訪問(wèn)，以便外部審計(jì)能夠確保它們沒(méi)有被污染。在這方面，BigScience 研討會(huì)下發(fā)布的 ROOTS 搜索工具 [4] 等工具是一個(gè)很好的例子，說(shuō)明如何公開(kāi)訓(xùn)練數(shù)據(jù)，并允許研究人員對(duì)用于訓(xùn)練 Bloom LLM 的 ROOTS 語(yǔ)料庫(kù)進(jìn)行查詢模型[5]。

呼吁采取行動(dòng)

在評(píng)估 LLM 的性能時(shí)，LLM 的污染是一個(gè)重要問(wèn)題。作為一個(gè)社區(qū)，解決這個(gè)問(wèn)題并制定有效的解決方案對(duì)我們來(lái)說(shuō)至關(guān)重要。例如，對(duì) ROOTS 搜索工具的快速搜索使我們能夠驗(yàn)證 ROOTS 語(yǔ)料庫(kù)中只存在 CoNLL03 的第一句及其注釋。在這篇博客中，我們展示了關(guān)于 ChatGPT 對(duì)各種流行數(shù)據(jù)集（包括它們的測(cè)試集）的記憶的一些初步發(fā)現(xiàn)。訓(xùn)練和驗(yàn)證分裂的污染會(huì)損害模型對(duì)零/少樣本實(shí)驗(yàn)的適用性。更重要的是，測(cè)試集中存在污染會(huì)使每個(gè)評(píng)估都無(wú)效。我們的研究提出的一項(xiàng)建議是停止使用未在科學(xué)論文中正確記錄訓(xùn)練數(shù)據(jù)的 LLM，直到有證據(jù)表明它們沒(méi)有受到污染。同樣，程序委員會(huì)在接受包含此類實(shí)驗(yàn)的論文時(shí)應(yīng)謹(jǐn)慎行事。

我們正在積極努力擴(kuò)大所分析的數(shù)據(jù)集和模型的范圍。通過(guò)包含更廣泛的數(shù)據(jù)集和模型，我們希望定義關(guān)于哪些數(shù)據(jù)集/模型組合對(duì)評(píng)估無(wú)效的指南。除了擴(kuò)展我們的分析之外，我們還對(duì)設(shè)計(jì)用于測(cè)量學(xué)術(shù)數(shù)據(jù)集污染的自動(dòng)方法感興趣。

數(shù)據(jù)集和模型的數(shù)量令人生畏。因此，我們正在設(shè)想社區(qū)的努力。如果您對(duì) NLP 研究充滿熱情并希望在 LLM 評(píng)估中為防止污染做出貢獻(xiàn)，請(qǐng)聯(lián)系我們并查看下面的 GitHub 存儲(chǔ)庫(kù)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3244

瀏覽量
48847
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24704
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1561

瀏覽量
7683

原文標(biāo)題：和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了！國(guó)外的一項(xiàng)重要發(fā)現(xiàn)

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

OpenAI發(fā)布滿血版ChatGPT Pro

，OpenAI已經(jīng)向所有ChatGPT Plus、Team及Pro用戶開(kāi)放了對(duì)o1模型的完整訪問(wèn)權(quán)限。同時(shí)，公司還推出了ChatGPT Pro訂閱服務(wù)，月費(fèi)為200美元。訂閱用戶將能夠無(wú)限制地訪問(wèn)o1模型及其專屬版本，從而獲得更

發(fā)表于 12-06 11:10 ?349次閱讀

智慧路燈哪家強(qiáng)？看完這些案例你就心里有數(shù)了

智慧路燈哪家強(qiáng)？看完這些案例你就心里有數(shù)了

發(fā)表于 11-14 18:05 ?300次閱讀

智慧路燈哪家強(qiáng)？看完這些案例你就心里有<b class='flag-5'>數(shù)了</b>

ChatGPT：怎樣打造智能客服體驗(yàn)的重要工具？

ChatGPT作為智能對(duì)話生成模型，可以幫助打造智能客服體驗(yàn)的重要工具。以下是一些方法和步驟：1.數(shù)據(jù)收集和準(zhǔn)備：收集和整理與客服相關(guān)的數(shù)據(jù)，包括常見(jiàn)問(wèn)題、回答示例、客戶對(duì)話記錄等。這將用于訓(xùn)練

發(fā)表于 11-01 11:12 ?176次閱讀

<b class='flag-5'>ChatGPT</b>：怎樣打造智能客服體驗(yàn)的重要工具？

如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性

評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性是一個(gè)復(fù)雜的過(guò)程，因?yàn)樗婕暗蕉鄠€(gè)因素，包括但不限于數(shù)據(jù)的質(zhì)量和多樣性、模型的訓(xùn)練、上下文的理解、以及輸出內(nèi)容的邏輯一致性。以下是一些評(píng)估 ChatGPT

發(fā)表于 10-25 17:48 ?584次閱讀

怎樣搭建基于 ChatGPT 的聊天系統(tǒng)

搭建一個(gè)基于ChatGPT的聊天系統(tǒng)是一個(gè)涉及多個(gè)步驟的過(guò)程，包括理解ChatGPT的API、設(shè)計(jì)用戶界面、處理數(shù)據(jù)和集成ChatGPT模型。以下是一個(gè)簡(jiǎn)化的指南，用于創(chuàng)建一個(gè)基本的聊天系統(tǒng)。 1.

發(fā)表于 10-25 16:23 ?506次閱讀

ChatGPT 適合哪些行業(yè)

ChatGPT 是一種基于人工智能的自然語(yǔ)言處理技術(shù)，它能夠理解和生成人類語(yǔ)言。這種技術(shù)在多個(gè)行業(yè)中都有廣泛的應(yīng)用潛力。以下是一些ChatGPT特別適合的行業(yè)，以及它在這些行業(yè)中可能的應(yīng)用方式

發(fā)表于 10-25 16:11 ?449次閱讀

如何使用 ChatGPT 進(jìn)行內(nèi)容創(chuàng)作

到ChatGPT平臺(tái)。選擇模型： ChatGPT目前支持GPT3.5和GPT4兩個(gè)模型。根據(jù)創(chuàng)作需求，選擇合適的模型。一般來(lái)說(shuō)，GPT4在性能和生成質(zhì)量上可能更優(yōu)。明確創(chuàng)作目標(biāo) ：在開(kāi)始創(chuàng)作之前，明確您的創(chuàng)作目標(biāo)，如文章

發(fā)表于 10-25 16:08 ?449次閱讀

用launch pad燒錄chatgpt_demo項(xiàng)目會(huì)有api key報(bào)錯(cuò)的原因？

我用launch pad燒錄chatgpt_demo項(xiàng)目問(wèn)題會(huì)有api key報(bào)錯(cuò)；請(qǐng)問(wèn)用launch pad要如何設(shè)置api key和調(diào)試？還是只能通過(guò)idf?

發(fā)表于 06-27 07:59

使用espbox lite進(jìn)行chatgpt_demo的燒錄報(bào)錯(cuò)是什么原因？

我使用espbox lite進(jìn)行chatgpt_demo的燒錄我的idf是v5.1release版本的，espbox是master版本的在編譯時(shí)似乎沒(méi)有什么問(wèn)題在燒錄時(shí)報(bào)錯(cuò) 請(qǐng)問(wèn)這是什么原因

發(fā)表于 06-11 08:45

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來(lái)了

ChatGPT 4 將對(duì)所有人免費(fèi)，且模型相同；然而，付費(fèi)用戶的使用量將增加 5 倍，而無(wú)需等待下一次查詢它的速度是原來(lái)的兩倍，效率是原來(lái)的 5 倍可以用不同的情緒或聲音交談可以實(shí)時(shí)翻譯

發(fā)表于 05-27 15:43

OpenAI或?qū)⒃?月9日發(fā)布ChatGPT版搜索引擎

OpenAI可能即將與谷歌展開(kāi)正面競(jìng)爭(zhēng)，推出基于ChatGPT的搜索引擎。根據(jù)Reddit網(wǎng)友的最新爆料，OpenAI有望在5月9日公布其全新的搜索產(chǎn)品。據(jù)悉，與這一新產(chǎn)品相對(duì)應(yīng)的搜索網(wǎng)頁(yè)search.chatgpt.com的域

發(fā)表于 05-07 09:28 ?630次閱讀

【Longan Pi 3H 開(kāi)發(fā)板試用連載體驗(yàn)】給ChatGPT裝上眼睛，還可以語(yǔ)音對(duì)話

整合成文本并輸入ChatGPT。將ChatGPT返回的回復(fù)利用Edge-TTS進(jìn)行播放，完成與具備視覺(jué)能力的ChatGPT進(jìn)行語(yǔ)音交互。預(yù)期成果：開(kāi)源所有代碼，分享實(shí)現(xiàn)的全過(guò)程，

發(fā)表于 04-12 12:41

STM8下載這段相關(guān)選項(xiàng)字節(jié)代碼后，所有程序都不能下載了是為什么？

STM8下載這段相關(guān)選項(xiàng)字節(jié)代碼后，所有程序都不能下載了

發(fā)表于 04-07 07:37

在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

當(dāng)下AI人工智能崛起，很多開(kāi)發(fā)領(lǐng)域都可看到ChatGPT的身影，F(xiàn)PGA設(shè)計(jì)中，是否也可以用ChatGPT輔助設(shè)計(jì)呢？

發(fā)表于 03-28 23:41

【國(guó)產(chǎn)FPGA+OMAPL138開(kāi)發(fā)板體驗(yàn)】（原創(chuàng)）6.FPGA連接ChatGPT 4

OMAP-L138（定點(diǎn)/浮點(diǎn)DSP C674x+ARM9）+ FPGA處理器的開(kāi)發(fā)板。編寫(xiě)一個(gè)用于FPGA訪問(wèn)ChatGPT 4的程序代碼是一個(gè)相當(dāng)復(fù)雜的任務(wù)，涉及到硬件設(shè)計(jì)、網(wǎng)絡(luò)通信、數(shù)據(jù)處理等多個(gè)

發(fā)表于 02-14 21:58

搜索歷史

和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了！

評(píng)論

OpenAI發(fā)布滿血版ChatGPT Pro

智慧路燈哪家強(qiáng)？看完這些案例你就心里有數(shù)了

ChatGPT：怎樣打造智能客服體驗(yàn)的重要工具？

如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性

怎樣搭建基于 ChatGPT 的聊天系統(tǒng)

ChatGPT 適合哪些行業(yè)

如何使用 ChatGPT 進(jìn)行內(nèi)容創(chuàng)作

用launch pad燒錄chatgpt_demo項(xiàng)目會(huì)有api key報(bào)錯(cuò)的原因？

使用espbox lite進(jìn)行chatgpt_demo的燒錄報(bào)錯(cuò)是什么原因？

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來(lái)了

OpenAI或?qū)⒃?月9日發(fā)布ChatGPT版搜索引擎

【Longan Pi 3H 開(kāi)發(fā)板試用連載體驗(yàn)】給ChatGPT裝上眼睛，還可以語(yǔ)音對(duì)話

STM8下載這段相關(guān)選項(xiàng)字節(jié)代碼后，所有程序都不能下載了是為什么？

在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢

【國(guó)產(chǎn)FPGA+OMAPL138開(kāi)發(fā)板體驗(yàn)】（原創(chuàng)）6.FPGA連接ChatGPT 4