總說(shuō)一下
大型語(yǔ)言模型已經(jīng)看到數(shù)萬(wàn)億個(gè)tokens。然而,誰(shuí)知道里面是什么?最近的工作已經(jīng)在許多不同的任務(wù)中評(píng)估了這些模型,但是,他們是否確保模型沒(méi)有看到訓(xùn)練甚至評(píng)估數(shù)據(jù)集?在這篇博文中,我們展示了一些流行的已經(jīng)被 ChatGPT 記住的基準(zhǔn)數(shù)據(jù)集,并且可以提示 ChatGPT 重新生成它們。
ChatGPT 公開(kāi)發(fā)布已經(jīng)六個(gè)月了。目前,出乎意料的出色表現(xiàn)使它的知名度超出了研究界,通過(guò)媒體傳播到了普通大眾。這是語(yǔ)言模型 (LM) 的轉(zhuǎn)折點(diǎn),以前用作驅(qū)動(dòng)不同產(chǎn)品的引擎,現(xiàn)在變成了自己的產(chǎn)品。
自然語(yǔ)言處理(NLP)領(lǐng)域的研究方向也相應(yīng)發(fā)生了變化。作為一個(gè)跡象,在 5 月 25 日星期四,即 EMNLP23 匿名期開(kāi)始兩天后,在 arXiv 上的計(jì)算和語(yǔ)言類別下發(fā)表了 279 篇論文。在這 279 篇論文中,101 篇包含語(yǔ)言模型或 LM,25 篇是 GPT,10 篇直接提到了 ChatGPT。一年前的同一天,同一類別下發(fā)表了 81 篇論文。
不幸的是,我們對(duì) ChatGPT 和許多其他封閉式 LM 背后的細(xì)節(jié)幾乎一無(wú)所知:架構(gòu)、epoch、loss、過(guò)濾或去重步驟,尤其是用于訓(xùn)練它們的數(shù)據(jù)。鑒于 ChatGPT 的良好性能,許多研究都以它或其他封閉的 LM 為基準(zhǔn)。但與此同時(shí),得出經(jīng)驗(yàn)結(jié)論的過(guò)程幾乎變得不可能。為了更好地理解問(wèn)題,讓我們看一個(gè)例子:
想象一下,您是從事信息提取工作的 NLP 研究人員。你想看看這個(gè)新的封閉 LM 如何以零樣本的方式識(shí)別文本中的相關(guān)實(shí)體,比如人(即不給模型任何帶標(biāo)簽的例子)。您可能會(huì)注意到 ChatGPT 可以很好地執(zhí)行任務(wù)。事實(shí)上,它的性能接近于在大量手動(dòng)標(biāo)注數(shù)據(jù)(監(jiān)督系統(tǒng))上訓(xùn)練過(guò)的模型,并且遠(yuǎn)高于最先進(jìn)的零樣本系統(tǒng)。您能否得出結(jié)論,ChatGPT 比任何其他競(jìng)爭(zhēng) LM 都要好得多?實(shí)際上,不,除非你可以 100% 確定評(píng)估數(shù)據(jù)集在 Internet 上不可用,因此在訓(xùn)練期間沒(méi)有被 ChatGPT 看到。
關(guān)鍵是 ChatGPT 和其他 LM 作為服務(wù)是產(chǎn)品。因此,他們不需要遵循科學(xué)家用于實(shí)證實(shí)驗(yàn)的嚴(yán)格評(píng)估協(xié)議。這些協(xié)議確??梢愿鶕?jù)經(jīng)驗(yàn)確定假設(shè),例如在相同的實(shí)驗(yàn)條件下,系統(tǒng) A 的性能優(yōu)于 B。在大型 LM 的情況下,這些模型有可能在其預(yù)訓(xùn)練或指令微調(diào)期間看到了標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)集。在不排除這種可能性的情況下,我們不能斷定它們優(yōu)于其他系統(tǒng)。
污染和記憶
有足夠的證據(jù)表明 LLM 存在評(píng)估問(wèn)題。在發(fā)布 GPT-4 后的第一天,Horace He(推特上的@cHHillee)展示了該模型如何解決最簡(jiǎn)單的代碼競(jìng)賽問(wèn)題,直到 2021 年,即訓(xùn)練截止日期。相反,對(duì)于該日期之后的任何問(wèn)題,都沒(méi)有得到正確解決。正如 Horace He 指出的那樣,“這強(qiáng)烈表明存在污染”。
簡(jiǎn)而言之,當(dāng)模型在驗(yàn)證或測(cè)試示例上進(jìn)行訓(xùn)練(或在訓(xùn)練示例上進(jìn)行評(píng)估)時(shí),我們說(shuō)模型被污染了。一個(gè)相關(guān)的概念是記憶。當(dāng)模型能夠在一定程度上生成數(shù)據(jù)集實(shí)例時(shí),我們說(shuō)模型已經(jīng)記住了數(shù)據(jù)集。雖然記憶可能存在問(wèn)題,尤其是對(duì)于個(gè)人、私人或許可數(shù)據(jù),但不查看訓(xùn)練數(shù)據(jù)更容易識(shí)別,即隱藏訓(xùn)練信息時(shí)。相比之下,污染使得無(wú)法得出可靠的結(jié)論,并且除非您可以訪問(wèn)數(shù)據(jù),否則沒(méi)有簡(jiǎn)單的方法來(lái)識(shí)別問(wèn)題。那么,我們可以做些什么來(lái)確保 ChatGPT 不會(huì)在我們的測(cè)試中作弊嗎?我們不能,因?yàn)檫@需要訪問(wèn) ChatGPT 在訓(xùn)練期間使用的全套文檔。但是我們可以從中得到一些線索,如下。
檢測(cè) LM 是否已經(jīng)看到任何特定數(shù)據(jù)集的一種簡(jiǎn)單方法是要求生成數(shù)據(jù)集本身。我們將利用 LM 的記憶功能來(lái)檢測(cè)污染情況。例如,對(duì)于一個(gè)非常流行的命名實(shí)體識(shí)別 (NER) 數(shù)據(jù)集 CoNLL-03,我們要求 ChatGPT 生成數(shù)據(jù)集訓(xùn)練拆分的第一個(gè)實(shí)例,如下所示:
[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.
如下圖 1 所示,該模型完美地生成了文本和標(biāo)簽,即 EU 是一個(gè)組織,德國(guó)人和英國(guó)人是雜項(xiàng),Peter Blackburn 是一個(gè)人,而 BRUSSELS 是一個(gè)位置。事實(shí)上,該模型能夠生成驗(yàn)證甚至測(cè)試拆分,包括標(biāo)注錯(cuò)誤,例如中國(guó)被標(biāo)記為一個(gè)人。在谷歌上快速搜索顯示,至少有 3 篇論文(其中一篇實(shí)際上被頂級(jí)科學(xué)會(huì)議 ACL 2023 接受)確實(shí)將 ChatGPT 或 Codex(另一個(gè)封閉的 LM)評(píng)估為零樣本或少樣本 NER 系統(tǒng) [1,2,3]。順便說(shuō)一句,ChatGPT 在 CoNLL03 上的性能從第一篇論文(2 月 20 日)到第二篇論文(5 月 23 日)提高了近 9 個(gè) F1 點(diǎn),原因不明,但這是本文之外的另一個(gè)故事。
圖 1:ChatGPT 生成 CoNLL03 數(shù)據(jù)集的示例。生成的示例正是第一個(gè)訓(xùn)練示例。
這如何擴(kuò)展到其他 NLP 數(shù)據(jù)集?為了研究這種現(xiàn)象,我們將用于 CoNLL03 的相同協(xié)議應(yīng)用于各種 NLP 數(shù)據(jù)集。我們使用以下提示進(jìn)行此實(shí)驗(yàn):
“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”
通過(guò)將此提示應(yīng)用于各種 NLP 任務(wù),我們發(fā)現(xiàn) ChatGPT 能夠?yàn)槠渌餍械臄?shù)據(jù)集(如 SQuAD 2.0 和 MNLI)生成準(zhǔn)確的示例。在其他一些情況下,ChatGPT 生成了不存在的示例(幻覺(jué)內(nèi)容),但它在數(shù)據(jù)集中生成了原始屬性,如格式或標(biāo)識(shí)符。即使恢復(fù)屬性而非確切示例的能力顯示出較低程度的記憶,它確實(shí)表明模型在訓(xùn)練期間看到了數(shù)據(jù)集。參見(jiàn)圖 2。
圖 2:ChatGPT 生成 ACE05 數(shù)據(jù)集的示例。雖然格式有效并生成合理的 doc_id,但數(shù)據(jù)集中不存在該示例。
在下表中,我們總結(jié)了作者熟悉的一些流行數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。如果模型能夠生成數(shù)據(jù)集(文本和標(biāo)簽)的示例,我們就說(shuō)它被污染了。如果模型能夠生成特征屬性,例如數(shù)據(jù)格式、ID 或其他表征數(shù)據(jù)集的相關(guān)信息,則該模型是可疑的。如果模型無(wú)法生成反映在原始數(shù)據(jù)集上的任何內(nèi)容,我們認(rèn)為該模型是干凈的。如果數(shù)據(jù)集的特定拆分不公開(kāi)可用,我們使用標(biāo)簽 n/a。
該表中的結(jié)果表明,我們分析的許多學(xué)術(shù)基準(zhǔn)被作為訓(xùn)練數(shù)據(jù)提供給 ChatGPT。雖然我們目前提供的數(shù)據(jù)集列表并不詳盡,但我們沒(méi)有理由相信其他公開(kāi)可用的數(shù)據(jù)集被故意排除在 ChatGPT 的訓(xùn)練語(yǔ)料庫(kù)之外。您可以在 LM 污染指數(shù)[6]上找到完整的實(shí)驗(yàn)表。
我們?cè)诒静┛椭姓故镜乃袑?shí)驗(yàn)都是在 ChatGPT 之上進(jìn)行的,ChatGPT 是一個(gè)黑盒 LLM,其架構(gòu)或訓(xùn)練數(shù)據(jù)信息尚未發(fā)布。值得注意的是,雖然我們專注于黑盒 LLM,但我們并未考慮使用公開(kāi)可用的 LLM 時(shí)要解決的數(shù)據(jù)集污染問(wèn)題。我們鼓勵(lì)研究人員發(fā)布用作訓(xùn)練數(shù)據(jù)的文件,妥善記錄并完全可訪問(wèn),以便外部審計(jì)能夠確保它們沒(méi)有被污染。在這方面,BigScience 研討會(huì)下發(fā)布的 ROOTS 搜索工具 [4] 等工具是一個(gè)很好的例子,說(shuō)明如何公開(kāi)訓(xùn)練數(shù)據(jù),并允許研究人員對(duì)用于訓(xùn)練 Bloom LLM 的 ROOTS 語(yǔ)料庫(kù)進(jìn)行查詢模型[5]。
呼吁采取行動(dòng)
在評(píng)估 LLM 的性能時(shí),LLM 的污染是一個(gè)重要問(wèn)題。作為一個(gè)社區(qū),解決這個(gè)問(wèn)題并制定有效的解決方案對(duì)我們來(lái)說(shuō)至關(guān)重要。例如,對(duì) ROOTS 搜索工具的快速搜索使我們能夠驗(yàn)證 ROOTS 語(yǔ)料庫(kù)中只存在 CoNLL03 的第一句及其注釋。在這篇博客中,我們展示了關(guān)于 ChatGPT 對(duì)各種流行數(shù)據(jù)集(包括它們的測(cè)試集)的記憶的一些初步發(fā)現(xiàn)。訓(xùn)練和驗(yàn)證分裂的污染會(huì)損害模型對(duì)零/少樣本實(shí)驗(yàn)的適用性。更重要的是,測(cè)試集中存在污染會(huì)使每個(gè)評(píng)估都無(wú)效。我們的研究提出的一項(xiàng)建議是停止使用未在科學(xué)論文中正確記錄訓(xùn)練數(shù)據(jù)的 LLM,直到有證據(jù)表明它們沒(méi)有受到污染。同樣,程序委員會(huì)在接受包含此類實(shí)驗(yàn)的論文時(shí)應(yīng)謹(jǐn)慎行事。
我們正在積極努力擴(kuò)大所分析的數(shù)據(jù)集和模型的范圍。通過(guò)包含更廣泛的數(shù)據(jù)集和模型,我們希望定義關(guān)于哪些數(shù)據(jù)集/模型組合對(duì)評(píng)估無(wú)效的指南。除了擴(kuò)展我們的分析之外,我們還對(duì)設(shè)計(jì)用于測(cè)量學(xué)術(shù)數(shù)據(jù)集污染的自動(dòng)方法感興趣。
數(shù)據(jù)集和模型的數(shù)量令人生畏。因此,我們正在設(shè)想社區(qū)的努力。如果您對(duì) NLP 研究充滿熱情并希望在 LLM 評(píng)估中為防止污染做出貢獻(xiàn),請(qǐng)聯(lián)系我們并查看下面的 GitHub 存儲(chǔ)庫(kù)。
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3244瀏覽量
48847 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24704 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1561瀏覽量
7683
原文標(biāo)題:和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了!國(guó)外的一項(xiàng)重要發(fā)現(xiàn)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論