0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT是一個(gè)好的因果推理器嗎?

深度學(xué)習(xí)自然語言處理 ? 來源:賽爾實(shí)驗(yàn)室 ? 2024-01-03 09:55 ? 次閱讀

1. 背景和動(dòng)機(jī)

因果推理能力對(duì)于許多自然語言處理(NLP)應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過微調(diào)的預(yù)訓(xùn)練語言模型(PLMs),如BERT [1] 和RoBERTa [2]。它們的因果推理能力依賴于使用大量標(biāo)注數(shù)據(jù)的監(jiān)督訓(xùn)練,然而ChatGPT能夠在不依賴標(biāo)注數(shù)據(jù)的前提下在各種NLP任務(wù)中取得良好表現(xiàn)。

在本文中,我們進(jìn)行了全面的評(píng)估,以展示ChatGPT的因果推理能力,涉及四個(gè)最先進(jìn)的(SOTA)版本的ChatGPT:text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-4。首先,我們利用事件因果關(guān)系識(shí)別(ECI)任務(wù)作為因果推理基準(zhǔn)。如圖1所示,ECI任務(wù)旨在確定一個(gè)句子中的兩個(gè)事件之間是否存在因果關(guān)系。這要求ChatGPT不僅要掌握常識(shí)知識(shí),還要理解由多個(gè)實(shí)體和事件組成的復(fù)雜上下文。最后,ChatGPT必須綜合所有信息來識(shí)別因果關(guān)系。

其次,我們采用因果發(fā)現(xiàn)(CD)任務(wù)進(jìn)行評(píng)估,這要求ChatGPT具有更廣泛和更專業(yè)的知識(shí),但不需要考慮復(fù)雜的上下文。如圖1所示,我們使用了兩種CD任務(wù)格式:1)多項(xiàng)選擇,旨在從兩個(gè)選項(xiàng)中選擇輸入事件的原因或效果;2)二分類,旨在確定兩個(gè)輸入事件之間是否存在因果關(guān)系。對(duì)于二分類設(shè)置,我們將每個(gè)多項(xiàng)選擇示例轉(zhuǎn)換為兩個(gè)二分類示例,即將輸入事件與兩個(gè)選項(xiàng)中的每一個(gè)進(jìn)行配對(duì)。我們的實(shí)驗(yàn)表明,二分類是評(píng)估ChatGPT更可靠的方法。

此外,如圖1所示,我們進(jìn)行因果解釋生成(CEG)任務(wù),以測試ChatGPT是否能為事件間的因果關(guān)系生成解釋。這通常用于測試機(jī)器是否真正理解因果關(guān)系背后的原理,這對(duì)于構(gòu)建可靠的因果推理系統(tǒng)至關(guān)重要。

wKgZomWUvuyAaQxGAAIO9-PHqeI004.jpg

圖1: 三種因果推理任務(wù)的形式和我們使用的提示。需要ChatGPT回復(fù)的內(nèi)容用紅色標(biāo)記。多項(xiàng)選擇CD任務(wù)還涉及要求選擇輸入事件可能后果的樣本。對(duì)于這些樣本,我們將問題中的“cause”修改為“result”。

關(guān)鍵發(fā)現(xiàn)如下:

ChatGPT不是一個(gè)好的因果推理器,但是一個(gè)好的因果解釋器。

ChatGPT存在嚴(yán)重的因果幻覺問題,它傾向于假設(shè)事件之間存在因果關(guān)系,而不管這些關(guān)系是否真正存在。

ChatGPT因果幻覺的主要原因可能是自然語言中因果關(guān)系和非因果關(guān)系之間的報(bào)告偏差。ICL和CoT [4]等技術(shù)可以進(jìn)一步加劇ChatGPT的因果幻覺。此外隨著ChatGPT版本提升,這種因果幻覺變得更加明顯。

ChatGPT的因果推理能力對(duì)提示中用于表達(dá)因果概念的詞匯十分敏感。

隨著句子中事件數(shù)量的增加,以及事件之間的詞匯距離變大,ChatGPT的因果推理性能會(huì)降低。此外,ChatGPT在識(shí)別顯式因果關(guān)系方面比識(shí)別隱式因果關(guān)系做得更好。

開放式生成提示無法提高ChatGPT的因果推理能力。

2 數(shù)據(jù)集、評(píng)估指標(biāo)及相關(guān)設(shè)置

2.1 數(shù)據(jù)集和評(píng)估指標(biāo)

事件因果關(guān)系識(shí)別

我們?cè)谌齻€(gè)廣泛使用的事件因果識(shí)別(ECI)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):1) EventStoryLine v0.9(ESC)[5],包含22個(gè)主題、258份文檔、5,334個(gè)事件和1,770對(duì)因果事件對(duì);2) Causal-TimeBank(CTB)[6],包含184份文檔、6,813個(gè)事件和318對(duì)因果事件對(duì);3) MAVEN-ERE [7],包含90個(gè)主題、4,480份文檔、103,193個(gè)事件和57,992對(duì)因果事件對(duì)。參照以往的工作 [8, 9],對(duì)于ESC我們僅使用其前20個(gè)主題進(jìn)行評(píng)估。此外,由于MAVEN-ERE沒有發(fā)布測試集,我們?cè)谄溟_發(fā)集上評(píng)估ChatGPT。我們采用準(zhǔn)確度、精確度(P)、召回率(R)和F1-score(F1)作為評(píng)估指標(biāo)。

因果發(fā)現(xiàn)

我們?cè)趦蓚€(gè)廣泛使用的因果發(fā)現(xiàn)(CD)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):1) COPA [10],這是一個(gè)經(jīng)典的因果推理數(shù)據(jù)集,包含1,000個(gè)以日常生活場景為主的多項(xiàng)選擇題。2) e-CARE [11],包含21,324個(gè)涵蓋廣泛領(lǐng)域的多項(xiàng)選擇題。我們采用準(zhǔn)確率作為評(píng)估指標(biāo)。

因果解釋生成

我們?cè)趀-CARE上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含21,324個(gè)人工注釋的因果解釋。參照e-CARE的評(píng)估設(shè)置,我們首先采用BLEU(n=4)[12]和ROUGE-L [13]作為自動(dòng)評(píng)估指標(biāo)。其次,我們抽取每個(gè)版本的ChatGPT在e-CARE上生成的100個(gè)解釋進(jìn)行人工評(píng)估。具體來說,我們標(biāo)記生成的解釋是否能解釋相應(yīng)的因果事實(shí)以人工評(píng)估解釋的準(zhǔn)確率。

2.2 實(shí)驗(yàn)設(shè)置

對(duì)于ChatGPT,圖1展示了三個(gè)因果推理任務(wù)所采用的提示。我們?cè)?zero-shot 設(shè)置下評(píng)估ChatGPT的性能。其他提示和設(shè)置在第四節(jié)中討論。

我們使用OpenAI的官方API進(jìn)行實(shí)驗(yàn),涵蓋了四個(gè)ChatGPT最新版本:text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-4。具體來說,text-davinci-002通過RLHF(強(qiáng)化學(xué)習(xí)與人類反饋)進(jìn)一步訓(xùn)練得到text-davinci-003,后者又進(jìn)一步利用對(duì)話數(shù)據(jù)訓(xùn)練得到gpt-3.5-turbo。雖然OpenAI未公開gpt-4的具體信息,但gpt-4在各種自然語言處理任務(wù)中顯示出了更為卓越的推理能力。對(duì)于gpt-4,我們從每個(gè)數(shù)據(jù)集中抽取1000個(gè)實(shí)例進(jìn)行評(píng)估。我們將temperature參數(shù)設(shè)置為0,以盡量減少隨機(jī)性。

2.3 基線方法

在本文中,所有針對(duì)三項(xiàng)因果推理任務(wù)的基線方法都基于在完整訓(xùn)練數(shù)據(jù)集上微調(diào)的預(yù)訓(xùn)練語言模型(PLMs)。

對(duì)于 ECI 和 CD 任務(wù),我們將 ChatGPT 與基于 BERT-Base [14]和 RoBERTa-Base [15]的普通分類模型進(jìn)行了比較。它們的框架和訓(xùn)練過程與之前的工作一致 [16, 17]。

此外,我們將 ChatGPT 與兩種 SOTA ECI 方法進(jìn)行了比較:基于 BERT-Base 的 KEPT [18],融合了背景和關(guān)系信息以進(jìn)行因果推理;以及基于 RoBERTa-Base 的 DPJL [19],將有關(guān)因果線索詞和事件間關(guān)系的信息引入到 ECI 模型中。

對(duì)于 CEG 任務(wù),我們首先將 ChatGPT 與基于 GRU 的 Seq2Seq 模型 [20]和 GPT2 [21]進(jìn)行比較。它們的框架和訓(xùn)練過程與之前的工作一致 [22]。此外,我們?cè)?e-CARE 的訓(xùn)練集上微調(diào) LLaMA 7B [23]和 FLAN-T5 11B [24],作為基于 LLMs 基線。

3 實(shí)驗(yàn)

3.1 事件因果關(guān)系識(shí)別

表1顯示了在三個(gè)ECI數(shù)據(jù)集上的結(jié)果:ESC、CTB和MAVEN-ERE。

wKgaomWUvuyAW1QaAAQzuUl0FQs352.jpg

表1: ECI任務(wù)上的實(shí)驗(yàn)結(jié)果(%)。P、R和F1分別代表準(zhǔn)確率、召回率和F1分?jǐn)?shù)。Pos、Neg和Full分別表示因果對(duì)、非因果對(duì)和所有測試樣例上的準(zhǔn)確率。

我們發(fā)現(xiàn):

即使是gpt-4版本的ChatGPT,也被基于微調(diào)的小型PLMs的基線方法全面超越。這表明在像ECI這樣復(fù)雜的因果推理任務(wù)中,ChatGPT并不是一個(gè)好的因果推理器。

ChatGPT的召回率很高,但精確度低,這表明大量非因果事件對(duì)被錯(cuò)誤地識(shí)別為因果對(duì)。這也是ChatGPT在CTB數(shù)據(jù)集上表現(xiàn)尤其糟糕的原因,因?yàn)樵摂?shù)據(jù)集包含更多非因果事件對(duì)。這可能是因?yàn)樽匀徽Z言包含大量因果關(guān)系的描述,主要由諸如“l(fā)ead to”和“therefore”這樣的因果線索詞指示。然而,自然語言通常不表達(dá)哪些事件不是因果相關(guān)的。由于ChatGPT的能力來自于對(duì)大量自然語言文本的訓(xùn)練,文本中因果和非因果事件對(duì)之間的這種報(bào)告偏差使得ChatGPT擅長于識(shí)別因果事件對(duì),但不擅長識(shí)別非因果事件對(duì)。

此外,可以觀察到經(jīng)過微調(diào)的小型PLMs在識(shí)別非因果事件對(duì)方面表現(xiàn)得更好。這是因?yàn)樵贓CI訓(xùn)練集中,非因果示例比因果示例多得多,而經(jīng)過微調(diào)的模型學(xué)習(xí)到了這種數(shù)據(jù)分布。

3.2 因果關(guān)系發(fā)現(xiàn)

表2展示了在兩個(gè)因果發(fā)現(xiàn)(CD)數(shù)據(jù)集上的結(jié)果:COPA和e-CARE。

wKgZomWUvuyAKwOWAAIlWddMRaY609.jpg

表2: CD任務(wù)上的實(shí)驗(yàn)結(jié)果(%)。Pos、Neg和Full分別表示因果對(duì)、非因果對(duì)以及所有測試樣例上的準(zhǔn)確率。

我們發(fā)現(xiàn):

盡管ChatGPT在多項(xiàng)選擇設(shè)置中表現(xiàn)良好,但在二元分類中的表現(xiàn)卻顯著變差。這主要是因?yàn)樵诙囗?xiàng)選擇設(shè)置中,ChatGPT只需要考慮與輸入事件呈現(xiàn)更明顯的因果或非因果關(guān)系的選項(xiàng),而可以忽略另一個(gè)更難分析的選項(xiàng)。之前的工作 [25, 26]只用多項(xiàng)選擇題來評(píng)估ChatGPT的因果推理能力,導(dǎo)致誤認(rèn)為ChatGPT擅長因果推理。

與ECI任務(wù)相比,ChatGPT在CD任務(wù)中識(shí)別非因果對(duì)的準(zhǔn)確率更高。這主要是因?yàn)閑-CARE和COPA數(shù)據(jù)集中的非因果對(duì)是根據(jù)輸入事件手動(dòng)生成的,它們結(jié)構(gòu)簡單,與輸入事件的相關(guān)性弱,因此更容易識(shí)別。這也是為什么經(jīng)過微調(diào)的小型預(yù)訓(xùn)練語言模型(PLMs)在識(shí)別非因果事件對(duì)方面比識(shí)別因果事件對(duì)表現(xiàn)更好。

與COPA相比,ChatGPT在e-CARE數(shù)據(jù)集中識(shí)別因果對(duì)的準(zhǔn)確率略低。這是因?yàn)閑-CARE要求ChatGPT掌握更廣泛的知識(shí),這不僅涉及到更多場景中的常識(shí)知識(shí),還包括某些領(lǐng)域的專業(yè)知識(shí),如生物學(xué)。

更重要的是,我們注意到ChatGPT的升級(jí)過程(text-davinci-003→gpt-3.5turbo→gpt-4)使得ChatGPT越來越傾向于將事件分類為具有因果關(guān)系,而無論因果是否真實(shí)存在。這可能是RLHF的對(duì)齊稅 [27]所致。這表明,盡管OpenAI [28]提到ChatGPT的升級(jí)過程減少了在其他各種任務(wù)中的幻覺問題,但也使得ChatGPT更擅長于編造因果關(guān)系。

3.3 因果解釋生成

表 3 展示了在 CEG 任務(wù)上的實(shí)驗(yàn)結(jié)果。

wKgaomWUvuyAf5QJAAImFuAC1RM440.jpg

表3: 在CEG任務(wù)上的實(shí)驗(yàn)結(jié)果(%)。

可以觀察到:

根據(jù)人類評(píng)估結(jié)果,由 ChatGPT 生成的因果解釋的準(zhǔn)確性接近人類生成的解釋。這表明 ChatGPT 是一個(gè)良好的因果解釋器。

與“Human Generation”相比,ChatGPT 在 ROUGE-l 指標(biāo)上表現(xiàn)更好,這是一個(gè)類似于文本分類中“recall”的文本生成度量。這是因?yàn)?ChatGPT 傾向于生成相比人工標(biāo)注的解釋更完整、更詳細(xì)的解釋。這一點(diǎn)在我們的人工評(píng)估過程中得到了評(píng)估員的一致認(rèn)可。這也是 ChatGPT 獲得較低的 AVG-BLEU 分?jǐn)?shù)的原因,因?yàn)锳VG-BLEU是一個(gè)類似于文本分類中“precision”的文本生成度量。

通過手動(dòng)評(píng)估,我們發(fā)現(xiàn)由 LLaMA 和 FLAN-T5 生成的解釋與輸入事件高度相關(guān)。然而,這些解釋可能只是對(duì)輸入事件的重復(fù),或者提供相關(guān)但無法用于解釋的描述。這也是 LLaMA 和 FLAN-T5 在人類評(píng)估中表現(xiàn)不佳的主要原因。

此外,與 ChatGPT 相比,LLaMA 和 FLAN-T5 提供的解釋明顯更短。這是因?yàn)?e-CARE 訓(xùn)練集中標(biāo)注的解釋非常簡短。然而,ChatGPT 在提供更全面和詳細(xì)的解釋方面表現(xiàn)出色。這展示了 ChatGPT 因果解釋相比傳統(tǒng)微調(diào)方法的優(yōu)勢。

最后值得注意的是,盡管經(jīng)過微調(diào)的 LLaMA、FLAN-T5 和 ChatGPT 在 ROUGE-l 分?jǐn)?shù)上表現(xiàn)相近,但兩個(gè)微調(diào)的 LLMs 在我們的人類評(píng)估中表現(xiàn)明顯更差。這是因?yàn)?ChatGPT 生成的解釋相比測試集中標(biāo)注的解釋更加全面、詳細(xì),導(dǎo)致了偏低的ROUGE-l數(shù)值。事實(shí)上ChatGPT生成的解釋質(zhì)量相當(dāng)可靠。

4 分析

4.1 上下文學(xué)習(xí)

如表4和表5所示,我們分析了ChatGPT在不同上下文學(xué)習(xí)設(shè)置下的表現(xiàn):1)“x pos + y neg”:我們隨機(jī)選擇x個(gè)因果訓(xùn)練樣例和y個(gè)非因果訓(xùn)練樣例作為上下文學(xué)習(xí)的示例,所有測試樣例共享相同的示例;2)“top k similar”:對(duì)于每個(gè)測試樣例,我們檢索與其最相似的k個(gè)訓(xùn)練樣例作為其上下文示例。論文中還額外分析了ICL示例的順序和標(biāo)簽分布對(duì)因果推理性能的影響。

wKgZomWUvuyARIl1AACrODmxL4Y474.jpg

表4: ChatGPT在ECI任務(wù)中使用上下文學(xué)習(xí)的表現(xiàn)。其中“none”表示未使用上下文學(xué)習(xí)的ChatGPT。

wKgaomWUvuyASLsGAABTudQtit4348.jpg

表5: ChatGPT 在 binary-classification CD任務(wù)中使用上下文學(xué)習(xí)的性能?!皀one” 表示沒有使用上下文學(xué)習(xí)的 ChatGPT。

我們觀察到:

當(dāng)x和y不大于4時(shí),ICL主要提高了ChatGPT在因果對(duì)中的準(zhǔn)確率,但降低了非因果對(duì)的準(zhǔn)確率。這可能是因?yàn)殡m然ICL可以激發(fā)ChatGPT的能力,但ChatGPT更擅長識(shí)別因果事件對(duì)。因此,ICL進(jìn)一步加劇了ChatGPT識(shí)別因果和非因果對(duì)的性能的不均衡。

“4 pos + 48 neg”實(shí)現(xiàn)了更高的Full Acc。然而它是以犧牲Pos Acc為代價(jià)提高了Neg Acc。又因?yàn)镋SC數(shù)據(jù)集包含更多的非因果對(duì),造成表面看起來Full Acc有所提升。但整體性能的有效提升不應(yīng)該是以拆東墻補(bǔ)西墻的形式實(shí)現(xiàn),而應(yīng)該是同時(shí)提高Pos Acc和Neg Acc。

4.2 思維鏈提示

如表6所示,我們分析了ChatGPT在不同思維鏈設(shè)置下的表現(xiàn):1)“-w/ CoT zero-shot”:我們通過在提示后添加“Let’s think step by step” 來實(shí)現(xiàn)zero-shot CoT [29];2)“-w/ CoT x pos + y neg”:我們?yōu)閤個(gè)因果訓(xùn)練樣例和y個(gè)非因果訓(xùn)練樣例手動(dòng)注釋推理鏈。它們被選為上下文學(xué)習(xí)的示例,所有測試樣例共享相同的上下文示例。論文中還額外展示了ChatGPT的錯(cuò)誤類型、推理鏈條的樣例等。

wKgaomWUvuyAChXJAACjg6Xm6Fc847.jpg

表6: ChatGPT在ECI和binary-classification CD任務(wù)上的使用CoT的表現(xiàn)?!皀one” 表示沒有使用上下文學(xué)習(xí)的 ChatGPT。

可以發(fā)現(xiàn):

“-w/ CoT zero-shot”不能有效地提高ChatGPT在ECI任務(wù)中的表現(xiàn)。這可能是因?yàn)?zero-shot CoT生成的推理鏈質(zhì)量不足以有效地指導(dǎo)模型。

“-w/ CoT x pos + y neg”提高了ChatGPT在因果對(duì)上的準(zhǔn)確率,但降低了其在非因果對(duì)上的準(zhǔn)確率。觀察ChatGPT生成的推理鏈,我們發(fā)現(xiàn)ChatGPT為非因果對(duì)生成的鏈條質(zhì)量低于因果對(duì)。這種差異會(huì)加劇ChatGPT在識(shí)別因果和非因果事件對(duì)方面的不平衡。

4.3 表達(dá)因果關(guān)系的方式

如圖2所示,我們分析了在提示中使用不同方式表達(dá)因果概念時(shí)ChatGPT的性能變化:

1)“counterfactual”,基于 [30]的反事實(shí)因果觀點(diǎn)的提示;

2)“one-step”,我們添加了“one-step”這樣的限制性詞語來減輕將非因果事件對(duì)識(shí)別為因果的傾向;

3)“trigger()”,我們使用不同的因果提示詞(例如,“l(fā)ead to”)來構(gòu)建提示。

wKgZomWUvuyARHn7AAFiJzjNQQU920.jpg

圖2: 以各種方式表達(dá)因果概念的提示。需要ChatGPT回復(fù)的內(nèi)容用紅色標(biāo)記。

實(shí)驗(yàn)結(jié)果顯示在表7中。

wKgaomWUvuyAMwdIAAD9ENPuhCk476.jpg

表7: 以不同方式表達(dá)因果概念的提示在ECI任務(wù)上的性能。

我們發(fā)現(xiàn):

“counterfactual” 提示使得幾乎所有非因果對(duì)被識(shí)別為因果。人工檢查發(fā)現(xiàn)這主要是因?yàn)镃hatGPT的反事實(shí)推理結(jié)果不夠準(zhǔn)確。

“one-step”提高了ChatGPT在非因果對(duì)上的準(zhǔn)確性,但降低了其在因果對(duì)上的準(zhǔn)確性。這是意味著盡管像“one-step”這樣的限制性詞語可以使模型更傾向于預(yù)測事件對(duì)為非因果,但它并沒有真正增強(qiáng)ChatGPT的因果推理能力。

“trigger()” 在不同因果提示詞下的表現(xiàn)有顯著差異。這可能是因?yàn)樵陬A(yù)訓(xùn)練期間,ChatGPT主要通過因果提示詞學(xué)習(xí)因果知識(shí),但每個(gè)提示詞觸發(fā)的因果關(guān)系分布都有所不同。因此,對(duì)于人類來說意義相同的因果提示詞對(duì)ChatGPT來說代表不同的因果概念。這進(jìn)一步表明,通過提示準(zhǔn)確地向ChatGPT傳達(dá)因果含義是一個(gè)具有挑戰(zhàn)性的任務(wù)。

4.4 事件之間的詞匯距離

如圖3所示,我們分析了ChatGPT處理不同詞匯距離事件對(duì)的表現(xiàn)?!霸~匯距離”指的是一個(gè)句子中兩個(gè)事件之間間隔的單詞數(shù)。

wKgaomWUvuyAB-l5AAKcYMbODx4910.jpg

圖3: ChatGPT在ESC數(shù)據(jù)集中處理具有不同詞匯距離的事件對(duì)的表現(xiàn)。

我們發(fā)現(xiàn):

隨著間距的增加,ChatGPT更傾向于將事件對(duì)預(yù)測為非因果。這可能是因?yàn)樵谧匀徽Z言中,事件之間的距離越大,存在因果關(guān)系的可能性越小,而ChatGPT學(xué)到了這種模式。

隨著事件間距的增加,ChatGPT的F1得分降低。這表明ChatGPT不擅長識(shí)別長距離的因果關(guān)系。一個(gè)異常值是在[25,30)區(qū)間內(nèi)gpt-4的F1得分。這是因?yàn)樵趃pt-4的1000個(gè)測試樣例中,只有35個(gè)例子在[25,30)區(qū)間內(nèi),導(dǎo)致表現(xiàn)更加隨機(jī)。然而,所有其他結(jié)果都表明,隨著事件距離的增加,ChatGPT的表現(xiàn)會(huì)下降。

4.5 事件密度

如圖4所示,我們分析了ChatGPT在ECI任務(wù)中處理具有不同數(shù)量事件的句子的表現(xiàn)。

wKgZomWUvuyACGgNAAJPdSIy8HU997.jpg

圖4: ChatGPT在ESC數(shù)據(jù)集中處理具有不同事件數(shù)量的句子的表現(xiàn)。

我們發(fā)現(xiàn):

隨著事件密度的增加,大多數(shù)版本的ChatGPT更傾向于預(yù)測事件對(duì)為非因果關(guān)系。這主要是因?yàn)殡S著事件密度的增加,事件的上下文變得更加復(fù)雜,使得捕捉事件之間的關(guān)聯(lián)變得更加困難。

隨著事件密度的增加,ChatGPT的F1分?jǐn)?shù)下降。這表明ChatGPT不擅長處理涉及多個(gè)事件的復(fù)雜情況。

4.6 因果關(guān)系類型

如圖5所示,我們分析了ChatGPT在ECI任務(wù)中處理具有不同類型因果關(guān)系的事件對(duì)的準(zhǔn)確性:1)顯式因果,指的是句子中由因果提示詞(例如,“l(fā)ead to”)明確觸發(fā)的因果關(guān)系;2)隱式因果,指的是未使用因果提示詞表達(dá)的因果關(guān)系。

wKgaomWUvuyAaHO4AAETh7Vwq-o294.jpg

圖5: 在ESC數(shù)據(jù)集中,ChatGPT在不同類型因果關(guān)系的事件對(duì)上的表現(xiàn)。

可以觀察到:

與隱性因果性相比,ChatGPT在捕捉顯性因果性方面表現(xiàn)更好。這主要是因?yàn)樽R(shí)別顯性因果性只需識(shí)別因果提示詞,而識(shí)別隱性因果性則需要利用上下文信息和常識(shí)知識(shí)進(jìn)行推理。

4.7 開放式提示

最近,阿羅拉等人 [31]發(fā)現(xiàn),開放式提示(例如“誰去了公園?”)對(duì)于ChatGPT來說,往往比限制性的提示(例如“約翰去了公園。對(duì)還是錯(cuò)?”)產(chǎn)生更好的結(jié)果。如表8所示,我們分析了ChatGPT使用開放式提示的因果推理性能:

1)“open-ended A.1/2/3”,要求ChatGPT生成輸入句子中的所有因果事件對(duì)。我們?cè)O(shè)計(jì)了三種不同的提示,以全面評(píng)估ChatGPT的表現(xiàn)。

2)“open-ended B”,給出輸入句子中的目標(biāo)事件,并要求ChatGPT生成輸入句子中與目標(biāo)事件具有因果關(guān)系的事件。

這些提示的格式在圖6中展示。

wKgZomWUvuyAB0y0AARTnWe7toE443.jpg

圖6: 開放式提示。標(biāo)記為紅色的內(nèi)容需要ChatGPT回復(fù)。

我們對(duì)開放式提示采用了邊界寬松的P、R和F1計(jì)算方法。具體來說,當(dāng)預(yù)測的結(jié)果事件與標(biāo)注的結(jié)果事件共享至少一個(gè)單詞,同時(shí)預(yù)測的原因事件與標(biāo)注的原因事件也共享至少一個(gè)單詞,則認(rèn)為預(yù)測的因果事件對(duì)是正確的。

wKgaomWUvuyACKEvAAB_eLcw2kY013.jpg

表8: ChatGPT 使用開放式提示在 ECI 任務(wù)上的表現(xiàn)?!癱lose-ended”表示圖 1 中顯示的原始 ECI 提示。值得注意的是,“close-ended”提示并不明確要求 ChatGPT 輸出“yes”或“no”,但其句法形式引導(dǎo) ChatGPT 幾乎總是輸出“yes”或“no”。

可以觀察到:

開放式提示降低了ChatGPT的性能。這是因?yàn)殚_放式提示要求ChatGPT同時(shí)執(zhí)行事件提取和ECI任務(wù)。然而,之前的研究 [32, 33]表明,ChatGPT不擅長提取事件。

5 結(jié)論

在本文中,我們對(duì)ChatGPT的因果推理能力進(jìn)行了全面評(píng)估。實(shí)驗(yàn)表明:

ChatGPT不是一個(gè)好的因果推理器,但擅長因果解釋生成;

ChatGPT存在嚴(yán)重的因果幻覺,這可能是由于因果的報(bào)告偏見;

隨著ChatGPT版本的提升,以及ICL和CoT技術(shù)的應(yīng)用,這種因果幻覺進(jìn)一步加??;

ChatGPT對(duì)于提示中表達(dá)因果概念的方式敏感,且開放式提示不適合ChatGPT;

對(duì)于句子中的事件,ChatGPT擅長捕捉明確的因果關(guān)系,在事件密度較低和事件距離較小的句子中表現(xiàn)更好。

開放式生成提示無法提高ChatGPT的因果推理能力。

盡管可能存在更細(xì)致的提示,可以進(jìn)一步超越我們報(bào)告的結(jié)果,但我們認(rèn)為,僅依靠提示無法從根本上解決 ChatGPT 在因果推理中面臨的問題。我們希望這項(xiàng)研究能激發(fā)未來的工作,例如解決ChatGPT的因果幻覺問題或在多因素和多模態(tài)因果推理的場景中進(jìn)一步評(píng)估ChatGPT。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1561

    瀏覽量

    7673

原文標(biāo)題:ChatGPT 是一個(gè)好的因果推理器嗎? 一份綜合評(píng)估

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4

    OMAP-L138(定點(diǎn)/浮點(diǎn)DSP C674x+ARM9)+ FPGA處理的開發(fā)板。 編寫個(gè)用于FPGA訪問ChatGPT 4的程序代碼是
    發(fā)表于 02-14 21:58

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    推出了ChatGPT,嘗試在這里與它交談”,還包括個(gè)鏈接,任何人都可以點(diǎn)擊鏈接,免費(fèi)與ChatGPT交談。 與Siri、小愛同學(xué)等語音助手類似,
    發(fā)表于 03-03 14:28

    不到1分鐘開發(fā)個(gè)GPT應(yīng)用!各路大神瘋狂整活,網(wǎng)友:ChatGPT就是新iPhone

    這個(gè)說法并不準(zhǔn)確。盡管ChatGPT等語言模型已經(jīng)在定程度上改變了我們獲取信息、學(xué)習(xí)知識(shí)的方式,但它們并不能替代人類進(jìn)行創(chuàng)造性思考和創(chuàng)造性活動(dòng)。 雖然些人可能會(huì)利用ChatGPT
    發(fā)表于 11-19 12:06

    基于加性噪聲的缺失數(shù)據(jù)因果推斷

    推斷數(shù)據(jù)間存在的因果關(guān)系是很多科學(xué)領(lǐng)域中的個(gè)基礎(chǔ)問題,然而現(xiàn)在暫時(shí)還沒有快速有效的方法對(duì)缺失數(shù)據(jù)進(jìn)行因果推斷。為此,提出種基于加性噪聲模
    發(fā)表于 01-14 16:06 ?0次下載

    醫(yī)學(xué)AI的行業(yè)研究人員演示了種“因果推理”算法

    關(guān)聯(lián)算法使用線性推論將癥狀與可能導(dǎo)致它們的疾病進(jìn)行匹配。因果推理AI(也稱為反事實(shí)AI或“具有想象力的AI”)考慮是否可能是其他疾病導(dǎo)致給定癥狀或系列癥狀。
    的頭像 發(fā)表于 09-09 10:51 ?2131次閱讀

    超詳細(xì)EMNLP2020 因果推斷

    引言 X,Y之間的因果性被定義為操作X,會(huì)使得Y發(fā)生改變。在很多領(lǐng)域如藥物效果預(yù)測、推薦算法有效性,因果性都有著重要作用。然而現(xiàn)實(shí)數(shù)據(jù)中,變量之間還會(huì)存在其他的相關(guān)關(guān)系(confounding
    的頭像 發(fā)表于 05-19 15:59 ?4932次閱讀
    超詳細(xì)EMNLP2020 <b class='flag-5'>因果</b>推斷

    基于e-CARE的因果推理相關(guān)任務(wù)

    因果推理是人類的項(xiàng)核心認(rèn)知能力。借助因果推理能力,人類得以理解已觀測到的各種現(xiàn)象,并預(yù)測將來可能發(fā)生的事件。然而,盡管當(dāng)下的各類
    的頭像 發(fā)表于 05-16 16:21 ?1376次閱讀

    問了個(gè)ChatGPT尷尬的問題……

    點(diǎn)擊藍(lán)字?關(guān)注我們 最近這段時(shí)間,全球最繁忙的服務(wù)ChatGPT的服務(wù)莫屬。OpenAI公司推出的DALL-E和GPT-3生成式AI系統(tǒng)ChatGPT,其月活用戶僅用兩個(gè)月就已經(jīng)
    的頭像 發(fā)表于 02-12 12:30 ?1296次閱讀

    ChatGPT了的七個(gè)開源項(xiàng)目

    就推出了很多。估計(jì),現(xiàn)在還有不少同學(xué)苦于不知道該如何體驗(yàn)chatGPT。   chatGPT火了,圍繞chatGPT盡心二次擴(kuò)展的開源項(xiàng)目最近也涌現(xiàn)出很多,今天就來給大家介紹幾個(gè)最近發(fā)現(xiàn)的不錯(cuò)的開源項(xiàng)目!   這是
    發(fā)表于 02-15 09:26 ?3次下載
    <b class='flag-5'>ChatGPT</b>了的七<b class='flag-5'>個(gè)</b>開源項(xiàng)目

    ChatGPT的潛力和局限

    的世界也是個(gè)完整的環(huán)境:你可以收集口袋妖怪、培養(yǎng)它們的實(shí)力,然后讓它們?cè)趹?zhàn)斗中展身手。每一個(gè)系統(tǒng)都有詳細(xì)的、明確的規(guī)定。 而現(xiàn)在,我們把這個(gè)酷炫的口袋妖怪世界作為評(píng)估
    的頭像 發(fā)表于 06-13 17:23 ?580次閱讀
    <b class='flag-5'>ChatGPT</b>的潛力和局限

    基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

    ? 因果推理是人類智力的標(biāo)志之因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣,但其主要依賴于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了
    的頭像 發(fā)表于 06-20 15:39 ?1832次閱讀
    基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測試大語言模型(LLM)的純<b class='flag-5'>因果</b><b class='flag-5'>推理</b>能力

    ChatGPT plus多少錢一個(gè)ChatGPT Plus國內(nèi)代充教程

    ChatGPT plus多少錢一個(gè)月? OpenAI推出ChatGPT付費(fèi)訂閱版ChatGPT Plus,每月收費(fèi)20美元。 ChatGPT
    的頭像 發(fā)表于 08-14 18:24 ?8937次閱讀
    <b class='flag-5'>ChatGPT</b> plus多少錢<b class='flag-5'>一個(gè)</b>月 <b class='flag-5'>ChatGPT</b> Plus國內(nèi)代充教程

    如何使用Rust創(chuàng)建個(gè)基于ChatGPT的RAG助手

    經(jīng)常會(huì)出現(xiàn)些幻覺,“本正經(jīng)”地為我們提供些錯(cuò)誤答案,沒有辦法為我們提供專業(yè)的意見或指導(dǎo)。那我們?nèi)绾巫?ChatGPT 具備某個(gè)專業(yè)領(lǐng)域的知識(shí),提升回答的正確率,從而讓
    的頭像 發(fā)表于 10-24 17:34 ?1079次閱讀
    如何使用Rust創(chuàng)建<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>基于<b class='flag-5'>ChatGPT</b>的RAG助手

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)

    提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出個(gè)快速、高效且低成本的推理系統(tǒng),加速了基于轉(zhuǎn)換
    的頭像 發(fā)表于 09-18 09:37 ?369次閱讀
    AMD助力HyperAccel開發(fā)全新AI<b class='flag-5'>推理</b>服務(wù)<b class='flag-5'>器</b>