1. 背景和動(dòng)機(jī)
因果推理能力對(duì)于許多自然語言處理(NLP)應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過微調(diào)的預(yù)訓(xùn)練語言模型(PLMs),如BERT [1] 和RoBERTa [2]。它們的因果推理能力依賴于使用大量標(biāo)注數(shù)據(jù)的監(jiān)督訓(xùn)練,然而ChatGPT能夠在不依賴標(biāo)注數(shù)據(jù)的前提下在各種NLP任務(wù)中取得良好表現(xiàn)。
在本文中,我們進(jìn)行了全面的評(píng)估,以展示ChatGPT的因果推理能力,涉及四個(gè)最先進(jìn)的(SOTA)版本的ChatGPT:text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-4。首先,我們利用事件因果關(guān)系識(shí)別(ECI)任務(wù)作為因果推理基準(zhǔn)。如圖1所示,ECI任務(wù)旨在確定一個(gè)句子中的兩個(gè)事件之間是否存在因果關(guān)系。這要求ChatGPT不僅要掌握常識(shí)知識(shí),還要理解由多個(gè)實(shí)體和事件組成的復(fù)雜上下文。最后,ChatGPT必須綜合所有信息來識(shí)別因果關(guān)系。
其次,我們采用因果發(fā)現(xiàn)(CD)任務(wù)進(jìn)行評(píng)估,這要求ChatGPT具有更廣泛和更專業(yè)的知識(shí),但不需要考慮復(fù)雜的上下文。如圖1所示,我們使用了兩種CD任務(wù)格式:1)多項(xiàng)選擇,旨在從兩個(gè)選項(xiàng)中選擇輸入事件的原因或效果;2)二分類,旨在確定兩個(gè)輸入事件之間是否存在因果關(guān)系。對(duì)于二分類設(shè)置,我們將每個(gè)多項(xiàng)選擇示例轉(zhuǎn)換為兩個(gè)二分類示例,即將輸入事件與兩個(gè)選項(xiàng)中的每一個(gè)進(jìn)行配對(duì)。我們的實(shí)驗(yàn)表明,二分類是評(píng)估ChatGPT更可靠的方法。
此外,如圖1所示,我們進(jìn)行因果解釋生成(CEG)任務(wù),以測試ChatGPT是否能為事件間的因果關(guān)系生成解釋。這通常用于測試機(jī)器是否真正理解因果關(guān)系背后的原理,這對(duì)于構(gòu)建可靠的因果推理系統(tǒng)至關(guān)重要。
圖1: 三種因果推理任務(wù)的形式和我們使用的提示。需要ChatGPT回復(fù)的內(nèi)容用紅色標(biāo)記。多項(xiàng)選擇CD任務(wù)還涉及要求選擇輸入事件可能后果的樣本。對(duì)于這些樣本,我們將問題中的“cause”修改為“result”。
關(guān)鍵發(fā)現(xiàn)如下:
ChatGPT不是一個(gè)好的因果推理器,但是一個(gè)好的因果解釋器。
ChatGPT存在嚴(yán)重的因果幻覺問題,它傾向于假設(shè)事件之間存在因果關(guān)系,而不管這些關(guān)系是否真正存在。
ChatGPT因果幻覺的主要原因可能是自然語言中因果關(guān)系和非因果關(guān)系之間的報(bào)告偏差。ICL和CoT [4]等技術(shù)可以進(jìn)一步加劇ChatGPT的因果幻覺。此外隨著ChatGPT版本提升,這種因果幻覺變得更加明顯。
ChatGPT的因果推理能力對(duì)提示中用于表達(dá)因果概念的詞匯十分敏感。
隨著句子中事件數(shù)量的增加,以及事件之間的詞匯距離變大,ChatGPT的因果推理性能會(huì)降低。此外,ChatGPT在識(shí)別顯式因果關(guān)系方面比識(shí)別隱式因果關(guān)系做得更好。
開放式生成提示無法提高ChatGPT的因果推理能力。
2 數(shù)據(jù)集、評(píng)估指標(biāo)及相關(guān)設(shè)置
2.1 數(shù)據(jù)集和評(píng)估指標(biāo)
事件因果關(guān)系識(shí)別
我們?cè)谌齻€(gè)廣泛使用的事件因果識(shí)別(ECI)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):1) EventStoryLine v0.9(ESC)[5],包含22個(gè)主題、258份文檔、5,334個(gè)事件和1,770對(duì)因果事件對(duì);2) Causal-TimeBank(CTB)[6],包含184份文檔、6,813個(gè)事件和318對(duì)因果事件對(duì);3) MAVEN-ERE [7],包含90個(gè)主題、4,480份文檔、103,193個(gè)事件和57,992對(duì)因果事件對(duì)。參照以往的工作 [8, 9],對(duì)于ESC我們僅使用其前20個(gè)主題進(jìn)行評(píng)估。此外,由于MAVEN-ERE沒有發(fā)布測試集,我們?cè)谄溟_發(fā)集上評(píng)估ChatGPT。我們采用準(zhǔn)確度、精確度(P)、召回率(R)和F1-score(F1)作為評(píng)估指標(biāo)。
因果發(fā)現(xiàn)
我們?cè)趦蓚€(gè)廣泛使用的因果發(fā)現(xiàn)(CD)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):1) COPA [10],這是一個(gè)經(jīng)典的因果推理數(shù)據(jù)集,包含1,000個(gè)以日常生活場景為主的多項(xiàng)選擇題。2) e-CARE [11],包含21,324個(gè)涵蓋廣泛領(lǐng)域的多項(xiàng)選擇題。我們采用準(zhǔn)確率作為評(píng)估指標(biāo)。
因果解釋生成
我們?cè)趀-CARE上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含21,324個(gè)人工注釋的因果解釋。參照e-CARE的評(píng)估設(shè)置,我們首先采用BLEU(n=4)[12]和ROUGE-L [13]作為自動(dòng)評(píng)估指標(biāo)。其次,我們抽取每個(gè)版本的ChatGPT在e-CARE上生成的100個(gè)解釋進(jìn)行人工評(píng)估。具體來說,我們標(biāo)記生成的解釋是否能解釋相應(yīng)的因果事實(shí)以人工評(píng)估解釋的準(zhǔn)確率。
2.2 實(shí)驗(yàn)設(shè)置
對(duì)于ChatGPT,圖1展示了三個(gè)因果推理任務(wù)所采用的提示。我們?cè)?zero-shot 設(shè)置下評(píng)估ChatGPT的性能。其他提示和設(shè)置在第四節(jié)中討論。
我們使用OpenAI的官方API進(jìn)行實(shí)驗(yàn),涵蓋了四個(gè)ChatGPT最新版本:text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-4。具體來說,text-davinci-002通過RLHF(強(qiáng)化學(xué)習(xí)與人類反饋)進(jìn)一步訓(xùn)練得到text-davinci-003,后者又進(jìn)一步利用對(duì)話數(shù)據(jù)訓(xùn)練得到gpt-3.5-turbo。雖然OpenAI未公開gpt-4的具體信息,但gpt-4在各種自然語言處理任務(wù)中顯示出了更為卓越的推理能力。對(duì)于gpt-4,我們從每個(gè)數(shù)據(jù)集中抽取1000個(gè)實(shí)例進(jìn)行評(píng)估。我們將temperature參數(shù)設(shè)置為0,以盡量減少隨機(jī)性。
2.3 基線方法
在本文中,所有針對(duì)三項(xiàng)因果推理任務(wù)的基線方法都基于在完整訓(xùn)練數(shù)據(jù)集上微調(diào)的預(yù)訓(xùn)練語言模型(PLMs)。
對(duì)于 ECI 和 CD 任務(wù),我們將 ChatGPT 與基于 BERT-Base [14]和 RoBERTa-Base [15]的普通分類模型進(jìn)行了比較。它們的框架和訓(xùn)練過程與之前的工作一致 [16, 17]。
此外,我們將 ChatGPT 與兩種 SOTA ECI 方法進(jìn)行了比較:基于 BERT-Base 的 KEPT [18],融合了背景和關(guān)系信息以進(jìn)行因果推理;以及基于 RoBERTa-Base 的 DPJL [19],將有關(guān)因果線索詞和事件間關(guān)系的信息引入到 ECI 模型中。
對(duì)于 CEG 任務(wù),我們首先將 ChatGPT 與基于 GRU 的 Seq2Seq 模型 [20]和 GPT2 [21]進(jìn)行比較。它們的框架和訓(xùn)練過程與之前的工作一致 [22]。此外,我們?cè)?e-CARE 的訓(xùn)練集上微調(diào) LLaMA 7B [23]和 FLAN-T5 11B [24],作為基于 LLMs 基線。
3 實(shí)驗(yàn)
3.1 事件因果關(guān)系識(shí)別
表1顯示了在三個(gè)ECI數(shù)據(jù)集上的結(jié)果:ESC、CTB和MAVEN-ERE。
表1: ECI任務(wù)上的實(shí)驗(yàn)結(jié)果(%)。P、R和F1分別代表準(zhǔn)確率、召回率和F1分?jǐn)?shù)。Pos、Neg和Full分別表示因果對(duì)、非因果對(duì)和所有測試樣例上的準(zhǔn)確率。
我們發(fā)現(xiàn):
即使是gpt-4版本的ChatGPT,也被基于微調(diào)的小型PLMs的基線方法全面超越。這表明在像ECI這樣復(fù)雜的因果推理任務(wù)中,ChatGPT并不是一個(gè)好的因果推理器。
ChatGPT的召回率很高,但精確度低,這表明大量非因果事件對(duì)被錯(cuò)誤地識(shí)別為因果對(duì)。這也是ChatGPT在CTB數(shù)據(jù)集上表現(xiàn)尤其糟糕的原因,因?yàn)樵摂?shù)據(jù)集包含更多非因果事件對(duì)。這可能是因?yàn)樽匀徽Z言包含大量因果關(guān)系的描述,主要由諸如“l(fā)ead to”和“therefore”這樣的因果線索詞指示。然而,自然語言通常不表達(dá)哪些事件不是因果相關(guān)的。由于ChatGPT的能力來自于對(duì)大量自然語言文本的訓(xùn)練,文本中因果和非因果事件對(duì)之間的這種報(bào)告偏差使得ChatGPT擅長于識(shí)別因果事件對(duì),但不擅長識(shí)別非因果事件對(duì)。
此外,可以觀察到經(jīng)過微調(diào)的小型PLMs在識(shí)別非因果事件對(duì)方面表現(xiàn)得更好。這是因?yàn)樵贓CI訓(xùn)練集中,非因果示例比因果示例多得多,而經(jīng)過微調(diào)的模型學(xué)習(xí)到了這種數(shù)據(jù)分布。
3.2 因果關(guān)系發(fā)現(xiàn)
表2展示了在兩個(gè)因果發(fā)現(xiàn)(CD)數(shù)據(jù)集上的結(jié)果:COPA和e-CARE。
表2: CD任務(wù)上的實(shí)驗(yàn)結(jié)果(%)。Pos、Neg和Full分別表示因果對(duì)、非因果對(duì)以及所有測試樣例上的準(zhǔn)確率。
我們發(fā)現(xiàn):
盡管ChatGPT在多項(xiàng)選擇設(shè)置中表現(xiàn)良好,但在二元分類中的表現(xiàn)卻顯著變差。這主要是因?yàn)樵诙囗?xiàng)選擇設(shè)置中,ChatGPT只需要考慮與輸入事件呈現(xiàn)更明顯的因果或非因果關(guān)系的選項(xiàng),而可以忽略另一個(gè)更難分析的選項(xiàng)。之前的工作 [25, 26]只用多項(xiàng)選擇題來評(píng)估ChatGPT的因果推理能力,導(dǎo)致誤認(rèn)為ChatGPT擅長因果推理。
與ECI任務(wù)相比,ChatGPT在CD任務(wù)中識(shí)別非因果對(duì)的準(zhǔn)確率更高。這主要是因?yàn)閑-CARE和COPA數(shù)據(jù)集中的非因果對(duì)是根據(jù)輸入事件手動(dòng)生成的,它們結(jié)構(gòu)簡單,與輸入事件的相關(guān)性弱,因此更容易識(shí)別。這也是為什么經(jīng)過微調(diào)的小型預(yù)訓(xùn)練語言模型(PLMs)在識(shí)別非因果事件對(duì)方面比識(shí)別因果事件對(duì)表現(xiàn)更好。
與COPA相比,ChatGPT在e-CARE數(shù)據(jù)集中識(shí)別因果對(duì)的準(zhǔn)確率略低。這是因?yàn)閑-CARE要求ChatGPT掌握更廣泛的知識(shí),這不僅涉及到更多場景中的常識(shí)知識(shí),還包括某些領(lǐng)域的專業(yè)知識(shí),如生物學(xué)。
更重要的是,我們注意到ChatGPT的升級(jí)過程(text-davinci-003→gpt-3.5turbo→gpt-4)使得ChatGPT越來越傾向于將事件分類為具有因果關(guān)系,而無論因果是否真實(shí)存在。這可能是RLHF的對(duì)齊稅 [27]所致。這表明,盡管OpenAI [28]提到ChatGPT的升級(jí)過程減少了在其他各種任務(wù)中的幻覺問題,但也使得ChatGPT更擅長于編造因果關(guān)系。
3.3 因果解釋生成
表 3 展示了在 CEG 任務(wù)上的實(shí)驗(yàn)結(jié)果。
表3: 在CEG任務(wù)上的實(shí)驗(yàn)結(jié)果(%)。
可以觀察到:
根據(jù)人類評(píng)估結(jié)果,由 ChatGPT 生成的因果解釋的準(zhǔn)確性接近人類生成的解釋。這表明 ChatGPT 是一個(gè)良好的因果解釋器。
與“Human Generation”相比,ChatGPT 在 ROUGE-l 指標(biāo)上表現(xiàn)更好,這是一個(gè)類似于文本分類中“recall”的文本生成度量。這是因?yàn)?ChatGPT 傾向于生成相比人工標(biāo)注的解釋更完整、更詳細(xì)的解釋。這一點(diǎn)在我們的人工評(píng)估過程中得到了評(píng)估員的一致認(rèn)可。這也是 ChatGPT 獲得較低的 AVG-BLEU 分?jǐn)?shù)的原因,因?yàn)锳VG-BLEU是一個(gè)類似于文本分類中“precision”的文本生成度量。
通過手動(dòng)評(píng)估,我們發(fā)現(xiàn)由 LLaMA 和 FLAN-T5 生成的解釋與輸入事件高度相關(guān)。然而,這些解釋可能只是對(duì)輸入事件的重復(fù),或者提供相關(guān)但無法用于解釋的描述。這也是 LLaMA 和 FLAN-T5 在人類評(píng)估中表現(xiàn)不佳的主要原因。
此外,與 ChatGPT 相比,LLaMA 和 FLAN-T5 提供的解釋明顯更短。這是因?yàn)?e-CARE 訓(xùn)練集中標(biāo)注的解釋非常簡短。然而,ChatGPT 在提供更全面和詳細(xì)的解釋方面表現(xiàn)出色。這展示了 ChatGPT 因果解釋相比傳統(tǒng)微調(diào)方法的優(yōu)勢。
最后值得注意的是,盡管經(jīng)過微調(diào)的 LLaMA、FLAN-T5 和 ChatGPT 在 ROUGE-l 分?jǐn)?shù)上表現(xiàn)相近,但兩個(gè)微調(diào)的 LLMs 在我們的人類評(píng)估中表現(xiàn)明顯更差。這是因?yàn)?ChatGPT 生成的解釋相比測試集中標(biāo)注的解釋更加全面、詳細(xì),導(dǎo)致了偏低的ROUGE-l數(shù)值。事實(shí)上ChatGPT生成的解釋質(zhì)量相當(dāng)可靠。
4 分析
4.1 上下文學(xué)習(xí)
如表4和表5所示,我們分析了ChatGPT在不同上下文學(xué)習(xí)設(shè)置下的表現(xiàn):1)“x pos + y neg”:我們隨機(jī)選擇x個(gè)因果訓(xùn)練樣例和y個(gè)非因果訓(xùn)練樣例作為上下文學(xué)習(xí)的示例,所有測試樣例共享相同的示例;2)“top k similar”:對(duì)于每個(gè)測試樣例,我們檢索與其最相似的k個(gè)訓(xùn)練樣例作為其上下文示例。論文中還額外分析了ICL示例的順序和標(biāo)簽分布對(duì)因果推理性能的影響。
表4: ChatGPT在ECI任務(wù)中使用上下文學(xué)習(xí)的表現(xiàn)。其中“none”表示未使用上下文學(xué)習(xí)的ChatGPT。
表5: ChatGPT 在 binary-classification CD任務(wù)中使用上下文學(xué)習(xí)的性能?!皀one” 表示沒有使用上下文學(xué)習(xí)的 ChatGPT。
我們觀察到:
當(dāng)x和y不大于4時(shí),ICL主要提高了ChatGPT在因果對(duì)中的準(zhǔn)確率,但降低了非因果對(duì)的準(zhǔn)確率。這可能是因?yàn)殡m然ICL可以激發(fā)ChatGPT的能力,但ChatGPT更擅長識(shí)別因果事件對(duì)。因此,ICL進(jìn)一步加劇了ChatGPT識(shí)別因果和非因果對(duì)的性能的不均衡。
“4 pos + 48 neg”實(shí)現(xiàn)了更高的Full Acc。然而它是以犧牲Pos Acc為代價(jià)提高了Neg Acc。又因?yàn)镋SC數(shù)據(jù)集包含更多的非因果對(duì),造成表面看起來Full Acc有所提升。但整體性能的有效提升不應(yīng)該是以拆東墻補(bǔ)西墻的形式實(shí)現(xiàn),而應(yīng)該是同時(shí)提高Pos Acc和Neg Acc。
4.2 思維鏈提示
如表6所示,我們分析了ChatGPT在不同思維鏈設(shè)置下的表現(xiàn):1)“-w/ CoT zero-shot”:我們通過在提示后添加“Let’s think step by step” 來實(shí)現(xiàn)zero-shot CoT [29];2)“-w/ CoT x pos + y neg”:我們?yōu)閤個(gè)因果訓(xùn)練樣例和y個(gè)非因果訓(xùn)練樣例手動(dòng)注釋推理鏈。它們被選為上下文學(xué)習(xí)的示例,所有測試樣例共享相同的上下文示例。論文中還額外展示了ChatGPT的錯(cuò)誤類型、推理鏈條的樣例等。
表6: ChatGPT在ECI和binary-classification CD任務(wù)上的使用CoT的表現(xiàn)?!皀one” 表示沒有使用上下文學(xué)習(xí)的 ChatGPT。
可以發(fā)現(xiàn):
“-w/ CoT zero-shot”不能有效地提高ChatGPT在ECI任務(wù)中的表現(xiàn)。這可能是因?yàn)?zero-shot CoT生成的推理鏈質(zhì)量不足以有效地指導(dǎo)模型。
“-w/ CoT x pos + y neg”提高了ChatGPT在因果對(duì)上的準(zhǔn)確率,但降低了其在非因果對(duì)上的準(zhǔn)確率。觀察ChatGPT生成的推理鏈,我們發(fā)現(xiàn)ChatGPT為非因果對(duì)生成的鏈條質(zhì)量低于因果對(duì)。這種差異會(huì)加劇ChatGPT在識(shí)別因果和非因果事件對(duì)方面的不平衡。
4.3 表達(dá)因果關(guān)系的方式
如圖2所示,我們分析了在提示中使用不同方式表達(dá)因果概念時(shí)ChatGPT的性能變化:
1)“counterfactual”,基于 [30]的反事實(shí)因果觀點(diǎn)的提示;
2)“one-step”,我們添加了“one-step”這樣的限制性詞語來減輕將非因果事件對(duì)識(shí)別為因果的傾向;
3)“trigger()”,我們使用不同的因果提示詞(例如,“l(fā)ead to”)來構(gòu)建提示。
圖2: 以各種方式表達(dá)因果概念的提示。需要ChatGPT回復(fù)的內(nèi)容用紅色標(biāo)記。
實(shí)驗(yàn)結(jié)果顯示在表7中。
表7: 以不同方式表達(dá)因果概念的提示在ECI任務(wù)上的性能。
我們發(fā)現(xiàn):
“counterfactual” 提示使得幾乎所有非因果對(duì)被識(shí)別為因果。人工檢查發(fā)現(xiàn)這主要是因?yàn)镃hatGPT的反事實(shí)推理結(jié)果不夠準(zhǔn)確。
“one-step”提高了ChatGPT在非因果對(duì)上的準(zhǔn)確性,但降低了其在因果對(duì)上的準(zhǔn)確性。這是意味著盡管像“one-step”這樣的限制性詞語可以使模型更傾向于預(yù)測事件對(duì)為非因果,但它并沒有真正增強(qiáng)ChatGPT的因果推理能力。
“trigger()” 在不同因果提示詞下的表現(xiàn)有顯著差異。這可能是因?yàn)樵陬A(yù)訓(xùn)練期間,ChatGPT主要通過因果提示詞學(xué)習(xí)因果知識(shí),但每個(gè)提示詞觸發(fā)的因果關(guān)系分布都有所不同。因此,對(duì)于人類來說意義相同的因果提示詞對(duì)ChatGPT來說代表不同的因果概念。這進(jìn)一步表明,通過提示準(zhǔn)確地向ChatGPT傳達(dá)因果含義是一個(gè)具有挑戰(zhàn)性的任務(wù)。
4.4 事件之間的詞匯距離
如圖3所示,我們分析了ChatGPT處理不同詞匯距離事件對(duì)的表現(xiàn)?!霸~匯距離”指的是一個(gè)句子中兩個(gè)事件之間間隔的單詞數(shù)。
圖3: ChatGPT在ESC數(shù)據(jù)集中處理具有不同詞匯距離的事件對(duì)的表現(xiàn)。
我們發(fā)現(xiàn):
隨著間距的增加,ChatGPT更傾向于將事件對(duì)預(yù)測為非因果。這可能是因?yàn)樵谧匀徽Z言中,事件之間的距離越大,存在因果關(guān)系的可能性越小,而ChatGPT學(xué)到了這種模式。
隨著事件間距的增加,ChatGPT的F1得分降低。這表明ChatGPT不擅長識(shí)別長距離的因果關(guān)系。一個(gè)異常值是在[25,30)區(qū)間內(nèi)gpt-4的F1得分。這是因?yàn)樵趃pt-4的1000個(gè)測試樣例中,只有35個(gè)例子在[25,30)區(qū)間內(nèi),導(dǎo)致表現(xiàn)更加隨機(jī)。然而,所有其他結(jié)果都表明,隨著事件距離的增加,ChatGPT的表現(xiàn)會(huì)下降。
4.5 事件密度
如圖4所示,我們分析了ChatGPT在ECI任務(wù)中處理具有不同數(shù)量事件的句子的表現(xiàn)。
圖4: ChatGPT在ESC數(shù)據(jù)集中處理具有不同事件數(shù)量的句子的表現(xiàn)。
我們發(fā)現(xiàn):
隨著事件密度的增加,大多數(shù)版本的ChatGPT更傾向于預(yù)測事件對(duì)為非因果關(guān)系。這主要是因?yàn)殡S著事件密度的增加,事件的上下文變得更加復(fù)雜,使得捕捉事件之間的關(guān)聯(lián)變得更加困難。
隨著事件密度的增加,ChatGPT的F1分?jǐn)?shù)下降。這表明ChatGPT不擅長處理涉及多個(gè)事件的復(fù)雜情況。
4.6 因果關(guān)系類型
如圖5所示,我們分析了ChatGPT在ECI任務(wù)中處理具有不同類型因果關(guān)系的事件對(duì)的準(zhǔn)確性:1)顯式因果,指的是句子中由因果提示詞(例如,“l(fā)ead to”)明確觸發(fā)的因果關(guān)系;2)隱式因果,指的是未使用因果提示詞表達(dá)的因果關(guān)系。
圖5: 在ESC數(shù)據(jù)集中,ChatGPT在不同類型因果關(guān)系的事件對(duì)上的表現(xiàn)。
可以觀察到:
與隱性因果性相比,ChatGPT在捕捉顯性因果性方面表現(xiàn)更好。這主要是因?yàn)樽R(shí)別顯性因果性只需識(shí)別因果提示詞,而識(shí)別隱性因果性則需要利用上下文信息和常識(shí)知識(shí)進(jìn)行推理。
4.7 開放式提示
最近,阿羅拉等人 [31]發(fā)現(xiàn),開放式提示(例如“誰去了公園?”)對(duì)于ChatGPT來說,往往比限制性的提示(例如“約翰去了公園。對(duì)還是錯(cuò)?”)產(chǎn)生更好的結(jié)果。如表8所示,我們分析了ChatGPT使用開放式提示的因果推理性能:
1)“open-ended A.1/2/3”,要求ChatGPT生成輸入句子中的所有因果事件對(duì)。我們?cè)O(shè)計(jì)了三種不同的提示,以全面評(píng)估ChatGPT的表現(xiàn)。
2)“open-ended B”,給出輸入句子中的目標(biāo)事件,并要求ChatGPT生成輸入句子中與目標(biāo)事件具有因果關(guān)系的事件。
這些提示的格式在圖6中展示。
圖6: 開放式提示。標(biāo)記為紅色的內(nèi)容需要ChatGPT回復(fù)。
我們對(duì)開放式提示采用了邊界寬松的P、R和F1計(jì)算方法。具體來說,當(dāng)預(yù)測的結(jié)果事件與標(biāo)注的結(jié)果事件共享至少一個(gè)單詞,同時(shí)預(yù)測的原因事件與標(biāo)注的原因事件也共享至少一個(gè)單詞,則認(rèn)為預(yù)測的因果事件對(duì)是正確的。
表8: ChatGPT 使用開放式提示在 ECI 任務(wù)上的表現(xiàn)?!癱lose-ended”表示圖 1 中顯示的原始 ECI 提示。值得注意的是,“close-ended”提示并不明確要求 ChatGPT 輸出“yes”或“no”,但其句法形式引導(dǎo) ChatGPT 幾乎總是輸出“yes”或“no”。
可以觀察到:
開放式提示降低了ChatGPT的性能。這是因?yàn)殚_放式提示要求ChatGPT同時(shí)執(zhí)行事件提取和ECI任務(wù)。然而,之前的研究 [32, 33]表明,ChatGPT不擅長提取事件。
5 結(jié)論
在本文中,我們對(duì)ChatGPT的因果推理能力進(jìn)行了全面評(píng)估。實(shí)驗(yàn)表明:
ChatGPT不是一個(gè)好的因果推理器,但擅長因果解釋生成;
ChatGPT存在嚴(yán)重的因果幻覺,這可能是由于因果的報(bào)告偏見;
隨著ChatGPT版本的提升,以及ICL和CoT技術(shù)的應(yīng)用,這種因果幻覺進(jìn)一步加??;
ChatGPT對(duì)于提示中表達(dá)因果概念的方式敏感,且開放式提示不適合ChatGPT;
對(duì)于句子中的事件,ChatGPT擅長捕捉明確的因果關(guān)系,在事件密度較低和事件距離較小的句子中表現(xiàn)更好。
開放式生成提示無法提高ChatGPT的因果推理能力。
盡管可能存在更細(xì)致的提示,可以進(jìn)一步超越我們報(bào)告的結(jié)果,但我們認(rèn)為,僅依靠提示無法從根本上解決 ChatGPT 在因果推理中面臨的問題。我們希望這項(xiàng)研究能激發(fā)未來的工作,例如解決ChatGPT的因果幻覺問題或在多因素和多模態(tài)因果推理的場景中進(jìn)一步評(píng)估ChatGPT。
審核編輯:劉清
-
ChatGPT
+關(guān)注
關(guān)注
29文章
1561瀏覽量
7673
原文標(biāo)題:ChatGPT 是一個(gè)好的因果推理器嗎? 一份綜合評(píng)估
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論