信息抽取(IE)旨在從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化信息,該結(jié)果可以直接影響很多下游子任務(wù),比如問答和知識(shí)圖譜構(gòu)建。因此,探索ChatGPT的信息抽取能力在一定程度上能反映出ChatGPT生成回復(fù)時(shí)對(duì)任務(wù)指令理解的性能。
論文:Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors
地址:https://arxiv.org/pdf/2305.14450.pdf
代碼:https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction
本文將從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類型四個(gè)角度對(duì)ChatGPT在信息抽取任務(wù)上的能力進(jìn)行評(píng)估。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
任務(wù)和數(shù)據(jù)集
本文的實(shí)驗(yàn)采用4類常見的信息抽取任務(wù),包括命名實(shí)體識(shí)別(NER),關(guān)系抽取(RE),事件抽取(EE)和基于方面的情感分析(ABSA),它們一共包含14類子任務(wù)。
對(duì)于NER任務(wù),采用的數(shù)據(jù)集包括CoNLL03、FewNERD、ACE04、ACE05-Ent和GENIA。
對(duì)于RE任務(wù),采用的數(shù)據(jù)集包括CCoNLL04、NYT-multi、TACRED和SemEval 2010。
對(duì)于EE任務(wù),采用的數(shù)據(jù)集包括CACE05-Evt、ACE05+、CASIE和Commodity News EE。
對(duì)于ABSA任務(wù),采用的數(shù)據(jù)集包括D17、D19、D20a和D20b,均從SemEval Challenges獲取。
實(shí)驗(yàn)結(jié)果
1、性能
從上圖結(jié)果可以明顯看出:
(1)ChatGPT和SOTA方法之間存在顯著的性能差距;
(2)任務(wù)的難度越大,性能差距越大;
(3)任務(wù)場(chǎng)景越復(fù)雜,性能差距越大;
(4)在一些簡(jiǎn)單的情況下,ChatGPT可以達(dá)到或超過SOTA方法的性能;
(5)使用few-shot ICL提示通常有顯著提升(約3.0~13.0的F1值),但仍明顯落后于SOTA結(jié)果;
(6)與few-shot ICL提示相比,few-shot COT提示的使用不能保證進(jìn)一步的增益,有時(shí)它比few-shot ICR提示的性能更差。
2、對(duì)性能gap的思考
通過人工檢查ChatGPT的回復(fù),發(fā)現(xiàn)ChatGPT傾向于識(shí)別比標(biāo)注的跨度更長的sapn,以更接近人類的偏好。因此,之前的硬匹配(hard-matching)策略可能不適合如ChatGPT的LLM,所以本文提出了一種軟匹配(soft-matching)策略,算法流程如下。
該算法表明,只要生成和span和標(biāo)記的span存在包含關(guān)系且達(dá)到相似度的閾值,則認(rèn)為結(jié)果正確。通過軟匹配策略,對(duì)重新評(píng)估ChatGPT的IE性能,得到的結(jié)果如下。
從上圖可以看出,軟匹配策略帶來一致且顯著的性能增益(F1值高達(dá)14.53),簡(jiǎn)單子任務(wù)的提升更明顯。同時(shí),雖然軟匹配策略帶來性能提升,但仍然沒有達(dá)到SOTA水平。
3、魯棒性分析
(1)無效輸出
在大多數(shù)情況下,ChatGPT很少輸出無效回復(fù)。然而在RE-Triplet子任務(wù)中,無效回復(fù)占比高達(dá)25.3%。一個(gè)原因可能這個(gè)子任務(wù)更加與眾不同。
(2)無關(guān)上下文
由于ChatGPT對(duì)不同的提示非常敏感,本文研究了無關(guān)上下文對(duì)ChatGPT在所有IE子任務(wù)上性能的影響。主要通過在輸入文本前后隨機(jī)插入一段無關(guān)文本來修改zero-shot提示的“輸入文本”部分,無關(guān)文本不包含要提取的目標(biāo)信息span,結(jié)果如圖所示。
可以看出,當(dāng)隨機(jī)添加無關(guān)上下文時(shí),大多數(shù)子任務(wù)的性能都會(huì)顯著下降(最高可達(dá)48.0%)。ABSA-ALSC和RE-RC子任務(wù)的性能下降較小,這是因?yàn)樗鼈兓诮o定的方面項(xiàng)或?qū)嶓w對(duì)進(jìn)行分類,受到無關(guān)上下文的影響較小。因此,ChatGPT對(duì)無關(guān)上下文非常敏感,這會(huì)顯著降低IE任務(wù)的性能。
(3)目標(biāo)類型的頻率
真實(shí)世界的數(shù)據(jù)通常為長尾分布,導(dǎo)致模型在尾部類型上的表現(xiàn)比在頭部類型上差得多。本文研究了“目標(biāo)類型的頻率”對(duì)ChatGPT在所有IE子任務(wù)中的性能的影響,結(jié)果如圖所示。
可以看出,尾部類型的性能明顯不如頭部類型,僅高達(dá)頭部類型的75.9%。在一些子任務(wù)上,比如RE-RC和RE-Triplet,尾部類型的性能甚至低于頭部類型性能的15%,所以ChatGPT也面臨長尾問題的困擾。
(4)其他
本文探討了ChatGPT是否可以區(qū)分RE-RC子任務(wù)中兩個(gè)實(shí)體的主客觀順序。由于大多數(shù)關(guān)系類型都是非對(duì)稱的,因此兩個(gè)實(shí)體的順序非常關(guān)鍵。對(duì)于非對(duì)稱關(guān)系類型的每個(gè)實(shí)例,交換實(shí)體的順序并檢測(cè)預(yù)測(cè)結(jié)果的變化,結(jié)果如圖所示。
可以看到,交換順序后大多數(shù)預(yù)測(cè)結(jié)果(超過70%)與交換前保持不變。因此對(duì)于RE-RC子任務(wù),ChatGPT對(duì)實(shí)體的順序不敏感,而且無法準(zhǔn)確理解實(shí)體的主客體關(guān)系。
4、錯(cuò)誤類型分析
從圖中可以看出,“Unannotated spans”、“Incorrect types”和“Missing spans”是三種主要的錯(cuò)誤類型,占70%以上。特別是,幾乎三分之一的錯(cuò)誤是“Unannotated spans”的錯(cuò)誤,這也引發(fā)了對(duì)標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)憂。
總結(jié)
本文從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類型四個(gè)角度評(píng)估了ChatGPT的信息抽取能力,結(jié)論如下:
性能 本文評(píng)估了ChatGPT在zero-shot、few-shot和chain-of-thought場(chǎng)景下的17個(gè)數(shù)據(jù)集和14個(gè)IE子任務(wù)上的性能,發(fā)現(xiàn)ChatGPT和SOTA結(jié)果之間存在巨大的性能差距。
評(píng)估標(biāo)準(zhǔn) 本文重新審視了性能差距,發(fā)現(xiàn)硬匹配策略不適合評(píng)估ChatGPT,因?yàn)镃hatGPT會(huì)產(chǎn)生human-like的回復(fù),并提出軟匹配策略,以更準(zhǔn)確地評(píng)估ChatGPT的性能。
魯棒性 本文從四個(gè)角度分析了ChatGPT對(duì)14個(gè)子任務(wù)的魯棒性,包括無效輸出、無關(guān)上下文、目標(biāo)類型的頻率和錯(cuò)誤類型并得出以下結(jié)論:1)ChatGPT很少輸出無效響應(yīng);2)無關(guān)上下文和長尾目標(biāo)類型極大地影響了ChatGPT的性能;3)ChatGPT不能很好地理解RE任務(wù)中的主客體關(guān)系。
錯(cuò)誤類型 通過人工檢查,本文分析了ChatGPT的錯(cuò)誤,總結(jié)出7種類型,包括Missing spans、Unmentioned spans、Unannotated spans、Incorrect span offsets、Undefined types、Incorrect types和other。發(fā)現(xiàn)“Unannotated spans”是最主要的錯(cuò)誤類型。這引發(fā)了大家對(duì)之前標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)心,同時(shí)也表明利用ChatGPT標(biāo)記數(shù)據(jù)的可能性。
審核編輯 :李倩
-
AI
+關(guān)注
關(guān)注
87文章
30894瀏覽量
269085 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24701 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121162 -
OpenAI
+關(guān)注
關(guān)注
9文章
1089瀏覽量
6510 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1561瀏覽量
7670
原文標(biāo)題:ChatGPT能解決信息抽取嗎?一份關(guān)于性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤的分析
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論