国产成人91激情在线播放,亚洲无码大片

信息抽取(IE)旨在從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化信息，該結(jié)果可以直接影響很多下游子任務(wù)，比如問答和知識(shí)圖譜構(gòu)建。因此，探索ChatGPT的信息抽取能力在一定程度上能反映出ChatGPT生成回復(fù)時(shí)對(duì)任務(wù)指令理解的性能。

論文：Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors
地址：https://arxiv.org/pdf/2305.14450.pdf
代碼：https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction

本文將從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類型四個(gè)角度對(duì)ChatGPT在信息抽取任務(wù)上的能力進(jìn)行評(píng)估。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

任務(wù)和數(shù)據(jù)集
本文的實(shí)驗(yàn)采用4類常見的信息抽取任務(wù)，包括命名實(shí)體識(shí)別(NER)，關(guān)系抽取(RE)，事件抽取(EE)和基于方面的情感分析(ABSA)，它們一共包含14類子任務(wù)。

對(duì)于NER任務(wù)，采用的數(shù)據(jù)集包括CoNLL03、FewNERD、ACE04、ACE05-Ent和GENIA。

對(duì)于RE任務(wù)，采用的數(shù)據(jù)集包括CCoNLL04、NYT-multi、TACRED和SemEval 2010。

對(duì)于EE任務(wù)，采用的數(shù)據(jù)集包括CACE05-Evt、ACE05+、CASIE和Commodity News EE。

對(duì)于ABSA任務(wù)，采用的數(shù)據(jù)集包括D17、D19、D20a和D20b，均從SemEval Challenges獲取。

實(shí)驗(yàn)結(jié)果

1、性能

從上圖結(jié)果可以明顯看出：
（1）ChatGPT和SOTA方法之間存在顯著的性能差距；
（2）任務(wù)的難度越大，性能差距越大；
（3）任務(wù)場(chǎng)景越復(fù)雜，性能差距越大；
（4）在一些簡(jiǎn)單的情況下，ChatGPT可以達(dá)到或超過SOTA方法的性能；
（5）使用few-shot ICL提示通常有顯著提升(約3.0～13.0的F1值)，但仍明顯落后于SOTA結(jié)果；
（6）與few-shot ICL提示相比，few-shot COT提示的使用不能保證進(jìn)一步的增益，有時(shí)它比few-shot ICR提示的性能更差。

2、對(duì)性能gap的思考

通過人工檢查ChatGPT的回復(fù)，發(fā)現(xiàn)ChatGPT傾向于識(shí)別比標(biāo)注的跨度更長的sapn，以更接近人類的偏好。因此，之前的硬匹配(hard-matching)策略可能不適合如ChatGPT的LLM，所以本文提出了一種軟匹配(soft-matching)策略，算法流程如下。

該算法表明，只要生成和span和標(biāo)記的span存在包含關(guān)系且達(dá)到相似度的閾值，則認(rèn)為結(jié)果正確。通過軟匹配策略，對(duì)重新評(píng)估ChatGPT的IE性能，得到的結(jié)果如下。

從上圖可以看出，軟匹配策略帶來一致且顯著的性能增益(F1值高達(dá)14.53)，簡(jiǎn)單子任務(wù)的提升更明顯。同時(shí)，雖然軟匹配策略帶來性能提升，但仍然沒有達(dá)到SOTA水平。

3、魯棒性分析
（1）無效輸出

在大多數(shù)情況下，ChatGPT很少輸出無效回復(fù)。然而在RE-Triplet子任務(wù)中，無效回復(fù)占比高達(dá)25.3%。一個(gè)原因可能這個(gè)子任務(wù)更加與眾不同。

（2）無關(guān)上下文
由于ChatGPT對(duì)不同的提示非常敏感，本文研究了無關(guān)上下文對(duì)ChatGPT在所有IE子任務(wù)上性能的影響。主要通過在輸入文本前后隨機(jī)插入一段無關(guān)文本來修改zero-shot提示的“輸入文本”部分，無關(guān)文本不包含要提取的目標(biāo)信息span，結(jié)果如圖所示。

可以看出，當(dāng)隨機(jī)添加無關(guān)上下文時(shí)，大多數(shù)子任務(wù)的性能都會(huì)顯著下降(最高可達(dá)48.0%)。ABSA-ALSC和RE-RC子任務(wù)的性能下降較小，這是因?yàn)樗鼈兓诮o定的方面項(xiàng)或?qū)嶓w對(duì)進(jìn)行分類，受到無關(guān)上下文的影響較小。因此，ChatGPT對(duì)無關(guān)上下文非常敏感，這會(huì)顯著降低IE任務(wù)的性能。

（3）目標(biāo)類型的頻率
真實(shí)世界的數(shù)據(jù)通常為長尾分布，導(dǎo)致模型在尾部類型上的表現(xiàn)比在頭部類型上差得多。本文研究了“目標(biāo)類型的頻率”對(duì)ChatGPT在所有IE子任務(wù)中的性能的影響，結(jié)果如圖所示。

可以看出，尾部類型的性能明顯不如頭部類型，僅高達(dá)頭部類型的75.9%。在一些子任務(wù)上，比如RE-RC和RE-Triplet，尾部類型的性能甚至低于頭部類型性能的15%，所以ChatGPT也面臨長尾問題的困擾。

（4）其他
本文探討了ChatGPT是否可以區(qū)分RE-RC子任務(wù)中兩個(gè)實(shí)體的主客觀順序。由于大多數(shù)關(guān)系類型都是非對(duì)稱的，因此兩個(gè)實(shí)體的順序非常關(guān)鍵。對(duì)于非對(duì)稱關(guān)系類型的每個(gè)實(shí)例，交換實(shí)體的順序并檢測(cè)預(yù)測(cè)結(jié)果的變化，結(jié)果如圖所示。

可以看到，交換順序后大多數(shù)預(yù)測(cè)結(jié)果(超過70%)與交換前保持不變。因此對(duì)于RE-RC子任務(wù)，ChatGPT對(duì)實(shí)體的順序不敏感，而且無法準(zhǔn)確理解實(shí)體的主客體關(guān)系。

4、錯(cuò)誤類型分析

從圖中可以看出，“Unannotated spans”、“Incorrect types”和“Missing spans”是三種主要的錯(cuò)誤類型，占70%以上。特別是，幾乎三分之一的錯(cuò)誤是“Unannotated spans”的錯(cuò)誤，這也引發(fā)了對(duì)標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)憂。

總結(jié)

本文從性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤類型四個(gè)角度評(píng)估了ChatGPT的信息抽取能力，結(jié)論如下：

性能本文評(píng)估了ChatGPT在zero-shot、few-shot和chain-of-thought場(chǎng)景下的17個(gè)數(shù)據(jù)集和14個(gè)IE子任務(wù)上的性能，發(fā)現(xiàn)ChatGPT和SOTA結(jié)果之間存在巨大的性能差距。

評(píng)估標(biāo)準(zhǔn) 本文重新審視了性能差距，發(fā)現(xiàn)硬匹配策略不適合評(píng)估ChatGPT，因?yàn)镃hatGPT會(huì)產(chǎn)生human-like的回復(fù)，并提出軟匹配策略，以更準(zhǔn)確地評(píng)估ChatGPT的性能。

魯棒性 本文從四個(gè)角度分析了ChatGPT對(duì)14個(gè)子任務(wù)的魯棒性，包括無效輸出、無關(guān)上下文、目標(biāo)類型的頻率和錯(cuò)誤類型并得出以下結(jié)論：1）ChatGPT很少輸出無效響應(yīng)；2）無關(guān)上下文和長尾目標(biāo)類型極大地影響了ChatGPT的性能；3）ChatGPT不能很好地理解RE任務(wù)中的主客體關(guān)系。

錯(cuò)誤類型 通過人工檢查，本文分析了ChatGPT的錯(cuò)誤，總結(jié)出7種類型，包括Missing spans、Unmentioned spans、Unannotated spans、Incorrect span offsets、Undefined types、Incorrect types和other。發(fā)現(xiàn)“Unannotated spans”是最主要的錯(cuò)誤類型。這引發(fā)了大家對(duì)之前標(biāo)注數(shù)據(jù)質(zhì)量的擔(dān)心，同時(shí)也表明利用ChatGPT標(biāo)記數(shù)據(jù)的可能性。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30894

瀏覽量
269085
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24701
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121162
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1089

瀏覽量
6510
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1561

瀏覽量
7670

原文標(biāo)題：ChatGPT能解決信息抽取嗎？一份關(guān)于性能、評(píng)估標(biāo)準(zhǔn)、魯棒性和錯(cuò)誤的分析

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

文本信息抽取的分階段詳細(xì)介紹

文本信息是有具體的單元結(jié)構(gòu)組成，包括句子，段落，篇章。文本信息抽取是指對(duì)現(xiàn)有文本數(shù)據(jù)進(jìn)行信息抽取的過程，

發(fā)表于 09-16 15:03

科技大廠競(jìng)逐AIGC，中國的ChatGPT在哪？

來看，國內(nèi)大模型開發(fā)廠商一是布局以大模型為基礎(chǔ)的通用對(duì)話、生成等能力；二是將其能力整合到搜索引擎、智能客服、智能音箱等產(chǎn)品線中；三是通過能力調(diào)用為中小企業(yè)滿足具體場(chǎng)景落地需求?！倍瓡燥w說。隨著

發(fā)表于 03-03 14:28

基于子樹廣度的Web信息抽取

提出一種新的網(wǎng)頁信息抽取方法，基于子樹的廣度可不加區(qū)分地對(duì)不同科技文獻(xiàn)網(wǎng)站的頁面信息進(jìn)行自動(dòng)抽取。對(duì)大量科技文獻(xiàn)網(wǎng)站進(jìn)行信息

發(fā)表于 03-28 10:03 ?14次下載

基于重復(fù)模式的自動(dòng)Web信息抽取

互聯(lián)網(wǎng)上存在很多在線購物網(wǎng)站，抽取這類網(wǎng)站頁面里的商品信息可以為電子商務(wù)、Web查詢提供增值服務(wù)。該文針對(duì)這類網(wǎng)站提出一種自動(dòng)的Web信息抽取方法，通過檢測(cè)網(wǎng)頁中的重

發(fā)表于 04-10 09:33 ?11次下載

基于XML的WEB信息抽取模型設(shè)計(jì)

對(duì)現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究，在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型，它能夠把Web 上的數(shù)據(jù)抽取出來整合到

發(fā)表于 12-22 13:56 ?17次下載

基于WebHarvest的健康領(lǐng)域Web信息抽取方法

針對(duì)Web信息抽取（WIE）技術(shù)在健康領(lǐng)域應(yīng)用的問題，提出了一種基于WebHarvest的健康領(lǐng)域Web信息抽取方法。通過對(duì)不同健康網(wǎng)站的結(jié)構(gòu)分析設(shè)計(jì)健康實(shí)體的

發(fā)表于 12-26 13:44 ?0次下載

節(jié)點(diǎn)屬性的海量Web信息抽取方法

為解決大數(shù)據(jù)場(chǎng)景下從海量Web頁面中抽取有價(jià)值的信息，提出了一種基于節(jié)點(diǎn)屬性與正文內(nèi)容的海量Web信息抽取方法。將Web頁面轉(zhuǎn)化為DOM樹表示，并提出剪枝與融合算法，對(duì)DOM樹進(jìn)行簡(jiǎn)化

發(fā)表于 02-06 14:36 ?0次下載

抽取式摘要方法中如何合理設(shè)置抽取單元？

本期導(dǎo)讀：文本摘要技術(shù)（Text Summarization）是信息爆炸時(shí)代，提升人們獲取有效信息效率的關(guān)鍵技術(shù)之一，如何從冗余、非結(jié)構(gòu)化的長文本中提煉出關(guān)鍵信息，構(gòu)成精簡(jiǎn)通順的摘要，是文本摘要

發(fā)表于 05-03 18:23 ?1632次閱讀

了解信息抽取必須要知道關(guān)系抽取

當(dāng)我們拿到一個(gè)信息抽取的任務(wù)，需要明確我們抽取的是什么，”今天天氣真冷“，我們要抽的天氣的狀態(tài)天氣-狀態(tài)-冷，而非今天-氣候-冷(雖然也可以這樣抽)，因此一般會(huì)首先定義好我們要抽取的

發(fā)表于 04-15 14:32 ?2068次閱讀

基于篇章信息和Bi-GRU的事件抽取綜述

事件抽取是信息抽取中一個(gè)重要的研究方向，其中事件檢測(cè)是事件抽取的關(guān)鍵。目前，中文神經(jīng)網(wǎng)絡(luò)事件檢測(cè)方法均是基于句子的方法，這種方法獲得的局部上下文的信

發(fā)表于 04-23 15:35 ?3次下載

面向知識(shí)圖譜的信息抽取

摘要: 隨著大數(shù)據(jù)時(shí)代的到來，海量數(shù)據(jù)不斷涌現(xiàn)，從中尋找有用信息，抽取對(duì)應(yīng)知識(shí)的需求變得越來越強(qiáng)烈。針對(duì)該需求，知識(shí)圖譜技術(shù)應(yīng)運(yùn)而生，并在實(shí)現(xiàn)知識(shí)互聯(lián)的過程中日益發(fā)揮重要作用。信息抽取

發(fā)表于 03-22 16:59 ?915次閱讀

如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出

信息抽取任務(wù)包括命名實(shí)體識(shí)別（NER）、關(guān)系抽取（RE）、事件抽取（EE）等各種各樣的任務(wù)。

發(fā)表于 09-20 15:25 ?1299次閱讀

10分鐘教你如何ChatGPT最詳細(xì)注冊(cè)教程

ChatGPT 以其強(qiáng)大的信息整合和對(duì)話能力驚艷了全球，在自然語言處理上面表現(xiàn)出了驚人的能力。這么強(qiáng)大的工具我們都想體驗(yàn)一下，那么? ChatGPT

發(fā)表于 02-08 14:46 ?108次下載

微信接入ChatGPT 利用ChatGPT的對(duì)話能力

　　當(dāng)前ChatGPT是一個(gè)爆火的項(xiàng)目，近來瀏覽 Github 的時(shí)候，發(fā)現(xiàn)一個(gè)好玩的項(xiàng)目：微信接入ChatGPT，利用ChatGPT的對(duì)話能力，實(shí)現(xiàn)微信的自動(dòng)聊天回復(fù)。　　在

發(fā)表于 02-13 10:31 ?3次下載

ChatGPT Plus怎么支付開通ChatGPT plus有什么功能？

ChatGPT Plus怎么支付?探索AI的未來——ChatGPT 4.0開通付費(fèi)教程在人工智能的世界里，OpenAI的ChatGPT 4.0就像一顆璀璨的星星?，以其卓越的自然語言

發(fā)表于 10-10 16:01 ?4761次閱讀