0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Instruct-UIE:信息抽取統(tǒng)一大模型

深度學(xué)習(xí)自然語言處理 ? 來源:FudanNLP ? 2023-04-25 10:46 ? 次閱讀

復(fù)旦大學(xué)自然語言處理實驗室桂韜、張奇課題組發(fā)布信息抽取統(tǒng)一大模型 Instruct-UIE,在領(lǐng)域大模型上取得突破性進展。Instruct-UIE 在信息抽取精度上全面大幅度超越ChatGPT以及基于預(yù)訓(xùn)練微調(diào)的單一小模型。

自2022年11月 ChatGPT 橫空出世以來,其在對話、閱讀理解、對話、代碼生成等方面優(yōu)異性能,受到了極大的關(guān)注。大模型所展現(xiàn)出來的長文本建模能力以及多任務(wù)統(tǒng)一學(xué)習(xí)能力使得自然語言處理范式正在發(fā)生快速變革。

在對 GPT 系列工作進行了詳細分析[1][2]后,我們發(fā)現(xiàn)雖然 ChatGPT 在很多任務(wù)上都展現(xiàn)出了良好的性能,但是在包括命名實體識別、關(guān)系抽取、事件抽取等在工業(yè)界有廣泛應(yīng)用的信息抽取任務(wù)上效果卻亟待提升。ChatGPT 在某些命名實體識別數(shù)據(jù)集合上的的精度甚至只有不到20%。但是大模型所展示出來的多任務(wù)統(tǒng)一學(xué)習(xí)能力,驅(qū)使我們針對信息抽取領(lǐng)域的統(tǒng)一大模開展了深入研究。

ae761038-ddc5-11ed-bfe3-dac502259ad0.png

實 驗 結(jié) 果

針對信息抽取任務(wù),我們收集了包括 ACE 2005、ConLL 2003 等在內(nèi)的41種評測集合,針對Flan-T5、Bloomz、LLama 等大模型進行了系統(tǒng)研究,構(gòu)建了信息抽取統(tǒng)一大模型Instruct-UIE。該模型在絕大部分信息抽取任務(wù)中(85%以上)都超越了單個小模型的預(yù)訓(xùn)練微調(diào)結(jié)果。

ae7bf44e-ddc5-11ed-bfe3-dac502259ad0.png

Instruct-UIE 統(tǒng)一了信息抽取任務(wù)訓(xùn)練方法,可以融合不同類型任務(wù)以及不同的標(biāo)注規(guī)范,統(tǒng)一進行訓(xùn)練。針對新的任務(wù)需求,僅需要少量的數(shù)據(jù)進行增量式學(xué)習(xí),即可完成模型的升級。

ae9af2cc-ddc5-11ed-bfe3-dac502259ad0.png

小模型時代任務(wù),模型開發(fā)需要經(jīng)過標(biāo)注數(shù)據(jù),訓(xùn)練模型,模型評測和模型部署等多個步驟。其顯著缺點是成本高、時間周期長;相同任務(wù)的微小需求變化,需要30%-70%的重新開發(fā)成本;模型開發(fā)和維護成本高等問題都極大地制約了自然語言處理產(chǎn)品化。

而在大模型時代,我們可以將大量各類型任務(wù),統(tǒng)一為生成式自然語言理解框架,并構(gòu)造訓(xùn)練語料進行微調(diào)。由于大模型所展現(xiàn)出來的通用任務(wù)理解能力和未知任務(wù)泛化能力,使得未來自然語言處理的研究范式進一步發(fā)生變化。這樣的研究范式使得小模型時代所面臨的問題可以在一定程度上可以得到解決。針對新任務(wù)和需求,基于大模型的方法可以快速訓(xùn)練,并且不需要部署新的模型,從而實現(xiàn)自然語言處理的低成本產(chǎn)品化。

aea67dae-ddc5-11ed-bfe3-dac502259ad0.png

aeb022fa-ddc5-11ed-bfe3-dac502259ad0.png

InstructUIE 工作驗證了領(lǐng)域大模型的可行性,針對B端場景,百億級領(lǐng)域模型具有高效、成本低、可私有化部署等優(yōu)勢,在行業(yè)應(yīng)用中具有廣闊前景。我們將近期開源相關(guān)代碼和模型。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48840
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    618

    瀏覽量

    13561
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1561

    瀏覽量

    7670

原文標(biāo)題:Instruct-UIE:信息抽取統(tǒng)一大模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    文本信息抽取的分階段詳細介紹

    系統(tǒng)基于已有的標(biāo)注構(gòu)建個學(xué)習(xí)模型,并用個條件概率分布進行表示。信息抽取系統(tǒng)則是根據(jù)得到的條件概率分布
    發(fā)表于 09-16 15:03

    基于子樹廣度的Web信息抽取

    提出種新的網(wǎng)頁信息抽取方法,基于子樹的廣度可不加區(qū)分地對不同科技文獻網(wǎng)站的頁面信息進行自動抽取。對大量科技文獻網(wǎng)站進行
    發(fā)表于 03-28 10:03 ?14次下載

    基于XML的WEB信息抽取模型設(shè)計

    對現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究,在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數(shù)據(jù)
    發(fā)表于 12-22 13:56 ?17次下載

    基于HMM和小波神經(jīng)網(wǎng)絡(luò)混合模型的Web信息抽取_李少天

    基于HMM和小波神經(jīng)網(wǎng)絡(luò)混合模型的Web信息抽取_李少天
    發(fā)表于 03-19 11:38 ?0次下載

    使用神經(jīng)網(wǎng)絡(luò)進行微博情緒識別與誘因抽取聯(lián)合模型的說明

    文本中表情符通常表達文本的情緒,提出了種基于雙向長短期記憶條件隨機場( Bi-LSTM-CRF)模型的情緒誘因和表情符情緒識別的聯(lián)合模型。該模型將情緒誘因
    發(fā)表于 12-26 14:58 ?0次下載

    模型NLP事件抽取方法總結(jié)

    : Event Extraction as Definition Comprehension, EMNLP 2020[1] 動機 提出種新穎的事件抽取方法,為模型提供帶有漂白語句(實體用通用的方式指代)的
    的頭像 發(fā)表于 12-31 10:19 ?1w次閱讀
    <b class='flag-5'>模型</b>NLP事件<b class='flag-5'>抽取</b>方法總結(jié)

    了解信息抽取必須要知道關(guān)系抽取

    當(dāng)我們拿到信息抽取的任務(wù),需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態(tài)天氣-狀態(tài)-冷,而非 今天-氣候-冷(雖然也可以這樣抽),因此
    的頭像 發(fā)表于 04-15 14:32 ?2068次閱讀
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必須要知道關(guān)系<b class='flag-5'>抽取</b>

    基于篇章信息和Bi-GRU的事件抽取綜述

    事件抽取信息抽取個重要的研究方向,其中事件檢測是事件抽取的關(guān)鍵。目前,中文神經(jīng)網(wǎng)絡(luò)事件檢測方法均是基于句子的方法,這種方法獲得的局部上
    發(fā)表于 04-23 15:35 ?3次下載
    基于篇章<b class='flag-5'>信息</b>和Bi-GRU的事件<b class='flag-5'>抽取</b>綜述

    統(tǒng)一的文本到結(jié)構(gòu)生成框架——UIE

    眾所周知,信息抽取(IE)是個從文本到結(jié)構(gòu)的轉(zhuǎn)換過程。常見的實體、關(guān)系、事件分別采取Span、Triplet、Record形式的異構(gòu)結(jié)構(gòu)。
    的頭像 發(fā)表于 04-13 09:54 ?3382次閱讀

    如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出

    信息抽取任務(wù)包括命名實體識別(NER)、關(guān)系抽取(RE)、事件抽取(EE)等各種各樣的任務(wù)。
    的頭像 發(fā)表于 09-20 15:25 ?1299次閱讀

    基于統(tǒng)一語義匹配的通用信息抽取框架USM

    信息提?。↖nformation Extraction,IE)需要提取句子中的實體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機構(gòu),因此,傳統(tǒng)的方法需要針對特定的任務(wù)進行模型設(shè)計和數(shù)據(jù)標(biāo)注,使得難以推廣到新的模式中,極
    的頭像 發(fā)表于 01-16 10:21 ?1121次閱讀

    介紹信息抽取的大統(tǒng)方法USM

    信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu),而傳統(tǒng)的模型需要針對特定的任務(wù)進行任務(wù)設(shè)計和標(biāo)簽標(biāo)注,這樣非常的耗時耗力。
    的頭像 發(fā)表于 02-15 14:13 ?825次閱讀

    基于統(tǒng)一語義匹配的通用信息抽取框架-USM

    信息提?。↖nformation Extraction,IE)需要提取句子中的實體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機構(gòu),因此,傳統(tǒng)的方法需要針對特定的任務(wù)進行模型設(shè)計和數(shù)據(jù)標(biāo)注,使得難以推廣到新的模式中,極
    的頭像 發(fā)表于 02-22 11:09 ?853次閱讀
    基于<b class='flag-5'>統(tǒng)一</b>語義匹配的通用<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>框架-USM

    最佳開源模型刷新多項SOTA,首次超越Mixtral Instruct!「開源版GPT-4」家族迎來大爆發(fā)

    Mixtral 8x7B模型開源后,AI社區(qū)再次迎來一大波微調(diào)實踐。來自Nous Research應(yīng)用研究小組團隊微調(diào)出新代大模型Nous-Hermes 2 Mixtral 8x7B
    的頭像 發(fā)表于 01-30 15:29 ?939次閱讀
    最佳開源<b class='flag-5'>模型</b>刷新多項SOTA,首次超越Mixtral <b class='flag-5'>Instruct</b>!「開源版GPT-4」家族迎來大爆發(fā)

    Stability AI發(fā)布Stable Code Instruct 3B大語言模型,可編譯多種編程語言

    據(jù)報道,Stability AI公司近期推出了適配程序員使用的Stable Code Instruct 3B大語言模型,此款模型的顯著特點是能夠?qū)崿F(xiàn)編程語言間的自如切換。
    的頭像 發(fā)表于 03-27 10:04 ?497次閱讀