0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SuperGLUE正式上線:NLP模型們,來迎接挑戰(zhàn)吧!

DPVg_AI_era ? 來源:lq ? 2019-09-13 16:51 ? 次閱讀

Facebook AI Research、Google DeepMind、華盛頓大學(xué)和紐約大學(xué)合作,共同推出了SuperGLUE,這是一系列用來衡量現(xiàn)代高性能語言理解AI表現(xiàn)的基準(zhǔn)測試任務(wù),SuperGLUE針對(duì)的是已經(jīng)達(dá)到挑戰(zhàn)上限的會(huì)話式AI深度學(xué)習(xí)模型,為其提供更難的挑戰(zhàn),其比GLUE基準(zhǔn)任務(wù)更負(fù)責(zé),旨在構(gòu)建能處理更加復(fù)雜和掌握更細(xì)微差別的語言模型。

目前NLP主要著眼在多任務(wù)學(xué)習(xí)和語言模型預(yù)訓(xùn)練,從而孕育出各種模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評(píng)估這些模型的精準(zhǔn)度,GLUE基準(zhǔn)應(yīng)運(yùn)而生。

SuperGLUE正式上線:NLP模型們,來迎接挑戰(zhàn)吧!

GLUE全稱是通用語言理解評(píng)估(General Language Understanding Evaluation),基于已有的9種英文語言理解任務(wù),涵蓋多種數(shù)據(jù)集大小、文本類型和難度。終極目標(biāo)是推動(dòng)研究,開發(fā)通用和強(qiáng)大的自然語言理解系統(tǒng)。

但隨著NLP模型狂飆似的發(fā)展速度,僅推出一年時(shí)間的GLUE基準(zhǔn),已經(jīng)顯得有些力不從心。于是,F(xiàn)acebook AI研究院、谷歌DeepMind、華盛頓大學(xué)以及紐約大學(xué)4家公司和高校開始攜手打造進(jìn)化版新基準(zhǔn):SuperGLUE!

近日,進(jìn)化后的基準(zhǔn)也正式宣布上線,可供大家使用了!

地址:

https://gluebenchmark.com

因?yàn)锽ERT在GLUE上是當(dāng)前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準(zhǔn)。

什么是SuperGLUE?

如果你搜索SuperGLUE,出現(xiàn)在首頁的一定的各種膠水。這也是科技公司在給產(chǎn)品起名時(shí)特別喜歡玩兒的一個(gè)梗:利用命名的首字母縮寫成為一個(gè)十分普通、十分常見的英文單詞,這個(gè)單詞經(jīng)常和實(shí)際的科技產(chǎn)品毫不相關(guān)。

實(shí)際上,我們今天要介紹的SuperGLUE,全稱是超(級(jí))通用語言理解評(píng)估(Super General-Purpose Language Understanding Evaluation)。

據(jù)SuperGLUE團(tuán)隊(duì)介紹,為了獲得更強(qiáng)悍的任務(wù)集,他們向各個(gè)NLP社區(qū)發(fā)出了征集令,并最終獲得一個(gè)包含約30種不同NLP任務(wù)的列表。隨后按照如下標(biāo)準(zhǔn)篩選:

任務(wù)本質(zhì):即測試系統(tǒng)理解英語的能力

任務(wù)難度:即超出當(dāng)前最先進(jìn)模型的能力

可評(píng)估性:具備自動(dòng)評(píng)斷機(jī)制,同時(shí)還需要能夠準(zhǔn)確對(duì)應(yīng)人類的判斷或表現(xiàn)

公開數(shù)據(jù):擁有可公開的數(shù)據(jù)

任務(wù)格式:提升輸入值的復(fù)雜程度,允許出現(xiàn)復(fù)雜句子、段落和文章等

任務(wù)許可:所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可

最終獲得一個(gè)包含7個(gè)任務(wù)的集合。然后,以這7個(gè)任務(wù)為基礎(chǔ)構(gòu)建公開排行榜。

此外,SuperGLUE還包含基于已有數(shù)據(jù)的抽取、單個(gè)數(shù)值的表現(xiàn)指標(biāo),以及一套分析工具包jiant。 下載地址: https://jiant.info/

相比GLUE有哪些變化?效果如何?

進(jìn)化后的新基準(zhǔn),難度有了大幅提升,應(yīng)對(duì)起當(dāng)前這些發(fā)育迅猛的NLP模型更加得心應(yīng)手,從而可以鼓勵(lì)構(gòu)建能夠掌握更復(fù)雜,或具有更細(xì)微差別的語言的模型。

相比上一代GLUE,首先研究人員向原有的11項(xiàng)任務(wù)開刀,直接砍掉其中的9項(xiàng),并對(duì)剩下的2項(xiàng)任務(wù)進(jìn)行了升級(jí),這兩項(xiàng)任務(wù)分別是識(shí)別文本蘊(yùn)涵(RTE)和Winograd模式挑戰(zhàn)賽(WSC)。

之后,5項(xiàng)新的評(píng)估基準(zhǔn)也被添加進(jìn)來,用于測試模型在回答問題、指代消解和常識(shí)推理方面的能力。這5項(xiàng)新任務(wù)分別是:CB,COPA,GAP,MultiRC和WiC。

初始的SuperGLUE基準(zhǔn)版本包含了人類水平估計(jì)結(jié)果,擴(kuò)展了GLUE中的句子和句子的分類,還包含了共指消解、句子完成和問答

SuperGLUE任務(wù)集合比較多樣化,為了幫助研究者能夠開發(fā)出統(tǒng)一的新方法,SuperGLUE團(tuán)隊(duì)還貼心的為研究人員提供了一套基于PyTorch和AllenNLP、用來操作NLP的預(yù)訓(xùn)練、多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)的模塊化建模工具包。

此外,因?yàn)榭紤]到公平性、信息的豐富性,管理SuperGLUE排行榜的規(guī)則也有很多地方和GLUE有所區(qū)別,以期能充分體現(xiàn)數(shù)據(jù)和任務(wù)創(chuàng)建者的貢獻(xiàn)。

研究人員用主流NLP模型對(duì)新基準(zhǔn)進(jìn)行了測試,效果如下圖:

任務(wù)示例:

值得一提的是,即使是當(dāng)前最先進(jìn)的BERT模型,量化后的綜合分?jǐn)?shù),比人類低了約16.8%。這樣的表現(xiàn),恐怕只能勉強(qiáng)算過得去而已。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    527

    瀏覽量

    10289
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24727
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22052

原文標(biāo)題:超難NLP新基準(zhǔn)SuperGLUE正式發(fā)布:橫掃SOTA模型BERT勉強(qiáng)過關(guān)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何評(píng)估AI大模型的效果

    評(píng)估AI大模型的效果是一個(gè)復(fù)雜且多維度的過程,涉及多個(gè)方面的考量。以下是一些關(guān)鍵的評(píng)估方法和步驟: 一、基準(zhǔn)測試(Benchmarking) 使用標(biāo)準(zhǔn)數(shù)據(jù)集和任務(wù)評(píng)估模型的性能,如GLUE
    的頭像 發(fā)表于 10-23 15:21 ?1118次閱讀

    AI大模型在自然語言處理中的應(yīng)用

    AI大模型在自然語言處理(NLP)中的應(yīng)用廣泛且深入,其強(qiáng)大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對(duì)AI大模型NLP
    的頭像 發(fā)表于 10-23 14:38 ?495次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺(tái)上正式上線。該模型包括Meta首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMak
    的頭像 發(fā)表于 10-11 18:08 ?462次閱讀

    模型發(fā)展下,國產(chǎn)GPU的機(jī)會(huì)和挑戰(zhàn)

    電子發(fā)燒友網(wǎng)站提供《大模型發(fā)展下,國產(chǎn)GPU的機(jī)會(huì)和挑戰(zhàn).pdf》資料免費(fèi)下載
    發(fā)表于 07-18 15:44 ?10次下載
    大<b class='flag-5'>模型</b>發(fā)展下,國產(chǎn)GPU的機(jī)會(huì)和<b class='flag-5'>挑戰(zhàn)</b>

    大語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識(shí),為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大語言模型
    的頭像 發(fā)表于 07-11 10:11 ?439次閱讀

    nlp邏輯層次模型的特點(diǎn)

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計(jì)算模型。它將自然語言文本分解為不同的層次,以便于計(jì)算機(jī)更好地處理和理解。以下是對(duì)NLP邏輯層次
    的頭像 發(fā)表于 07-09 10:39 ?408次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    改變我們的行為和情感。NLP的目標(biāo)是幫助人們實(shí)現(xiàn)自我改進(jìn),提高溝通技巧,增強(qiáng)領(lǐng)導(dǎo)力和解決問題的能力。 NLP的主要組成部分包括: 感知:了解我們?nèi)绾谓邮蘸吞幚硇畔ⅰ?語言:研究我們?nèi)绾问褂谜Z言
    的頭像 發(fā)表于 07-09 10:35 ?796次閱讀

    nlp自然語言處理基本概念及關(guān)鍵技術(shù)

    、問答系統(tǒng)、文本摘要等眾多領(lǐng)域有著廣泛的應(yīng)用。 1. NLP的基本概念 1.1 語言模型 語言模型NLP的基礎(chǔ),它用于描述一個(gè)句子在自然語言中出現(xiàn)的概率。語言
    的頭像 發(fā)表于 07-09 10:32 ?642次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP)任務(wù)。LLM模型的格式多種多樣,以下是一些常見的LLM
    的頭像 發(fā)表于 07-09 09:59 ?655次閱讀

    nlp自然語言處理模型怎么做

    的進(jìn)展。本文將詳細(xì)介紹NLP模型的構(gòu)建過程,包括數(shù)據(jù)預(yù)處理、模型選擇、訓(xùn)練與優(yōu)化等方面。 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是NLP模型構(gòu)建的第一步,其
    的頭像 發(fā)表于 07-05 09:59 ?659次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語言。以下是對(duì)NLP領(lǐng)域一些模型的介紹
    的頭像 發(fā)表于 07-05 09:57 ?766次閱讀

    NLP技術(shù)在機(jī)器人中的應(yīng)用

    人類語言的能力,還使得機(jī)器人能夠以更加自然、流暢的方式與人類進(jìn)行交互,從而在服務(wù)、教育、醫(yī)療、娛樂等多個(gè)領(lǐng)域展現(xiàn)出巨大的潛力和價(jià)值。本文將從NLP技術(shù)在機(jī)器人中的應(yīng)用現(xiàn)狀、核心技術(shù)、應(yīng)用場景、面臨的挑戰(zhàn)及未來發(fā)展趨勢等方面進(jìn)行深入探討。
    的頭像 發(fā)表于 07-04 16:04 ?516次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢,適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN
    的頭像 發(fā)表于 07-03 15:59 ?552次閱讀

    模型,為什么非得和「弱智」過不去?

    國產(chǎn)AI大模型訓(xùn)練的出路或許不止「弱智」!
    的頭像 發(fā)表于 04-25 13:38 ?550次閱讀
    大<b class='flag-5'>模型</b>,為什么非得和「弱智<b class='flag-5'>吧</b>」過不去?

    臺(tái)灣晶圓代工廠世界先進(jìn)預(yù)測2024年業(yè)績將優(yōu)于2023年

    關(guān)于競爭加劇問題,方略強(qiáng)調(diào),由于其他企業(yè)連續(xù)擴(kuò)大產(chǎn)量,這一點(diǎn)在成熟制程市場尤為明顯。然而,無論何時(shí)何地,競爭都是不可避免的,而世界先進(jìn)正通過增強(qiáng)自身實(shí)力迎接挑戰(zhàn)。此外,他還提到,考慮到員工的辛勤付出,公司計(jì)劃在2024年繼續(xù)
    的頭像 發(fā)表于 01-12 10:01 ?581次閱讀