Facebook AI Research、Google DeepMind、華盛頓大學(xué)和紐約大學(xué)合作,共同推出了SuperGLUE,這是一系列用來衡量現(xiàn)代高性能語言理解AI表現(xiàn)的基準(zhǔn)測試任務(wù),SuperGLUE針對(duì)的是已經(jīng)達(dá)到挑戰(zhàn)上限的會(huì)話式AI深度學(xué)習(xí)模型,為其提供更難的挑戰(zhàn),其比GLUE基準(zhǔn)任務(wù)更負(fù)責(zé),旨在構(gòu)建能處理更加復(fù)雜和掌握更細(xì)微差別的語言模型。
目前NLP主要著眼在多任務(wù)學(xué)習(xí)和語言模型預(yù)訓(xùn)練,從而孕育出各種模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評(píng)估這些模型的精準(zhǔn)度,GLUE基準(zhǔn)應(yīng)運(yùn)而生。
SuperGLUE正式上線:NLP模型們,來迎接挑戰(zhàn)吧!
GLUE全稱是通用語言理解評(píng)估(General Language Understanding Evaluation),基于已有的9種英文語言理解任務(wù),涵蓋多種數(shù)據(jù)集大小、文本類型和難度。終極目標(biāo)是推動(dòng)研究,開發(fā)通用和強(qiáng)大的自然語言理解系統(tǒng)。
但隨著NLP模型狂飆似的發(fā)展速度,僅推出一年時(shí)間的GLUE基準(zhǔn),已經(jīng)顯得有些力不從心。于是,F(xiàn)acebook AI研究院、谷歌DeepMind、華盛頓大學(xué)以及紐約大學(xué)4家公司和高校開始攜手打造進(jìn)化版新基準(zhǔn):SuperGLUE!
近日,進(jìn)化后的基準(zhǔn)也正式宣布上線,可供大家使用了!
地址:
https://gluebenchmark.com
因?yàn)锽ERT在GLUE上是當(dāng)前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準(zhǔn)。
什么是SuperGLUE?
如果你搜索SuperGLUE,出現(xiàn)在首頁的一定的各種膠水。這也是科技公司在給產(chǎn)品起名時(shí)特別喜歡玩兒的一個(gè)梗:利用命名的首字母縮寫成為一個(gè)十分普通、十分常見的英文單詞,這個(gè)單詞經(jīng)常和實(shí)際的科技產(chǎn)品毫不相關(guān)。
實(shí)際上,我們今天要介紹的SuperGLUE,全稱是超(級(jí))通用語言理解評(píng)估(Super General-Purpose Language Understanding Evaluation)。
據(jù)SuperGLUE團(tuán)隊(duì)介紹,為了獲得更強(qiáng)悍的任務(wù)集,他們向各個(gè)NLP社區(qū)發(fā)出了征集令,并最終獲得一個(gè)包含約30種不同NLP任務(wù)的列表。隨后按照如下標(biāo)準(zhǔn)篩選:
任務(wù)本質(zhì):即測試系統(tǒng)理解英語的能力
任務(wù)難度:即超出當(dāng)前最先進(jìn)模型的能力
可評(píng)估性:具備自動(dòng)評(píng)斷機(jī)制,同時(shí)還需要能夠準(zhǔn)確對(duì)應(yīng)人類的判斷或表現(xiàn)
公開數(shù)據(jù):擁有可公開的數(shù)據(jù)
任務(wù)格式:提升輸入值的復(fù)雜程度,允許出現(xiàn)復(fù)雜句子、段落和文章等
任務(wù)許可:所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可
最終獲得一個(gè)包含7個(gè)任務(wù)的集合。然后,以這7個(gè)任務(wù)為基礎(chǔ)構(gòu)建公開排行榜。
此外,SuperGLUE還包含基于已有數(shù)據(jù)的抽取、單個(gè)數(shù)值的表現(xiàn)指標(biāo),以及一套分析工具包jiant。 下載地址: https://jiant.info/
相比GLUE有哪些變化?效果如何?
進(jìn)化后的新基準(zhǔn),難度有了大幅提升,應(yīng)對(duì)起當(dāng)前這些發(fā)育迅猛的NLP模型更加得心應(yīng)手,從而可以鼓勵(lì)構(gòu)建能夠掌握更復(fù)雜,或具有更細(xì)微差別的語言的模型。
相比上一代GLUE,首先研究人員向原有的11項(xiàng)任務(wù)開刀,直接砍掉其中的9項(xiàng),并對(duì)剩下的2項(xiàng)任務(wù)進(jìn)行了升級(jí),這兩項(xiàng)任務(wù)分別是識(shí)別文本蘊(yùn)涵(RTE)和Winograd模式挑戰(zhàn)賽(WSC)。
之后,5項(xiàng)新的評(píng)估基準(zhǔn)也被添加進(jìn)來,用于測試模型在回答問題、指代消解和常識(shí)推理方面的能力。這5項(xiàng)新任務(wù)分別是:CB,COPA,GAP,MultiRC和WiC。
初始的SuperGLUE基準(zhǔn)版本包含了人類水平估計(jì)結(jié)果,擴(kuò)展了GLUE中的句子和句子的分類,還包含了共指消解、句子完成和問答。
SuperGLUE任務(wù)集合比較多樣化,為了幫助研究者能夠開發(fā)出統(tǒng)一的新方法,SuperGLUE團(tuán)隊(duì)還貼心的為研究人員提供了一套基于PyTorch和AllenNLP、用來操作NLP的預(yù)訓(xùn)練、多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)的模塊化建模工具包。
此外,因?yàn)榭紤]到公平性、信息的豐富性,管理SuperGLUE排行榜的規(guī)則也有很多地方和GLUE有所區(qū)別,以期能充分體現(xiàn)數(shù)據(jù)和任務(wù)創(chuàng)建者的貢獻(xiàn)。
研究人員用主流NLP模型對(duì)新基準(zhǔn)進(jìn)行了測試,效果如下圖:
任務(wù)示例:
值得一提的是,即使是當(dāng)前最先進(jìn)的BERT模型,量化后的綜合分?jǐn)?shù),比人類低了約16.8%。這樣的表現(xiàn),恐怕只能勉強(qiáng)算過得去而已。
-
語言模型
+關(guān)注
關(guān)注
0文章
527瀏覽量
10289 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22052
原文標(biāo)題:超難NLP新基準(zhǔn)SuperGLUE正式發(fā)布:橫掃SOTA模型BERT勉強(qiáng)過關(guān)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論