如果把中學(xué)生的英語閱讀理解選擇題讓AI來做,會做出什么水平?近日,上交大團(tuán)隊(duì)訓(xùn)練的“雙向協(xié)同匹配網(wǎng)絡(luò)”(DCMN)取得了74%的正確率。盡管和人類學(xué)生相比只能算馬馬虎虎,但對AI來說,這已經(jīng)達(dá)到了目前的最高水平。
目前,在英語考試的閱讀理解上,AI雖然無法擊敗更有能力的人類學(xué)生,但它仍然是衡量機(jī)器對語言理解能力的最佳量度之一。
近日,上海交通大學(xué)的趙海團(tuán)隊(duì)對AI模型進(jìn)行了超過25000次英語閱讀理解測試訓(xùn)練。訓(xùn)練材料和中國現(xiàn)行英語水平考試的閱讀理解形式類似,每篇文章大約200到300個(gè)詞,文后是一系列與文章內(nèi)容相關(guān)的多項(xiàng)選擇題。這些測試來自針對12至18歲中國學(xué)生的英語水平考試。
雖然這些問題有些可以在文中找到答案,但其中一半以上的題目仍需要一定程度的推理。例如,有些問題會要求從四個(gè)選項(xiàng)中選出文章的“最佳標(biāo)題”。在訓(xùn)練結(jié)束后,AI參加了測試,其中包括1400次以前從未見過的考試。綜合得分為74分(百分制),優(yōu)于之前的所有機(jī)器測試。
上交大的AI系統(tǒng)可以識別與問題相關(guān)的文章相關(guān)部分,然后選出在含義上和邏輯上最相似的答案。在測試中排名第二的是騰訊的AI系統(tǒng),在同一次考試中得分為72分。騰訊的AI學(xué)會了比較每個(gè)選項(xiàng)中包含的信息,并將不同選項(xiàng)間的信息差異作為提示,在文章中尋找證據(jù)。
目前最厲害的AI,閱讀理解只能得個(gè)C+
盡管在測試中分?jǐn)?shù)處于領(lǐng)先,趙海團(tuán)隊(duì)仍在努力提高AI系統(tǒng)的能力?!叭绻麖恼嫒藢W(xué)生的視角來看,我們的AI的表現(xiàn)也就是一般水平,最多得個(gè)C+,”他說?!皩τ谀切┫脒M(jìn)入中國優(yōu)秀大學(xué)的學(xué)生來說,他們的目標(biāo)是90分。”
為了提高分?jǐn)?shù),團(tuán)隊(duì)將嘗試修改AI,以便理解嵌入在句子結(jié)構(gòu)中的信息,并為AI提供更多數(shù)據(jù),擴(kuò)大其詞匯量。
如何理解人類的語言,一直是AI領(lǐng)域的一個(gè)主要問題,因?yàn)檫@種理解通常是不精確的,這個(gè)問題涉及機(jī)器難以掌握的隱含語境信息和社會線索問題。
卡內(nèi)基梅隆大學(xué)的GuokunLai表示,目前我們?nèi)圆磺宄嗀I在學(xué)習(xí)我們的語言時(shí)會遵循什么規(guī)則,“不過在閱讀了大量的句子和文章之后,AI似乎能夠理解我們的邏輯?!?/p>
該研究的相關(guān)論文已經(jīng)發(fā)表在Arxiv上,以下是論文的主要內(nèi)容:
讓AI做閱讀理解是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要復(fù)雜的推理過程。AI需要從一組候選答案中選擇正確的答案。本文提出雙重協(xié)同匹配網(wǎng)絡(luò)(DCMN),該網(wǎng)絡(luò)可以雙向地模擬通道,問題和答案之間的關(guān)系。
與僅就問題感知或選擇性文章表示進(jìn)行計(jì)算的現(xiàn)有方法不同,DCMN能夠計(jì)算文章感知問題表示和文章感知答案表示。為了證明DCMN模型的有效性,我們在大型閱讀理解數(shù)據(jù)集(即RACE)上評估了模型。結(jié)果表明,該模型達(dá)到了目前AI閱讀理解的最高水平。
機(jī)器閱讀理解和問答已經(jīng)成為評估自然語言處理和理解領(lǐng)域人工智能系統(tǒng)進(jìn)展的關(guān)鍵應(yīng)用問題。計(jì)算語言學(xué)界對機(jī)器閱讀理解和問答的一般問題給予了極大的關(guān)注。
本文主要關(guān)注選擇題閱讀理解數(shù)據(jù)集,如RACE,該數(shù)據(jù)集中每個(gè)問題后都帶有一組答案選項(xiàng)。大多數(shù)問題的正確答案可能不會在原文中完全復(fù)現(xiàn),問題類型和范圍也更加豐富和廣泛,比如涉及某一段落的提要和對文章作者態(tài)度的分析。
這需要AI能夠更深入地了解文章內(nèi)容,并利用外部世界知識來回答這些問題。此外,與傳統(tǒng)的閱讀理解問題相比,我們需要充分考慮通過文章-問題-答案三者之間的關(guān)系,而不僅僅是問題-答案的配對。
新模型DCMN:在文章、問題、答案三者之間建立聯(lián)系
DCMN模型可以將問題-答案與給定文章內(nèi)容進(jìn)行雙向匹配,利用了NLP領(lǐng)域的最新突破——BERT進(jìn)行上下文嵌入。在介紹BERT的原論文中提到,對應(yīng)于第一輸入令牌(CLS)的最終隱藏向量被用作聚合表示,然后利用分類層計(jì)算標(biāo)準(zhǔn)分類損失。
我們認(rèn)為這種方法太粗糙,無法處理文章-問題-答案的三者關(guān)系組合,因?yàn)檫@種方法只是粗略地將文章-問題的聯(lián)系作為第一序列,將問題作為第二序列,沒有考慮問題和文章內(nèi)容之間的關(guān)系。因此,我們提出了一種新方法來模擬文章、問題和候選答案之間的關(guān)系。
使用BERT作為編碼層,分別得到文章、問題和答案選項(xiàng)的上下文表示。
構(gòu)造匹配層以獲得文章-問題-答案三者之間匹配表示,對問題在文章中對應(yīng)的位置信息與特定上下文匹配的候選答案進(jìn)行編碼。
對從字級到序列級的匹配表示應(yīng)用層次聚合方法,然后從序列級到文檔級應(yīng)用。
我們的模型在BERT模型的基礎(chǔ)上,于RACE數(shù)據(jù)集上將當(dāng)前最高得分提高了2.6個(gè)百分點(diǎn),并使用大規(guī)模BERT模型進(jìn)一步將得分提高了3個(gè)百分點(diǎn)。
實(shí)驗(yàn)及測試結(jié)果
在RACE數(shù)據(jù)集上對模型進(jìn)行了評估。這個(gè)數(shù)據(jù)集由兩個(gè)子集組成:RACE-M和RACE-H。RACE-M來自初中考試試題,RACE-H來自高中考試試題。RACE是這兩者的結(jié)合。我們將我們的模型與以下基線方法進(jìn)行了比較:MRU(多范圍推理),DFN(動態(tài)融合網(wǎng)絡(luò)),HCM(等級協(xié)同匹配),OFT(OpenAI微調(diào)語言轉(zhuǎn)換模型),RSM(閱讀策略模型)。
我們還將我們的模型與BERT基線進(jìn)行比較,并實(shí)現(xiàn)BERT原論文(2018)中描述的方法,該方法使用對應(yīng)于第一個(gè)輸入標(biāo)記([CLS])的最終隱藏向量作為聚合表示,然后是分類層,最后計(jì)算標(biāo)準(zhǔn)分類損失。測試結(jié)果如上表所示。
我們可以看到BERT基線模型的性能非常接近先前的最高水平,而大型BERT模型的表現(xiàn)甚至超過了之前SOTA水平3.7%。但是實(shí)驗(yàn)結(jié)果表明,我們的DCMN模型更強(qiáng)大,將最高得分進(jìn)一步分別提升了2.2%。
-
AI
+關(guān)注
關(guān)注
87文章
31123瀏覽量
269445 -
人工智能
+關(guān)注
關(guān)注
1792文章
47420瀏覽量
238933 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24737
原文標(biāo)題:最強(qiáng)AI挑戰(zhàn)中國英語閱讀理解:只得70多分,不如中等生
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論