編者按:今天,卡內(nèi)基梅隆大學(xué)助理教授Zachary C. Lipton推薦了自己的一個有趣研究:讓模型學(xué)會閱讀理解究竟需要多少文本。在之前的ICML 2018研討會上,他和斯坦福大學(xué)研究生Jacob Steinhardt曾撰文痛批學(xué)界“歪風(fēng)”,在學(xué)界引起巨大反響。其中提到的一個弊端就是有些學(xué)者會對“進(jìn)步”錯誤歸因,把調(diào)參獲得的性能改善強加到架構(gòu)調(diào)整上。結(jié)合這篇論文,也許他的研究能讓我們獲得一些見解。
摘要
近期,學(xué)界發(fā)表了不少有關(guān)閱讀理解的論文,它們使用的樣本都是(問題、段落、答案)這樣的三元組。對此,一種常規(guī)的想法是,如果模型的目標(biāo)是預(yù)測相應(yīng)答案,它們就必須結(jié)合來自問題和段落的信息。這是個很有趣的點,但考慮到現(xiàn)在有數(shù)百篇已發(fā)表的論文正在爭奪排行榜第一的寶座,圍繞這些流行基線的基礎(chǔ)問題還是遲遲沒能得到解決。
在本文中,我們?yōu)閎AbI、SQuAD、CBT、CNN和Whodid-What數(shù)據(jù)集構(gòu)建了合理的基線,發(fā)現(xiàn)如果樣本中只包含純問題或純段落,模型的表現(xiàn)通常會很好。用純段落樣本進(jìn)行訓(xùn)練后,模型在14個bAbI問題上取得了高于50%的準(zhǔn)確率(一共20個),其中部分結(jié)果甚至可以媲美正常模型。
另外,我們也發(fā)現(xiàn)了一個奇怪的點:在CBT任務(wù)中,研究人員通常會用一個問題和一個包含前20個句子的段落預(yù)測第21個句子中的缺失詞,但實驗證實,模型可能只需第21句話就能完成預(yù)測。相比之下,CNN和SQuAD這兩個數(shù)據(jù)集似乎構(gòu)造得很好。
數(shù)據(jù)集&基線
實驗結(jié)果
bAbI任務(wù)
下表是基線KV-MemNet在bAbI數(shù)據(jù)集上的具體表現(xiàn),第一行使用的是常規(guī)樣本,包含問題和段落;第二行只使用問題;第三行只使用段落。可以發(fā)現(xiàn),在第2,7,13,20個問題中,用段落訓(xùn)練的模型性能驚人,準(zhǔn)確率在80%以上。在第3,13,16和20個問題中,它的準(zhǔn)確率甚至超過了使用常規(guī)樣本的模型。而在第18個問題中,用問題訓(xùn)練的模型的準(zhǔn)確率也達(dá)到了91%,和正常的93%非常接近。
這個發(fā)現(xiàn)給我們的啟示是,bAbI的某些問題可能并沒有我們想象中那么復(fù)雜。
CBT任務(wù)
CBT任務(wù)的“答案”根據(jù)詞性可分為命名實體(NE)、公共名詞(CN)、動詞(V)、介詞(P)四類,由于后兩種根據(jù)上下文就能預(yù)測,通常我們在閱讀理解問題里會更重視前兩種詞性。
同樣是基線KV-MemNet,如下表所示,這次使用的三類樣本成了三列:如果是預(yù)測NE和CN,使用完整樣本訓(xùn)練的模型準(zhǔn)確率更高,但用了問題的模型和它也很接近;如果是預(yù)測V和P,只用問題訓(xùn)練效果更佳。
那么如果把“段落”從前20個句子改成第21句呢?下表是只用“段落”的實驗結(jié)果,可以發(fā)現(xiàn),用最后一句效果更好,也就是說,它和正常模型的性能更接近。
CNN任務(wù)
在這里,Gated Attention Reader在CNN任務(wù)上的準(zhǔn)確率就差距較大了。這種下降可能是因為實體匿名化導(dǎo)致模型無法構(gòu)建特定于實體的信息。
SQuAD任務(wù)
這個結(jié)果表明,SQuAD這個數(shù)據(jù)集針對閱讀理解任務(wù)做了精心設(shè)計,它最具挑戰(zhàn)性。
討論
從實驗數(shù)據(jù)可知,雖然同屬閱讀理解任務(wù),但這些數(shù)據(jù)集存在不同的缺陷,也有各種漏洞可以鉆。下面是我們?yōu)樵u估新的基線和算法設(shè)想的一些指導(dǎo)原則。這不是在指責(zé)以前的數(shù)據(jù)集制作者,相反地,這些紕漏能為未來的研究提供不小的價值。
提供嚴(yán)格的RC基線:已發(fā)布的RC數(shù)據(jù)集應(yīng)包含表明任務(wù)難度的合理基線,尤其是它們所需的“問題”“段落”信息量,如果沒有這些標(biāo)準(zhǔn),我們就無法知道模型進(jìn)步究竟取決于什么。
測試完整信息的必要性:在需要“問題”信息和“段落”信息的問題中,有時候真正起作用的只是部分信息。就像CBT任務(wù),雖然只有二十幾句話,但是我們用最后一句話就能訓(xùn)練媲美正常性能的模型。每個模型究竟需要多少信息量,這是研究人員應(yīng)該標(biāo)明的。
使用完型填空式的RC數(shù)據(jù)集時,保持謹(jǐn)慎:這類數(shù)據(jù)集通常是由程序批量制造的,很少有人參與。如果用它們訓(xùn)練模型,我們會找不到目前技術(shù)的局限,也排查不了。
此外,各類會議在推薦收錄論文的數(shù)據(jù)集時,也應(yīng)更注重嚴(yán)謹(jǐn)性,而不是只看創(chuàng)新性。
-
模型
+關(guān)注
關(guān)注
1文章
3261瀏覽量
48912 -
基線
+關(guān)注
關(guān)注
0文章
12瀏覽量
7985
原文標(biāo)題:基線調(diào)研:讓模型學(xué)會閱讀理解需要多少信息?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論