0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

流行基線基礎(chǔ)問題遲遲沒能解決,讓模型學(xué)會閱讀理解究竟需要多少文本

zhKF_jqr_AI ? 來源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:43 ? 次閱讀

編者按:今天,卡內(nèi)基梅隆大學(xué)助理教授Zachary C. Lipton推薦了自己的一個有趣研究:讓模型學(xué)會閱讀理解究竟需要多少文本。在之前的ICML 2018研討會上,他和斯坦福大學(xué)研究生Jacob Steinhardt曾撰文痛批學(xué)界“歪風(fēng)”,在學(xué)界引起巨大反響。其中提到的一個弊端就是有些學(xué)者會對“進(jìn)步”錯誤歸因,把調(diào)參獲得的性能改善強加到架構(gòu)調(diào)整上。結(jié)合這篇論文,也許他的研究能讓我們獲得一些見解。

摘要

近期,學(xué)界發(fā)表了不少有關(guān)閱讀理解的論文,它們使用的樣本都是(問題、段落、答案)這樣的三元組。對此,一種常規(guī)的想法是,如果模型的目標(biāo)是預(yù)測相應(yīng)答案,它們就必須結(jié)合來自問題和段落的信息。這是個很有趣的點,但考慮到現(xiàn)在有數(shù)百篇已發(fā)表的論文正在爭奪排行榜第一的寶座,圍繞這些流行基線的基礎(chǔ)問題還是遲遲沒能得到解決。

在本文中,我們?yōu)閎AbI、SQuAD、CBT、CNN和Whodid-What數(shù)據(jù)集構(gòu)建了合理的基線,發(fā)現(xiàn)如果樣本中只包含純問題或純段落,模型的表現(xiàn)通常會很好。用純段落樣本進(jìn)行訓(xùn)練后,模型在14個bAbI問題上取得了高于50%的準(zhǔn)確率(一共20個),其中部分結(jié)果甚至可以媲美正常模型。

另外,我們也發(fā)現(xiàn)了一個奇怪的點:在CBT任務(wù)中,研究人員通常會用一個問題和一個包含前20個句子的段落預(yù)測第21個句子中的缺失詞,但實驗證實,模型可能只需第21句話就能完成預(yù)測。相比之下,CNN和SQuAD這兩個數(shù)據(jù)集似乎構(gòu)造得很好。

數(shù)據(jù)集&基線

流行基線基礎(chǔ)問題遲遲沒能解決,讓模型學(xué)會閱讀理解究竟需要多少文本

實驗結(jié)果

bAbI任務(wù)

下表是基線KV-MemNet在bAbI數(shù)據(jù)集上的具體表現(xiàn),第一行使用的是常規(guī)樣本,包含問題和段落;第二行只使用問題;第三行只使用段落。可以發(fā)現(xiàn),在第2,7,13,20個問題中,用段落訓(xùn)練的模型性能驚人,準(zhǔn)確率在80%以上。在第3,13,16和20個問題中,它的準(zhǔn)確率甚至超過了使用常規(guī)樣本的模型。而在第18個問題中,用問題訓(xùn)練的模型的準(zhǔn)確率也達(dá)到了91%,和正常的93%非常接近。

這個發(fā)現(xiàn)給我們的啟示是,bAbI的某些問題可能并沒有我們想象中那么復(fù)雜。

流行基線基礎(chǔ)問題遲遲沒能解決,讓模型學(xué)會閱讀理解究竟需要多少文本

CBT任務(wù)

CBT任務(wù)的“答案”根據(jù)詞性可分為命名實體(NE)、公共名詞(CN)、動詞(V)、介詞(P)四類,由于后兩種根據(jù)上下文就能預(yù)測,通常我們在閱讀理解問題里會更重視前兩種詞性。

同樣是基線KV-MemNet,如下表所示,這次使用的三類樣本成了三列:如果是預(yù)測NE和CN,使用完整樣本訓(xùn)練的模型準(zhǔn)確率更高,但用了問題的模型和它也很接近;如果是預(yù)測V和P,只用問題訓(xùn)練效果更佳。

流行基線基礎(chǔ)問題遲遲沒能解決,讓模型學(xué)會閱讀理解究竟需要多少文本

那么如果把“段落”從前20個句子改成第21句呢?下表是只用“段落”的實驗結(jié)果,可以發(fā)現(xiàn),用最后一句效果更好,也就是說,它和正常模型的性能更接近。

流行基線基礎(chǔ)問題遲遲沒能解決,讓模型學(xué)會閱讀理解究竟需要多少文本

CNN任務(wù)

在這里,Gated Attention Reader在CNN任務(wù)上的準(zhǔn)確率就差距較大了。這種下降可能是因為實體匿名化導(dǎo)致模型無法構(gòu)建特定于實體的信息。

流行基線基礎(chǔ)問題遲遲沒能解決,讓模型學(xué)會閱讀理解究竟需要多少文本

SQuAD任務(wù)

這個結(jié)果表明,SQuAD這個數(shù)據(jù)集針對閱讀理解任務(wù)做了精心設(shè)計,它最具挑戰(zhàn)性。

流行基線基礎(chǔ)問題遲遲沒能解決,讓模型學(xué)會閱讀理解究竟需要多少文本

討論

從實驗數(shù)據(jù)可知,雖然同屬閱讀理解任務(wù),但這些數(shù)據(jù)集存在不同的缺陷,也有各種漏洞可以鉆。下面是我們?yōu)樵u估新的基線和算法設(shè)想的一些指導(dǎo)原則。這不是在指責(zé)以前的數(shù)據(jù)集制作者,相反地,這些紕漏能為未來的研究提供不小的價值。

提供嚴(yán)格的RC基線:已發(fā)布的RC數(shù)據(jù)集應(yīng)包含表明任務(wù)難度的合理基線,尤其是它們所需的“問題”“段落”信息量,如果沒有這些標(biāo)準(zhǔn),我們就無法知道模型進(jìn)步究竟取決于什么。

測試完整信息的必要性:在需要“問題”信息和“段落”信息的問題中,有時候真正起作用的只是部分信息。就像CBT任務(wù),雖然只有二十幾句話,但是我們用最后一句話就能訓(xùn)練媲美正常性能的模型。每個模型究竟需要多少信息量,這是研究人員應(yīng)該標(biāo)明的。

使用完型填空式的RC數(shù)據(jù)集時,保持謹(jǐn)慎:這類數(shù)據(jù)集通常是由程序批量制造的,很少有人參與。如果用它們訓(xùn)練模型,我們會找不到目前技術(shù)的局限,也排查不了。

此外,各類會議在推薦收錄論文的數(shù)據(jù)集時,也應(yīng)更注重嚴(yán)謹(jǐn)性,而不是只看創(chuàng)新性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3261

    瀏覽量

    48912
  • 基線
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7985

原文標(biāo)題:基線調(diào)研:讓模型學(xué)會閱讀理解需要多少信息?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    STemwin究竟需要多大的內(nèi)存?

    大家有沒有對STemwin特別了解的,STemwin究竟需要多大的內(nèi)存?就拿例程
    發(fā)表于 05-13 06:37

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 俯瞰全書

    上周收到《大語言模型應(yīng)用指南》一書,非常高興,但工作項目繁忙,今天才品鑒體驗,感謝作者編寫了一部內(nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個我了解大語言模型和機(jī)器學(xué)習(xí)
    發(fā)表于 07-21 13:35

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能
    發(fā)表于 07-25 14:33

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    信息有助于模型更深入地理解文本的含義和意圖。 3. 推理與判斷 在問答任務(wù)中,大語言模型不僅需要理解
    發(fā)表于 08-02 11:03

    【「大模型啟示錄」閱讀體驗】對本書的初印象

    解決中。 幸運的是,我看到了論壇上提供的《大模型啟示錄》評測機(jī)會,便毫不猶豫地申請了,并且有幸被選中。 拿到這本書時,做工和質(zhì)量超出了我的預(yù)料,這我對書中的內(nèi)容充滿了期待。 按照我的閱讀習(xí)慣,我
    發(fā)表于 12-16 14:05

    基于LabVIEW的文本(txt)閱讀

    本帖最后由 zhihuizhou 于 2011-11-25 14:57 編輯 基于LabVIEW的文本(txt)閱讀器,雖然用處不是很大 ,但是還是可以作為labview練習(xí)提高自己對labview的認(rèn)識和理解。。。?;?/div>
    發(fā)表于 11-25 14:38

    如何閱讀文本文件?

    嗨團(tuán)隊,謝謝你總是支持我,但我對閱讀文本文件有一些問題?附件是我需要閱讀文本文件。 BR;希博伊 以上來自于谷歌翻譯 以下為原文Hi T
    發(fā)表于 01-29 06:39

    基于文本摘要和引用關(guān)系的可視輔助文獻(xiàn)閱讀系統(tǒng)

    近年來,科技論文發(fā)表數(shù)量與日俱增,科研人員需要閱讀文獻(xiàn)的數(shù)量也隨之迅速增長.如何快速而有效地閱讀一篇科技論文,逐漸成為一個重要的研究課題.另一方面,在閱讀科技論文時,
    發(fā)表于 01-14 15:19 ?0次下載

    機(jī)器閱讀理解的含義以及如何工作

    機(jī)器閱讀理解,雖然看起來只是AI上陣來一場考試。但是卻是自然語言處理技術(shù)中,繼語音判斷、語義理解之后最大的挑戰(zhàn):智能體
    的頭像 發(fā)表于 01-16 13:47 ?6864次閱讀
    機(jī)器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的含義以及如何工作

    剝開機(jī)器閱讀理解的神秘外衣

    所謂的機(jī)器閱讀理解,基本概念跟咱們上學(xué)時做的閱讀理解題很相似,同樣都是給出一段材料和問題,“考生”給出正確答案。所不同的,僅僅是機(jī)器
    發(fā)表于 03-19 18:47 ?759次閱讀
    剝開機(jī)器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的神秘外衣

    如果把中學(xué)生的英語閱讀理解選擇題AI來做,會做出什么水平?

    與僅就問題感知或選擇性文章表示進(jìn)行計算的現(xiàn)有方法不同,DCMN能夠計算文章感知問題表示和文章感知答案表示。為了證明DCMN模型的有效性,我們在大型閱讀理解數(shù)據(jù)集(即RACE)上評估了模型
    的頭像 發(fā)表于 04-19 10:49 ?3470次閱讀

    一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

    機(jī)器閱讀理解是一項針對給定文本和特定問題自動生成或抽取相應(yīng)答案的問答任務(wù),該任務(wù)是評估計機(jī)系統(tǒng)對自然語言理解程度的重要任務(wù)之一。相比于傳統(tǒng)的閱讀
    發(fā)表于 03-16 11:41 ?10次下載
    一種基于多任務(wù)聯(lián)合訓(xùn)練的<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    文本表示和分類是自然語言理解領(lǐng)域的研究熱點。目前已有很多文本分類方法,包括卷積網(wǎng)絡(luò)、遞歸網(wǎng)絡(luò)、自注意力機(jī)制以及它們的結(jié)合。但是,復(fù)雜的網(wǎng)絡(luò)并不能從根本上提高文本分類的性能,好的
    發(fā)表于 06-15 16:17 ?18次下載

    面向文本多片段答案的抽取式閱讀理解模式

    面向文本多片段答案的抽取式閱讀理解模式
    發(fā)表于 06-24 16:35 ?6次下載

    深度揭秘工字電感究竟需要測量哪些參數(shù)的好壞

    展開剖析一些究竟工字電感要測量哪些參數(shù)。工字電感怎么測量好壞,關(guān)于測量的方法倒不是這個問題的重點,畢竟測量只需要借助專業(yè)的儀器設(shè)備就可以了。這個問題的重點是要弄明白究竟需要測量工字電感的哪些信息。根據(jù)我
    的頭像 發(fā)表于 03-04 20:14 ?877次閱讀
    深度揭秘工字電感<b class='flag-5'>究竟需要</b>測量哪些參數(shù)的好壞