0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI 軟件TLDR:可用一句話概括文章

ss ? 來(lái)源:學(xué)術(shù)頭條 ? 作者:學(xué)術(shù)頭條 ? 2020-11-27 17:00 ? 次閱讀

摘要在一篇文章中有著至關(guān)重要的作用,它濃縮了整篇文章的精華,可以讓你快速了解該篇文章的研究背景、研究意義和研究亮點(diǎn),進(jìn)而決定了你是否會(huì)點(diǎn)開(kāi)這篇文章仔細(xì)閱讀。

如果摘要太長(zhǎng)或者邏輯混亂,就會(huì)失去它讓人快速瀏覽的意義,很有可能讓人忽略掉一篇正文內(nèi)容還不錯(cuò)的文章。那么,是否可以在摘要的基礎(chǔ)上進(jìn)一步提煉,用一句話概括文章?

答案是:AI 可以做到。

近日,一款科學(xué)搜索引擎在其官網(wǎng)上就推出了這樣一款 AI 軟件——TLDR,即“太長(zhǎng)了,沒(méi)有讀”(too long,didn’t read)的意思,該軟件可以自動(dòng)生成研究論文的一句話總結(jié)。這款軟件的開(kāi)發(fā)者認(rèn)為,這樣可以幫助研究人員更快地瀏覽論文,減少閱讀摘要的時(shí)間。

TLDR 經(jīng)常被用于網(wǎng)上關(guān)于科學(xué)論文的非正式討論(比如,Twitter 或 Reddit)。

本周,這款軟件在華盛頓州西雅圖的非營(yíng)利性艾倫人工智能研究所(AI2)創(chuàng)建的搜索引擎 Semantic Scholar 的搜索結(jié)果中開(kāi)始上線使用。目前,該軟件只為 Semantic Scholar 所覆蓋的 1000 萬(wàn)篇計(jì)算機(jī)科學(xué)論文生成一句話摘要。

AI2 管理 Semantic Scholar 小組的 Dan Weld 表示,他們目前正在優(yōu)化 TLDR,預(yù)計(jì)一個(gè)月左右的時(shí)間后,TLDR 將陸續(xù)涵蓋其他學(xué)科領(lǐng)域的論文。

圖 | TLDR 與普通總結(jié)的對(duì)比 (來(lái)源:Semantic Scholar)

初步測(cè)試表明,該工具可以幫助讀者比查看標(biāo)題和摘要的方式更快地整理搜索結(jié)果,特別是在手機(jī)上。

圖 | TLDR 在手機(jī)上的效果(來(lái)源:Nature)

介紹該軟件的預(yù)印本于 4 月 1 日首次發(fā)表在 arXiv 預(yù)印本服務(wù)器上,并在 11 月舉行的自然語(yǔ)言處理會(huì)議上經(jīng)過(guò)同行評(píng)審后被接收發(fā)表。研究人員免費(fèi)提供了他們的代碼,以及一個(gè)測(cè)試 demo,任何人都可以嘗試使用。

圖 | 生成 TLDR 的測(cè)試 (來(lái)源:SCITDLR)

如何訓(xùn)練 TLDR?

TLDR 本質(zhì)上就是對(duì)科學(xué)論文的一種新的總結(jié)。Weld 創(chuàng)建 TLDR 軟件的靈感一部分來(lái)自于他的同事,其在 Twitter 上分享標(biāo)記文章的活潑句子。與其他語(yǔ)言生成軟件一樣,該軟件是利用深度神經(jīng)網(wǎng)絡(luò),通過(guò)進(jìn)行大量的訓(xùn)練而生成。

圖 | TLDR 的介紹 (來(lái)源:arxiv)

為了訓(xùn)練 TLDR,研究人員準(zhǔn)備了 SCITLDR,這是一個(gè)多目標(biāo)數(shù)據(jù)集,包含5411篇TLDR,覆蓋計(jì)算機(jī)科學(xué)領(lǐng)域的 3229 篇科學(xué)論文。

其中,訓(xùn)練集包含 1992 篇論文,每篇論文都有一個(gè)“黃金”TLDR,也就是最佳 TLDR。開(kāi)發(fā)集和測(cè)試集分別包含 619 篇和 618 篇論文,分別有 1452 個(gè)和 1967 個(gè) TLDR。

通常情況下,總結(jié)數(shù)據(jù)集會(huì)假設(shè)一個(gè)給定文檔只有一個(gè)黃金總結(jié),而 SCITLDR 與大多數(shù)現(xiàn)有的總結(jié)數(shù)據(jù)集不同。正如早期的摘要評(píng)估工作所證明的那樣,人類(lèi)撰寫(xiě)的摘要具有可變性。

將每篇論文只考慮一個(gè)黃金 TLDR 作為自動(dòng)評(píng)估的基礎(chǔ),可能會(huì)導(dǎo)致系統(tǒng)質(zhì)量評(píng)估不準(zhǔn)確,因?yàn)榭赡艹霈F(xiàn)在 TLDR 中的內(nèi)容可能具有很大的可變性。此外,為每份文件提供多個(gè)黃金摘要,可以進(jìn)行更深入的分析和徹底的評(píng)估。

為了解決這個(gè)問(wèn)題,SCITLDR 包含了從作者角度撰寫(xiě)的 TLDR("TLDR-Auth")和從同行評(píng)審者角度撰寫(xiě)的 TLDR("TLDR-PR")。

TLDR-Auth 可在各種在線平臺(tái)上獲得。在公開(kāi)的科學(xué)評(píng)審平臺(tái) OpenReview.org 上,作者提交其論文的 TLDR,為審稿人和其他感興趣的學(xué)者總結(jié)主要內(nèi)容。學(xué)者們也會(huì)在Twitter 和 Reddit 等社交媒體平臺(tái)上分享 TLDR。

TLDR-PR 是將同行評(píng)審員已經(jīng)仔細(xì)檢查了源論文后寫(xiě)的評(píng)論中的總結(jié)重寫(xiě)成 TLDR。為了完成這項(xiàng)任務(wù),研究人員從華盛頓大學(xué)招募了 28 名計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的本科生,他們有自我報(bào)告的閱讀科學(xué)論文的經(jīng)驗(yàn)。在接受一個(gè)小時(shí)的一對(duì)一寫(xiě)作訓(xùn)練并篩選后完成 TLDR 的寫(xiě)作工作。

圖 | TLDR-Auth 和 TLDR-PR的對(duì)比(來(lái)源:arxiv)

圖 | TLDR-Auth 和 TLDR-PR的對(duì)比(來(lái)源:arxiv)

TLDR-Auth 和 TLDR-PR 即使包含相同的信息內(nèi)容,也會(huì)有很大的差異。總的來(lái)說(shuō),TLDR-PR 總結(jié)的更為抽象。

引入 CATTS 對(duì) TLDR 進(jìn)行優(yōu)化

CATTS(Controlled Abstraction for TLDRs with Title Scaffolding),這是一種簡(jiǎn)單而有效的學(xué)習(xí)生成 TLDR 的方法,它可以在以上介紹的數(shù)據(jù)集訓(xùn)練的基礎(chǔ)上進(jìn)行補(bǔ)充訓(xùn)練。該方法解決了兩個(gè)主要挑戰(zhàn):(1) 訓(xùn)練數(shù)據(jù)的大小是有限的;(2) 為了編寫(xiě)高質(zhì)量的黃金 TLDR,需要領(lǐng)域知識(shí)。

為了解決這些挑戰(zhàn),研究人員提出使用科學(xué)論文的標(biāo)題作為額外的生成目標(biāo)。由于標(biāo)題通常包含有關(guān)論文的關(guān)鍵信息,假設(shè)訓(xùn)練模型生成標(biāo)題將允許它學(xué)習(xí)如何定位論文中的突出信息,這些信息對(duì)生成 TLDR 也很有用。

通過(guò)多任務(wù)學(xué)習(xí)納入輔助腳手架任務(wù)之前已經(jīng)研究過(guò),用于改進(jìn)跨度標(biāo)注和文本分類(lèi) 。與多任務(wù)學(xué)習(xí)類(lèi)似,在帶有控制代碼注釋的異質(zhì)數(shù)據(jù)上進(jìn)行訓(xùn)練已經(jīng)被證明可以改善自回歸語(yǔ)言模型中的控制生成。

為了讓標(biāo)題生成完成輔助 TLDR 生成的任務(wù),研究人員提出用標(biāo)題生成數(shù)據(jù)集洗牌 SCITLDR,然后分別用控制代碼 <|TLDR|> 和 <|TITLE|> 附加每個(gè)源。這使得模型的參數(shù)可以學(xué)習(xí)生成 TLDR 和標(biāo)題。在生成時(shí),適當(dāng)?shù)目刂拼a被附加到源中。此外,上采樣特定任務(wù)可以被視為應(yīng)用特定任務(wù)的權(quán)重,類(lèi)似于多任務(wù)學(xué)習(xí)設(shè)置中的權(quán)重?fù)p失。

圖 | CATTS引入可視化(來(lái)源:arxiv)

對(duì) TLDR 未來(lái)的期待

"我預(yù)測(cè),在不久的將來(lái),這種工具將成為學(xué)術(shù)搜索的標(biāo)準(zhǔn)功能。事實(shí)上,考慮到科研人員實(shí)際的需求,我很驚訝等了這么長(zhǎng)時(shí)間才看到它的實(shí)際應(yīng)用。" 西雅圖華盛頓大學(xué)的信息科學(xué)家杰文 - 韋斯特(Jevin West)說(shuō),他應(yīng)《自然》雜志的要求測(cè)試了該工具。"雖然它并不完美,但它絕對(duì)是朝著正確方向邁出的重要一步。" 他說(shuō)。

Weld 指出,TLDR 軟件并不是唯一的科學(xué)總結(jié)工具:自 2018 年以來(lái),網(wǎng)站 Paper Digest 也一直提供論文摘要,但它似乎是從文本中提取關(guān)鍵句子,而不是生成新句子。

TLDR 可以從論文的摘要、引言和結(jié)論中生成一句話。它的摘要往往是根據(jù)文章文本中的關(guān)鍵短語(yǔ)建立起來(lái)的,所以它的受眾人群是已經(jīng)了解論文行話的專(zhuān)業(yè)的科研人員。對(duì)于普通人來(lái)說(shuō),閱讀起來(lái)依舊存在一些難度。但 Weld 表示,該團(tuán)隊(duì)正在努力為非專(zhuān)家受眾提供更為簡(jiǎn)單易懂的升級(jí)版產(chǎn)品

研究人員還計(jì)劃將該技術(shù)授權(quán)給出版商,并將其服務(wù)擴(kuò)展到提供個(gè)性化的研究簡(jiǎn)報(bào),總結(jié)某個(gè)領(lǐng)域的關(guān)鍵論文。"我們只是到了人工智能可以以人們可以接受的水平生成新穎的摘要的階段,"Weld 說(shuō)。

責(zé)任編輯:xj

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 軟件
    +關(guān)注

    關(guān)注

    69

    文章

    4953

    瀏覽量

    87561
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30947

    瀏覽量

    269217
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI又打出王炸!一句話生成60秒視頻,馬斯克:人類(lèi)認(rèn)輸吧

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)在大年初七,春節(jié)假期的尾聲,OpenAI突然發(fā)布的AI文字生成視頻模型Sora被全網(wǎng)刷屏,馬斯克甚至感嘆“gg Humans”(gg是good game的縮寫(xiě),在競(jìng)技
    的頭像 發(fā)表于 02-19 09:02 ?3840次閱讀
    OpenAI又打出王炸!<b class='flag-5'>一句話</b>生成60秒視頻,馬斯克:人類(lèi)認(rèn)輸吧

    晶科能源N型TOPCon技術(shù)為什么能領(lǐng)跑行業(yè)

    晶科能源在N型TOPCon的領(lǐng)導(dǎo)者地位,用一句話形容就是:領(lǐng)先行業(yè)6個(gè)月!
    的頭像 發(fā)表于 11-21 11:08 ?335次閱讀
    晶科能源N型TOPCon技術(shù)為什么能領(lǐng)跑行業(yè)

    開(kāi)關(guān)電源布線 一句話:要運(yùn)行最穩(wěn)定、波形最漂亮、電磁兼容性最好

    開(kāi)關(guān)電源在布線上最大的特點(diǎn)是拓?fù)湟鸬母哳l(高壓)強(qiáng)電流與控制級(jí)的弱電信號(hào)交織在起,首先要保證強(qiáng)電流的存在不干擾電源內(nèi)部的控制信號(hào),其次要盡量減少對(duì)外部的干擾(EMC)。一句話:要運(yùn)行最穩(wěn)定、波形
    的頭像 發(fā)表于 10-28 14:06 ?1371次閱讀
    開(kāi)關(guān)電源布線 <b class='flag-5'>一句話</b>:要運(yùn)行最穩(wěn)定、波形最漂亮、電磁兼容性最好

    求助,關(guān)于TLE2141的供電問(wèn)題求解

    在TLE2141的DATASHEET中,在供電方面有一句話,Single or Split Supply . . . 4 V to 44 V,此句話不甚明確,雖然DATASHEET中有例子,可證明 此運(yùn)放可5V單電源供電,我本人仍有疑問(wèn),40V單電源供電可否,請(qǐng)各位大拿
    發(fā)表于 09-09 06:46

    想把差分信號(hào)轉(zhuǎn)為單端信號(hào),不是音頻信號(hào),OPA365是否還可以使用呢?

    我想請(qǐng)教下,想把差分信號(hào)轉(zhuǎn)為單端信號(hào)(頻段在100-600KHz),不是音頻信號(hào),這款芯片是否還可以使用呢?另:用TINA想仿真OPA365對(duì)于所需頻段差分信號(hào)得的放大效果是否滿足實(shí)用性,但是搭建不通。可能剛上手,玩不轉(zhuǎn)這款軟件。所以想取捷徑,問(wèn)問(wèn)諸位,我的第一句話可否
    發(fā)表于 08-27 06:33

    知網(wǎng)狀告AI搜索:搜到我家論文題目和摘要,你侵權(quán)了!

    創(chuàng)業(yè)團(tuán)隊(duì)秘塔AI搜索,被知網(wǎng)給告了!足足28頁(yè)的侵權(quán)告知函,總結(jié)一句話就是:貴司的AI搜索,能搜到我家的學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù),且沒(méi)經(jīng)我司許可,嚴(yán)重侵權(quán)。
    的頭像 發(fā)表于 08-16 17:47 ?313次閱讀
    知網(wǎng)狀告<b class='flag-5'>AI</b>搜索:搜到我家論文題目和摘要,你侵權(quán)了!

    如何設(shè)計(jì)RC去耦的R和C的值?

    如何設(shè)計(jì)RC去耦的R和C的值,最后一句話的意思是負(fù)載電流的變化決定R和C的值,能舉個(gè)例子怎么計(jì)算這個(gè)值嗎?
    發(fā)表于 08-14 07:47

    esp32c3 vdd_spi如何作為gpio11使用?

    看到C3的手冊(cè)里有這樣一句話 當(dāng) VDD_SPI 無(wú)需為外部供電時(shí),VDD_SPI 亦可作為 GPIO11 使用 請(qǐng)問(wèn) 怎么設(shè)置呢? 在 arduino 中設(shè)定 pinMode(11
    發(fā)表于 06-17 06:27

    一句話讓你理解線程和進(jìn)程

    今天給大家分享下線程與進(jìn)程,主要包含以下幾部分內(nèi)容:一句話說(shuō)明線程和進(jìn)程操作系統(tǒng)為什么需要進(jìn)程為什么要引入線程圖說(shuō)明線程和進(jìn)程的關(guān)系一句話讓你理解進(jìn)程和線程進(jìn)程:是指?個(gè)內(nèi)存中運(yùn)?
    的頭像 發(fā)表于 06-04 08:04 ?1220次閱讀
    <b class='flag-5'>一句話</b>讓你理解線程和進(jìn)程

    一句話概括DDR、LPDDR、GDDR的區(qū)別

    以DDR開(kāi)頭的內(nèi)存適用于計(jì)算機(jī)、服務(wù)器和其他高性能計(jì)算設(shè)備等領(lǐng)域,目前應(yīng)用廣泛的是DDR3和DDR4;
    的頭像 發(fā)表于 05-10 14:21 ?6773次閱讀
    <b class='flag-5'>一句話</b><b class='flag-5'>概括</b>DDR、LPDDR、GDDR的區(qū)別

    AI推理,和訓(xùn)練有什么不同?

    如果要用一句話概括AI的訓(xùn)練和推理的不同之處,我覺(jué)得用“臺(tái)上分鐘,臺(tái)下十年功”最為貼切。話說(shuō)小明已經(jīng)和心目中的女神交往數(shù)年,在邀約女神出門(mén)這件事上積累了大量的經(jīng)驗(yàn)數(shù)據(jù),但卻依然捉摸不
    的頭像 發(fā)表于 04-29 08:06 ?210次閱讀
    <b class='flag-5'>AI</b>推理,和訓(xùn)練有什么不同?

    三層交換機(jī)的工作原理 三層交換機(jī)不能完全取代路由器的原因

    三層交換機(jī)的工作原理可以用一句話概括為:”次路由,多次交換“。
    的頭像 發(fā)表于 03-29 09:29 ?824次閱讀

    NPN型三極管發(fā)射結(jié)電勢(shì)和基極電流有關(guān)問(wèn)題

    教材有一句話:發(fā)射結(jié)電勢(shì)減小,導(dǎo)致基極電流減小 這句話如果單看三極管的輸入特性曲線確實(shí)沒(méi)問(wèn)題,但是三極管實(shí)際工作的靜態(tài)工作點(diǎn)Q是輸入特性曲線和輸入回路負(fù)載線的交點(diǎn),這個(gè)時(shí)候減小,??????負(fù)載線
    發(fā)表于 03-23 09:36

    請(qǐng)問(wèn)AD2428 TX crossbar是個(gè)什么功能?

    AD2428 TRM中,描述升采樣功能的最后一句話時(shí),提到了個(gè)TX crossbar功能,全文搜索crossbar只有這處,這是個(gè)什么功能?
    發(fā)表于 03-07 07:00

    RS觸發(fā)器邏輯門(mén)組成和邏輯功能表

    RS是由兩個(gè)或非門(mén)組成,而或非門(mén)的輸出又作為另個(gè)或非門(mén)的輸入。下面說(shuō)一句對(duì)RS觸發(fā)器理解最重要的一句話:或非門(mén)如果有個(gè)輸入端為1,那么不用考慮另
    的頭像 發(fā)表于 03-05 17:35 ?1.2w次閱讀
    RS觸發(fā)器邏輯門(mén)組成和邏輯功能表