本期導(dǎo)讀:文本摘要技術(shù)(Text Summarization)是信息爆炸時代,提升人們獲取有效信息效率的關(guān)鍵技術(shù)之一,如何從冗余、非結(jié)構(gòu)化的長文本中提煉出關(guān)鍵信息,構(gòu)成精簡通順的摘要,是文本摘要的核心問題。抽取式摘要則是文本摘要技術(shù)中效果穩(wěn)定,實現(xiàn)簡單的一類方法,本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作,對抽取式摘要方法中如何合理設(shè)置抽取單元展開介紹。
引言
在自動文本摘要任務(wù)中,抽取式摘要方法是從原文中抽取預(yù)先設(shè)置好的抽取單元,抽取單元一般為句子、短語或詞,目前大多數(shù)方法還是以句子為抽取單元,雖然句子級的抽取式摘要方法能夠?qū)崿F(xiàn)一個較好的摘要效果,但依然存在以下問題:
冗余性,抽取出的句子存在冗余。
不必要性,抽取出的句子包含了一些不關(guān)鍵的信息。
存在抽取出的句子之間銜接生硬,不夠自然。
現(xiàn)有工作通常使用tri-block后處理策略,即跳過和已選擇句子存在tri-gram重疊的句子來減少冗余。還有一些工作在抽取的摘要基礎(chǔ)上結(jié)合生成式摘要方法進行改寫和優(yōu)化,減少不相關(guān)的信息,同時提升銜接流暢度。本期介紹的兩篇工作從設(shè)計一個比句子更細粒度的抽取單元出發(fā),希望通過細粒度的抽取單元,分割出整句中的關(guān)鍵信息和不關(guān)鍵信息,避開冗余的和不必要的內(nèi)容來解決前兩點問題。
At Which Level Should We Extract An Empirical Analysis on Extractive Document Summarization
騰訊的Qingyu Zhou等人發(fā)表于COLING 2020會議上的一篇文章,論文主要針對抽取整句摘要方法存在的冗余性和不必要性問題,提出一種以子句作為抽取單元的抽取式摘要方法。本文的主要貢獻包括兩點:(1)提出了一種子句作為抽取單元的設(shè)置方式,介于短語和整句之間。(2)設(shè)計了基于BERT的子句摘要抽取模型,性能相比抽取整句有所提升。
子句的定義
圖 1 PTB句法成分解析樹
本文通過Penn Treebank(PTB)[1]方法對句子進行句法成分分析,對每一個從句節(jié)點S和SBAR都視為子句單元。為了保留更完整的語義信息,如果一個從句節(jié)點被包括在更高層的從句節(jié)點中,則選擇最高層的子句節(jié)點(除去根節(jié)點)作為抽取的子句單元。例如圖1中,紅色實線圈中的從句節(jié)點是最終選定的子句單元,如果一個句子解析后不存在從句節(jié)點,則直接選用整句作為抽取單元。
模型概述
圖2 基于BERT的子句抽取模型SSE(Sub-Sentential Extraction )
抽取模型參考了BERTSUM[2],這里對子句范圍內(nèi)的token做平均池化得到子句單元的表示,收集到所有子句單元的表示后再經(jīng)過一層Transformer層混合上下句之間的信息,經(jīng)過一層全連接層進行二分類預(yù)測當(dāng)前子句單元是需要抽取。訓(xùn)練時學(xué)習(xí)每個子句是否需要抽取,預(yù)測時選擇分數(shù)最高的top-N個子句拼接后輸出。
實驗評價
實驗數(shù)據(jù)集使用經(jīng)典的文本摘要數(shù)據(jù)集CNN/DailyMail。
表1 CNN/DM數(shù)據(jù)集中對參考摘要,句子級抽取的標(biāo)準(zhǔn)摘要,子句級抽取的標(biāo)準(zhǔn)摘要的統(tǒng)計
表1中Ora表示抽取式摘要方法中對目標(biāo)抽取單元的Oracle構(gòu)造方法,一般以貪心思想依次選擇ROUGE增量分數(shù)最高的抽取單元加入,選擇N個或沒有可使ROUGE分數(shù)增加的選擇時停止??梢钥吹剑宰泳渥鳛槌槿卧?,Ora-ss抽取方法的ROUGE P分數(shù)更高,說明以子句為抽取單元能夠避免抽取到不必要信息。從n-gram Overlap指標(biāo)可以看出,Ora-ss抽取的內(nèi)容重復(fù)度更低,冗余性相對抽取整句Ora-sent方法更低。
表2 CNN/DM測試集上的ROUGE F1評測結(jié)果
實驗結(jié)果如表2所示,SSE模型不依賴后處理策略,在ROUGE-2和ROUGE-L上都超越了基線方法,且對比BERT-SENT(作者復(fù)現(xiàn)的BERTSUMEXT)提升顯著。
表3 人工評估結(jié)果
人工評估結(jié)果如表3,隨機采樣了50條樣本,經(jīng)過人工打分對比兩個模型之間的優(yōu)劣,各指標(biāo)均是越低表示模型表現(xiàn)越優(yōu)秀??梢钥吹絊SE模型犧牲了一定的可讀性,帶來了整體上性能的提升,減少了冗余性和不必要性。
結(jié)論
以句法成分解析樹中從句節(jié)點作為抽取式摘要的抽取單元,能夠有效降低抽取摘要的冗余性和不必要性,犧牲一定的可讀性,提升整體摘要性能,可讀性受句法解析器準(zhǔn)確率,以及子句片段自身相對于整個句子的不完備性影響,但整體上SSE達到相比抽取句子更優(yōu)的性能。
Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT
浙江大學(xué)Hanlu Wu等人在COLING 2020會議上發(fā)表的一篇文章,本文主要貢獻包括兩點:(1)基于依存分析方法設(shè)計了一種子句單元,命名為事實(Fact)。(2)設(shè)計了層次化的事實抽取摘要模型,通過改變注意力Mask對BERT直接引入了結(jié)構(gòu)化信息。
事實的定義
圖3 依存分析樹中對整句拆分出事實片段的例子
本文提出了一種經(jīng)驗性的事實拆分算法,流程如下:
用依存分析方法(Stanford CoreNLP)對候選句子進行解析,每個句子用標(biāo)點符號、連接詞和從句的節(jié)點進行拆分,包括PU(標(biāo)點), CC(連詞), IP(從句)。
為了獲得完整的語義單元,我們對一些特殊的關(guān)系連邊兩端的子句進行合并,包括acl:relcl,advcl(狀語從句修飾詞),appos(同位詞),ccomp(從句補充)。
判斷conj(連接關(guān)系)連接的2個元素是從句還是詞語,如果2個元素距離低于一個閾值,則視為連接2個詞語進行合并,否則視為2個子句。
預(yù)先定義了一個最小事實長度和最大事實長度,在執(zhí)行上述合并過程中,如果某個子句長度超過最大長度,則視為獨立的子句,不參與合并。一切合并操作執(zhí)行完成后,若存在小于最小長度的子句,和前置的子句進行合并,最后所有的子句作為事實。
表4 CNN/DM數(shù)據(jù)訓(xùn)練集原文切分結(jié)果的統(tǒng)計
表4統(tǒng)計了CNN/DM數(shù)據(jù)中訓(xùn)練集的文章按句子切分和按事實切分后的數(shù)量和長度,平均1個句子包含1.6個事實,存在一部分句子獨立作為單個事實,其他情況下通常一個句子被拆分為2到3個事實。
模型概述
圖4 層次化的事實級摘要抽取模型框架
模型如圖4所示,在BERT的注意力層加入了一個Mask矩陣來加入層次化的結(jié)構(gòu)信息,主要構(gòu)造了2種連邊:
同粒度下當(dāng)前token和其他token之間的雙向連邊,圖4中同色token之間都存在雙向連邊。
細粒度token指向粗粒度token的單向連邊,例如圖4中藍色token指向自己所在事實token [cls_f]的連邊,以及事實指向句子,句子指向文檔的連邊。
在輸出層用全連接來對每個事實做分類,結(jié)合了文檔的表示和所在句子的表示:
||表示連接,在輸出時使用文檔和對應(yīng)句子的表示一同判斷當(dāng)前事實是否抽取。
訓(xùn)練時只學(xué)習(xí)事實的loss,預(yù)測時預(yù)測top-4的事實,加上tri-block去冗余策略。
實驗評價
本文實驗數(shù)據(jù)采用CNN/DM數(shù)據(jù)集。
表5 CNN/DM測試集上不同粒度的Oracle摘要對比
首先展示了基于事實用Oracle方法抽取摘要的效果,如表5所示,基于事實的Oracle方法提高了抽取方法的理論上界,能夠生產(chǎn)更精確的抽取標(biāo)簽。
表6 CNN/DM測試集評測結(jié)果
表6顯示加入事實后,相對于作者復(fù)現(xiàn)的BERTSUM都有一定的提升,其中結(jié)合句子級的表示效果最佳,而額外使用文檔級的信息沒有帶來提升,說明句子級的信息能夠有助于判斷句子內(nèi)的事實是否應(yīng)該抽取,而全文的文檔級信息過于粗粒度,對判斷事實是否抽取沒有幫助。
表7 在CNN/DM測試集上的消融實驗結(jié)果
消融實驗中對比了減去片段編碼和位置編碼的模型結(jié)果,表7下半部分是兩種基線方法去除位置編碼的結(jié)果,可以看出本文的方法去除位置信息后效果下降相對較小,說明層次化的結(jié)構(gòu)信息有助于更好地幫助模型理解語義信息而不會過度依賴位置信息。
總結(jié)
兩篇工作都是以設(shè)計粒度介于詞和句子之間的抽取單元為主要思想,對比來看,第一篇的子句抽取單元粒度更細,有著更高的理論上界,但存在一些可讀性上的問題。第二篇定義的事實作為抽取單元,在劃分事實的算法中加入經(jīng)驗性的處理,保證了事實拆分的準(zhǔn)確度和語義完整度。從模型優(yōu)化上來看,第二篇提供了一種從修改掩碼角度來對預(yù)訓(xùn)練模型引入結(jié)構(gòu)化信息的思路,但實驗中個人認為缺少了對應(yīng)的消融驗證實驗,應(yīng)當(dāng)對比結(jié)構(gòu)化掩碼和全連接掩碼的實驗結(jié)果。
抽取式摘要是文本摘要中的一類重要方法,除了本期兩篇工作關(guān)注的冗余性問題和不必要性問題,還存在例如抽取句子之間語義不連貫,銜接生硬等問題,以及如何對抽取式摘要進行準(zhǔn)確評價也是值得探究的一個問題。在實際應(yīng)用中設(shè)計方法時我們更應(yīng)該關(guān)注問題本身,使得方法具有更好地滿足真實需要。
原文標(biāo)題:【摘要抽取】抽取式摘要最新研究進展
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
信息抽取
+關(guān)注
關(guān)注
0文章
6瀏覽量
6458
原文標(biāo)題:【摘要抽取】抽取式摘要最新研究進展
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論