以往的長度可控摘要模型大多在解碼階段控制長度,而編碼階段對(duì)指定的摘要長度不敏感。這樣模型傾向于生成和訓(xùn)練數(shù)據(jù)一樣長的摘要。在這篇論文中,作者提出了一種長度感知注意機(jī)制(LAAM,length-aware attention mechanism)來適應(yīng)基于期望長度的編碼。
本文的方法是在由原始訓(xùn)練數(shù)據(jù)構(gòu)建的摘要長度平衡數(shù)據(jù)集上訓(xùn)練 LAAM,然后像往常一樣進(jìn)行微調(diào)。結(jié)果表明,這種方法可以有效地生成具有所需長度的高質(zhì)量摘要,甚至是原始訓(xùn)練集中從未見過的短長度摘要。
論文題目:Length Control in Abstractive Summarization by Pretraining Information Selection
收錄會(huì)議:
ACL 2022
論文鏈接:
https://aclanthology.org/2022.acl-long.474.pdf
代碼鏈接:
https://github.com/yizhuliu/lengthcontrol
背景
摘要任務(wù)目的是改寫原文,在簡明流暢的摘要中再現(xiàn)原文的語義和主題。為了在不同的移動(dòng)設(shè)備或空間有限的網(wǎng)站上顯示摘要,我們必須生成不同長度的摘要。
長度可控的摘要是一個(gè)多目標(biāo)優(yōu)化問題,包括:
在期望的長度內(nèi)生成完整的摘要
以及根據(jù)期望的長度選擇適當(dāng)?shù)?a target="_blank">信息
相關(guān)方法
現(xiàn)有的基于編解碼器模型的長度可控摘要可分為兩類:
解碼時(shí)的早停
編碼前的信息選擇
解碼過程中的早停方法關(guān)注何時(shí)輸出 eos(end of sequence),也就是摘要的結(jié)束標(biāo)志。有人設(shè)計(jì)了專門的方法。這個(gè)專門方法是通過在測試期間將期望長度的位置上的所有候選單詞分配 ?∞ 的分?jǐn)?shù)來生成 eos。這個(gè)方法可以應(yīng)用于任何 seq2seq 模型。然而,這些方法只是簡單地為解碼器增加了長度要求,而忽略了從源文檔編碼內(nèi)容或信息選擇也必須適應(yīng)不同長度要求的問題。
基于信息選擇的方法分為兩階段。一個(gè)突出的例子是 LPAS,在第一階段,從源文檔中提取最重要的l個(gè)標(biāo)記作為所需長度的原型摘要,并在第二階段通過雙編碼器對(duì)源文檔和原型摘要進(jìn)行編碼。一方面,這種兩階段方法會(huì)在中間結(jié)果中引入噪聲。另一方面,這些方法的第二階段沒有第一手的長度信息,這削弱了長度控制。
本文方法
在本文中,作者提出了LAAM(長度感知注意機(jī)制),它擴(kuò)展了 Transformer seq2seq 模型,具有根據(jù)長度約束在上下文中選擇信息的能力。
LAAM 重新 normalize 編碼器和解碼器之間的注意力,以增強(qiáng)指定長度范圍內(nèi)具有更高注意力分?jǐn)?shù)的 token,幫助從源文檔中選擇長度感知信息。隨著解碼進(jìn)行,增強(qiáng) token 的數(shù)量將會(huì)逐步減少,直到 eos 獲得最高的注意力分?jǐn)?shù),這有助于在指定長度上停止解碼過程。
LAAM 可以被認(rèn)為是上一節(jié)兩類方法的混合版本。
同時(shí)作者觀察到,在現(xiàn)有訓(xùn)練集中,不同長度的摘要數(shù)量有很大差異。為了平衡摘要在不同長度范圍內(nèi)的分布,本文提出了一種啟發(fā)式方法:首先定義摘要長度范圍,然后從原文中直接抽取不同長度的摘要,根據(jù)特定指標(biāo)控制抽取摘要的相關(guān)度,從而創(chuàng)建長度平衡數(shù)據(jù)集(LBD,length-balanced dataset)。
在本文方法中,先從原始的摘要數(shù)據(jù)集創(chuàng)建一個(gè) LBD。之后,在 LBD 上預(yù)訓(xùn)練LAAM,以增強(qiáng) LAAM 在長度約束下的文本選擇能力。最后,將預(yù)訓(xùn)練后的 LAAM 在原始數(shù)據(jù)集上微調(diào),以學(xué)習(xí)將所選文本改寫為不同長度的摘要。
當(dāng)前訓(xùn)練數(shù)據(jù)集中沒有短摘要,微調(diào)后的模型沒有見過短摘要,所以如果用它生成短摘要的話算是 zero-shot。得益于 LDB 的預(yù)訓(xùn)練,本文的方法可以解決zero-shot情況下的長度控制問題。
本文的主要貢獻(xiàn):
提出了LAAM(長度感知注意機(jī)制)來生成具有所需長度的高質(zhì)量摘要。
設(shè)計(jì)了一種啟發(fā)式方法,從原始數(shù)據(jù)集中創(chuàng)建一個(gè)LBD(長度平衡數(shù)據(jù)集)。在 LBD 上對(duì) LAAM 進(jìn)行預(yù)訓(xùn)練后,LAAM 效果能有提升,并且可以有效解決 zero-shot 情況下的短摘要生成問題。
LAAM
上圖是 Transformer 解碼器。
左上方為源文檔輸入:,作為注意力的 Key。
最左側(cè)為模型當(dāng)前輸出:,作為注意力的 Query,兩者點(diǎn)乘得到注意力矩陣。 注意力矩陣分為兩部分, 負(fù)責(zé)文本信息選擇, 負(fù)責(zé)結(jié)束標(biāo)志選擇
注意力矩陣的第一行加粗了 Top3,第二行加粗了 Top2,第三行加粗了 Top1,對(duì)加粗的進(jìn)行提權(quán),本文通過這種方式向模型傳遞句子剩余預(yù)測長度信息。
也會(huì)進(jìn)行提權(quán),并且越接近指定長度,提權(quán)幅度越大,模型也就更容易預(yù)測出 eos。
提權(quán)后要進(jìn)行一次歸一化,不然和不為 1。
這就是本文提出的 LAAM 模型。
總結(jié)
本文方案的整體流程是:
用原始訓(xùn)練集生成 LBD(長度平衡數(shù)據(jù)集)
在 LBD 上預(yù)訓(xùn)練 LAAM 模型
在原始訓(xùn)練集上微調(diào) LAAM 模型
審核編輯 :李倩
-
編解碼器
+關(guān)注
關(guān)注
0文章
261瀏覽量
24248 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727
原文標(biāo)題:ACL 2022 | 基于長度感知注意機(jī)制的長度可控摘要模型
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論