背景
利用Prompt Learning(提示學(xué)習(xí))進(jìn)行文本分類任務(wù)是一種新興的利用預(yù)訓(xùn)練語言模型的方式。在提示學(xué)習(xí)中,我們需要一個(gè)標(biāo)簽詞映射(verbalizer),將[MASK]位置上對(duì)于詞表中詞匯的預(yù)測(cè)轉(zhuǎn)化成分類標(biāo)簽。例如{POLITICS: "politics", SPORTS: "sports"} 這個(gè)映射下,預(yù)訓(xùn)練模型在[MASK]位置對(duì)于politics/sports這個(gè)標(biāo)簽詞的預(yù)測(cè)分?jǐn)?shù)會(huì)被當(dāng)成是對(duì)POLITICS/SPORTS這個(gè)標(biāo)簽的預(yù)測(cè)分?jǐn)?shù)。
手工定義或自動(dòng)搜索得到的verbalizer有主觀性強(qiáng)覆蓋面小等缺點(diǎn),我們使用了知識(shí)庫(kù)來進(jìn)行標(biāo)簽詞的擴(kuò)展和改善,取得了更好的文本分類效果。同時(shí)也為如何在Prompt Learning下引入外部知識(shí)提供了參考。
方法
我們提出使用知識(shí)庫(kù)擴(kuò)展標(biāo)簽詞,通過例如相關(guān)詞詞表,情感詞典等工具,基于手工定義的初始標(biāo)簽詞進(jìn)行擴(kuò)展。例如,可以將{POLITICS: "politics", SPORTS: "sports"} 擴(kuò)展為以下的一些詞:
表1: 基于知識(shí)庫(kù)擴(kuò)展出的標(biāo)簽詞。
圖1: 以問題分類任務(wù)為例的KPT流程圖。
之后我們可以通過一個(gè)多對(duì)一映射將多個(gè)詞上的預(yù)測(cè)概率映射到某個(gè)標(biāo)簽上。
但是由于知識(shí)庫(kù)不是為預(yù)訓(xùn)練模型量身定做的,使用知識(shí)庫(kù)擴(kuò)展出的標(biāo)簽詞具有很大噪音。例如SPORTS擴(kuò)展出的movement可能和POLITICS相關(guān)性很大,從而引起混淆;又或者POLITICS擴(kuò)展出的machiavellian(為奪取權(quán)力而不擇手段的)則可能由于詞頻很低不容易被預(yù)測(cè)到,甚至被拆解成多個(gè)token而不具有詞語本身的意思。
因此我們提出了三種精調(diào)以及一種校準(zhǔn)的方法。
01
頻率精調(diào)
我們利用預(yù)訓(xùn)練模型M本身對(duì)于標(biāo)簽詞v的輸出概率當(dāng)成標(biāo)簽詞的先驗(yàn)概率,用來估計(jì)標(biāo)簽詞的先驗(yàn)出現(xiàn)頻率。我們把頻率較小的標(biāo)簽詞去掉。
公式1: 頻率精調(diào)。C代表語料庫(kù)。
02
相關(guān)性精調(diào)
有的標(biāo)簽詞和標(biāo)簽相關(guān)性不大,有些標(biāo)簽詞會(huì)同時(shí)和不同標(biāo)簽發(fā)生混淆。我們利用TF-IDF的思想來賦予每個(gè)標(biāo)簽詞一個(gè)對(duì)于特定類別的重要性。
公式2: 相關(guān)性精調(diào),r(v,y)是一個(gè)標(biāo)簽詞v和標(biāo)簽y的相關(guān)性,類似于TF項(xiàng)。右邊一項(xiàng)則類似IDF項(xiàng),我們要求這一項(xiàng)大也就是要求v和其非對(duì)應(yīng)類相關(guān)性小。
03
可學(xué)習(xí)精調(diào)
在少樣本實(shí)驗(yàn)中,我們可以為每個(gè)標(biāo)簽詞賦予一個(gè)可學(xué)習(xí)的權(quán)重,因此每個(gè)標(biāo)簽詞的重要性就變成:
公式3:可學(xué)習(xí)的標(biāo)簽詞權(quán)重。
04
基于上下文的校準(zhǔn)
在零樣本實(shí)驗(yàn)中不同標(biāo)簽詞的先驗(yàn)概率可能差得很多,例如預(yù)測(cè) basketball可能天然比fencing大,會(huì)使得很多小眾標(biāo)簽詞影響甚微。我們使用校準(zhǔn)的方式來平衡這種影響。
公式4: 基于上下文的校準(zhǔn),分母是公式1中的先驗(yàn)概率。
使用上以上這些精調(diào)方法,我們知識(shí)庫(kù)擴(kuò)展的標(biāo)簽詞就能有效使用了。
實(shí)驗(yàn)
表2:零樣本文本分類任務(wù)。
如表2所示,零樣本上相比于普通的Prompt模板,性能有15個(gè)點(diǎn)的大幅長(zhǎng)進(jìn)。相比于加上了標(biāo)簽詞精調(diào)的也最多能有8個(gè)點(diǎn)的提高。我們提出的頻率精調(diào),相關(guān)性精調(diào)等也各有用處。
表3:少樣本文本分類任務(wù)。
如表3所示,在少樣本上我們提出的可學(xué)習(xí)精調(diào)搭配上相關(guān)性精調(diào)也有較大提升。AUTO和SOFT都是自動(dòng)的標(biāo)簽詞優(yōu)化方法,其中SOFT以人工定義的標(biāo)簽詞做初始化,可以看到這兩種方法的效果都不如KPT。
圖2: SPORTS和BUSINESS類的知識(shí)庫(kù)擴(kuò)展的標(biāo)簽詞對(duì)于預(yù)測(cè)的貢獻(xiàn)。
標(biāo)簽詞的可視化表明,每一條句子可能會(huì)依賴不同的標(biāo)簽詞進(jìn)行預(yù)測(cè),完成了我們?cè)黾痈采w面的預(yù)期。
總結(jié)
最近比較受關(guān)注的Prompt Learning方向,除了template的設(shè)計(jì),verbalizer的設(shè)計(jì)也是彌補(bǔ)MLM和下游分類任務(wù)的重要環(huán)節(jié)。我們提出的基于知識(shí)庫(kù)的擴(kuò)展,直觀有效。同時(shí)也為如何在預(yù)訓(xùn)練模型的的利用中引入外部知識(shí)提供了一些參考。
審核編輯:郭婷
-
頻率
+關(guān)注
關(guān)注
4文章
1513瀏覽量
59268 -
知識(shí)庫(kù)
+關(guān)注
關(guān)注
0文章
10瀏覽量
6726
原文標(biāo)題:ACL2022 | KPT: 文本分類中融入知識(shí)的Prompt Verbalizer
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論