論文提出Dynamic Memory Induction Networks (DMIN) 網(wǎng)絡(luò)處理小樣本文本分類。
兩階段的(two-stage)few-shot模型:
在監(jiān)督學(xué)習(xí)階段(綠色的部分),訓(xùn)練數(shù)據(jù)中的部分類別被選為base set,用于finetune預(yù)訓(xùn)練Encoder和分類器也就是Pretrained Encoder和Classfiier圖中的部分。
在元學(xué)習(xí)階段(紅色的部分),數(shù)據(jù)被構(gòu)造成一個(gè)個(gè)episode的形式用于計(jì)算梯度和更新模型參數(shù)。對(duì)于C-way K-shot,一個(gè)訓(xùn)練episode中的Support Set是從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇C個(gè)類別,每個(gè)類別選擇K個(gè)實(shí)例構(gòu)成的。每個(gè)類別剩下的樣本就構(gòu)成Query Set。也就是在Support Set上訓(xùn)練模型,在Query Set上計(jì)算損失更新參數(shù)。
Pretrained Encoder
用[CLS]預(yù)訓(xùn)練的句子的Bert-base Embedding來(lái)做fine-tune。$W_{base}$ 就作為元學(xué)習(xí)的base特征記憶矩陣,監(jiān)督學(xué)習(xí)得到的。
Dynamic Memory Module
在元學(xué)習(xí)階段,為了從給定的Support Set中歸納出類級(jí)別的向量表示,根據(jù)記憶矩陣 $W_{base}$ 學(xué)習(xí)Dynamic Memory Module(動(dòng)態(tài)記憶模塊)。
給定一個(gè) $M$ ( $W_{base}$ )和樣本向量 q , q 就是一個(gè)特征膠囊,所以動(dòng)態(tài)記憶路由算法就是為了得到適應(yīng)監(jiān)督信息 $ W_{base} $ 的向量 $q^{'}$ ,
$$ q^{'} \leftarrow DMR(M, q) $$ 學(xué)習(xí)記憶矩陣 $M$ 中的每個(gè)類別向量 $M^{'} $ 進(jìn)行更新,
其中
這里的 $W_j$ 就是一個(gè)權(quán)重。因此變換權(quán)重 $W_j$ 和偏差 $b_j$ 在輸入時(shí)候是可以共享的, 因此計(jì)算 $\hat{m}{ij}$ 和 $\hat{q}_j$ 之間的皮爾遜相關(guān)系數(shù)
其中
接下來(lái)就是進(jìn)行動(dòng)態(tài)路由算法學(xué)習(xí)最佳的特征映射(這里添加了$p_{ij}$到路由協(xié)議中),到第11行為止。從第12行開(kāi)始也會(huì)根據(jù)監(jiān)督學(xué)習(xí)的記憶矩陣和膠囊的皮爾遜相關(guān)系數(shù)來(lái)更新$p_{ij}$,最后把部分膠囊
編輯:jq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7077瀏覽量
89161 -
Query
+關(guān)注
關(guān)注
0文章
11瀏覽量
9371 -
小樣本
+關(guān)注
關(guān)注
0文章
7瀏覽量
6831 -
動(dòng)態(tài)路由
+關(guān)注
關(guān)注
0文章
16瀏覽量
23131 -
網(wǎng)絡(luò)處理
+關(guān)注
關(guān)注
0文章
5瀏覽量
6368
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論