0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FLAT的一種改進(jìn)方案

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:小任學(xué)不廢 ? 作者:小任學(xué)不廢 ? 2022-08-19 11:55 ? 次閱讀

許久沒(méi)有更新,今天來(lái)水一篇之前在arXiv上看到的論文,這篇NFLAT是對(duì)FLAT的改進(jìn)(其實(shí)也是對(duì)TENER的改進(jìn)),F(xiàn)LAT在文本后面掛單詞的方式可能會(huì)導(dǎo)致文本長(zhǎng)度過(guò)長(zhǎng),論文中講長(zhǎng)度平均會(huì)增加40%,從而導(dǎo)致:

self-attention的時(shí)候計(jì)算量和顯存占用量增大,限制了FLAT對(duì)更大更復(fù)雜的詞表的使用;

有一些冗余計(jì)算,比如“word-word”和“word-character”級(jí)別的self attention是沒(méi)有必要做的,因?yàn)樵贔LAT中word部分在解碼的時(shí)候會(huì)被mask掉(如下圖),不參與后續(xù)計(jì)算,所以只需要"character-character"和“character-word”級(jí)別的self-attention。

4eb1877a-19eb-11ed-ba43-dac502259ad0.pngFLAT中word部分在解碼的時(shí)候會(huì)被MASK掉

其實(shí)講到這里,相信讀者們也看出來(lái)了,改進(jìn)思路已經(jīng)比較明顯了:既然只要"character-character"和“character-word”級(jí)別的self-attention,那么就拆開(kāi)搞,「不要把word往句子后面拼了,而是character有一個(gè)序列(原始文本序列),word有一個(gè)序列(原始文本序列在外部詞表中匹配出來(lái)的單詞序列)」

先進(jìn)行“character-word”的attention,獲得融合了word邊界和語(yǔ)義信息的character表征——論文中稱(chēng)這部分叫「InterFormer」;

再做"character-character"級(jí)別的self-attention,獲取最終character表征——「Transformer Encoder」,論文這部分用的TENER對(duì)Transformer Encoder的改動(dòng),所以其實(shí)這篇論文也是對(duì)TENER的改進(jìn)方案,「是TENER+外部詞典的解決方案」。

Linear Project + CRF

模型分為上面所說(shuō)的三個(gè)模塊,接下來(lái)我們一個(gè)一個(gè)介紹。

模型

4ed113ba-19eb-11ed-ba43-dac502259ad0.pngNFLAT模型結(jié)構(gòu)

1. InterFormer

其實(shí)就是Transformer Encoder的改進(jìn)版,InterFormer包含多頭inter-attention和一個(gè)FFN,目的是構(gòu)建non-flat-lattice,可以同時(shí)對(duì)character和word兩個(gè)不同長(zhǎng)度的序列進(jìn)行建模,讓他們交互,從而獲得融合了word邊界和語(yǔ)義信息的character表征。

對(duì)Transformer Encoder的改進(jìn)主要是:

「attention中query/key/value不再同源」,也就不再是self-attention,「character序列作為query的輸入,word序列作為key和value的輸入」。這樣的話attention在character序列中每個(gè)字上的輸出就是word序列中與這個(gè)字相關(guān)的word表征(value)的加權(quán)求和的結(jié)果。

他們?cè)趙ord序列中加入了一個(gè)標(biāo)記,這樣的話,如果character序列中的某個(gè)character與單詞序列沒(méi)啥關(guān)系的時(shí)候,總不至于強(qiáng)行加權(quán)求和,論文的分析部分表示這個(gè)還是有用的,但論文沒(méi)有做消融實(shí)驗(yàn),這里我就不列了,感興趣可以去看一下原文。

「參考了TransformerXL和FLAT中的相對(duì)位置編碼部分,同時(shí)做了一些改動(dòng)」。

下面直接列公式了:

輸入:character序列embedding ,word序列embedding。

獲取QKV表征:

計(jì)算Inter-Attention

4eec8d3e-19eb-11ed-ba43-dac502259ad0.png

是attention中常規(guī)操作,就是對(duì)序列中padding部分的score賦一個(gè)很小的值,讓softmax后結(jié)果為0的;

的計(jì)算方法參考了TransformerXL,只是相對(duì)距離的表征的計(jì)算方式不太一樣,是參考FLAT,但也做了一些改動(dòng),F(xiàn)LAT中計(jì)算了四種位置距離表征:head-head, head-tail, tail-head, tail-tail,但這里只有兩種位置距離:character head - word head ()和 character tail - word tail ()。

同樣這個(gè)Inter-attention也可以做成multi-head attention的方式:

4f0c8972-19eb-11ed-ba43-dac502259ad0.png

然后是FFN、殘差連接、PostNorm

4f233546-19eb-11ed-ba43-dac502259ad0.png

通過(guò)上面的這一系列操作,我們就獲得了“「融合了word邊界和語(yǔ)義信息的character表征」”。

2. Transformer Encoder

然后進(jìn)行"character-character"級(jí)別的上下文編碼,用TENER中改造的Transformer Encoder,也就是兩部分改動(dòng):

Un-scaled Dot-Product Attention,TENER中發(fā)現(xiàn)不進(jìn)行scale的attention比進(jìn)行了scale的在NER上的效果要好;

使用了對(duì)方向和距離敏感的相對(duì)位置編碼,其實(shí)和上面Inter-attention中相對(duì)位置編碼差不多,就是就只有query位置-value位置。

4f32ae0e-19eb-11ed-ba43-dac502259ad0.png

所以NFLAT其實(shí)就是在TENER前面加了一個(gè)模塊。

3. 最后就是CRF層

實(shí)驗(yàn)結(jié)果

數(shù)據(jù):

4f43dcb0-19eb-11ed-ba43-dac502259ad0.png數(shù)據(jù)集

外部詞表:

外部詞表他們主要采用了:https://github.com/jiesutd/RichWordSegmentor

結(jié)果:

如下圖,可以看到,NFLAT在4個(gè)數(shù)據(jù)集上效果都還挺好的,達(dá)到了SOTA。

4f52a7fe-19eb-11ed-ba43-dac502259ad0.png實(shí)驗(yàn)結(jié)果

效率分析

時(shí)間復(fù)雜度:

n是character序列長(zhǎng)度,m是word序列的長(zhǎng)度,一般n越長(zhǎng),m越長(zhǎng),所以看復(fù)雜度的話NFLAT還是降低了許多了,作者們還做了相關(guān)的實(shí)驗(yàn),每種長(zhǎng)度挑選1000個(gè)句子,用batch_size=1計(jì)算跑完1k條句子的時(shí)間(3090的卡),發(fā)現(xiàn)句子長(zhǎng)度大于400的時(shí)候,NFLAT與FLAT的速度才會(huì)有差距。

4f6ae2ec-19eb-11ed-ba43-dac502259ad0.png運(yùn)行時(shí)間對(duì)比

FLAT:

NFLAT:

空間復(fù)雜度:

顯存占用還是有明顯差別的:

4f81568a-19eb-11ed-ba43-dac502259ad0.png顯存占用對(duì)比

FLAT:O((n+m)^{2})

NFLAT:

差不多,這篇論文就到這里吧。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼
    +關(guān)注

    關(guān)注

    0

    文章

    181

    瀏覽量

    27389
  • 顯存
    +關(guān)注

    關(guān)注

    0

    文章

    108

    瀏覽量

    13659
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24700

原文標(biāo)題:中文NER | 江南大學(xué)提出NFLAT:FLAT的一種改進(jìn)方案

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種改進(jìn)的DSP固定點(diǎn)采樣算法

    一種改進(jìn)的DSP固定點(diǎn)采樣算法
    發(fā)表于 08-20 23:34

    分享一種DTMF信號(hào)檢測(cè)器工程的應(yīng)用方案

    基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTMF檢測(cè)算法基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTMF解碼仿真結(jié)果分享一種DTMF信號(hào)檢測(cè)器工程的應(yīng)用方案
    發(fā)表于 06-03 07:03

    一種消息恢復(fù)型數(shù)字簽名方案改進(jìn)

    研究一種消息恢復(fù)型數(shù)字簽名方案,該方案不需要hash函數(shù)和消息冗余就能抵抗偽造攻擊。討論已有的攻擊方法和一種能夠抵抗這些攻擊的改進(jìn)
    發(fā)表于 04-23 10:08 ?14次下載

    一種改進(jìn)的強(qiáng)代理簽名方案

    基于Lee 等人提出的修改的LKK 型方案,提出了一種改進(jìn)的強(qiáng)代理簽名方案。新方案在授權(quán)階段采用CA 認(rèn)證的密鑰生成協(xié)議,解決了原
    發(fā)表于 08-13 08:54 ?23次下載

    一種離線模式下CRL機(jī)制的改進(jìn)方案

    本文分析了幾種主要的CRL 機(jī)制及OCSP 協(xié)議,并提出了一種離線模式下CRL 機(jī)制的改進(jìn)方案——基于P2P 分布式CRL 列表的證書(shū)撤消系統(tǒng),此系統(tǒng)利用CRL 發(fā)布點(diǎn)技術(shù)與重疊發(fā)布增量 CRL 機(jī)
    發(fā)表于 08-13 09:23 ?12次下載

    一種改進(jìn)的TPM檢測(cè)方案

    在保持TPM高匿名度的前提下,針對(duì)可信計(jì)算(TC)的直接匿名驗(yàn)證(DAA)協(xié)議中使用可變名字基時(shí)檢測(cè)克隆可信平臺(tái)模塊(TPM)存在的困難,提出了一種基于DAA證書(shū)頒發(fā)者的檢測(cè)方案,該方案不僅
    發(fā)表于 03-01 15:41 ?13次下載

    一種改進(jìn)的各向異性高斯濾波算法

    一種改進(jìn)的各向異性高斯濾波算法摘 要:為了抑制更好的抑制噪聲保留邊緣信息, 提出了一種各向異性高斯濾波的改進(jìn)方法, 該方法先用中值濾波去除椒鹽噪聲, 再
    發(fā)表于 04-23 14:59 ?19次下載

    一種改進(jìn)的AODV路由算法設(shè)計(jì)

    本內(nèi)容提出了一種改進(jìn)的AODV路由算法設(shè)計(jì)
    發(fā)表于 05-26 16:23 ?32次下載
    <b class='flag-5'>一種</b><b class='flag-5'>改進(jìn)</b>的AODV路由算法設(shè)計(jì)

    Whirlpool的一種改進(jìn)算法

    文中借鑒分組密碼AES-256的密鑰擴(kuò)展思想,提出一種Whirlpool的消息擴(kuò)展改進(jìn)方案,同時(shí)增加分組迭代的輪數(shù)。改進(jìn)方案在不降低原算法的
    發(fā)表于 11-30 17:18 ?13次下載
    Whirlpool的<b class='flag-5'>一種</b><b class='flag-5'>改進(jìn)</b>算法

    一種改進(jìn)的鄰近粒子搜索算法

    一種改進(jìn)的鄰近粒子搜索算法
    發(fā)表于 01-07 20:32 ?0次下載

    基于一種改進(jìn)PSO辨識(shí)算法的DOB設(shè)計(jì)_陳鵬亮

    基于一種改進(jìn)PSO辨識(shí)算法的DOB設(shè)計(jì)_陳鵬亮
    發(fā)表于 01-21 12:16 ?1次下載

    一種改進(jìn)的自由搜索算法_任誠(chéng)

    一種改進(jìn)的自由搜索算法_任誠(chéng)
    發(fā)表于 03-14 17:47 ?3次下載

    一種改進(jìn)的MIMOOFDM幀同步算法.pdf

    一種改進(jìn)的MIMOOFDM幀同步算法.pdf
    發(fā)表于 04-19 11:15 ?0次下載

    一種改進(jìn)的web威脅態(tài)勢(shì)力分析方法

    一種改進(jìn)的web威脅態(tài)勢(shì)力分析方法
    發(fā)表于 06-08 15:22 ?9次下載

    一種基于自適應(yīng)鄰域策略的改進(jìn)算法

    一種基于自適應(yīng)鄰域策略的改進(jìn)算法
    發(fā)表于 06-27 15:27 ?10次下載