0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新型的雙流注意力增強(qiáng)型BERT來提高捕捉句子對中細(xì)微差異的能力

深度學(xué)習(xí)自然語言處理 ? 來源:克魯斯卡 ? 作者:吳彧zero ? 2022-11-11 16:04 ? 次閱讀

1. Abstract

這篇paper主要是針對于傳統(tǒng)的預(yù)訓(xùn)練語言模型捕捉細(xì)微差異能力不足的問題,像添加和刪除單詞、修改句子等微小的噪音就可能會導(dǎo)致模型預(yù)測錯誤

因此,該論文提出一種新型的雙流注意力增強(qiáng)型bert(DABERT,Dual Attention Enhanced BERT ),用來提高捕捉句子對中細(xì)微差異的能力,包括兩個模塊,

(1)雙流注意力模塊,通過引入新的雙通道對齊機(jī)制來測量軟詞匹配,來建模相似注意力和差異注意力

(2)自適應(yīng)融合模塊,使用注意力機(jī)制來學(xué)習(xí)差異和相似特征的聚合,并生成一個描述句對匹配細(xì)節(jié)的向量

2. Motivation

之前的研究提出的方法在區(qū)分字面上相似但語義不同的句子對方面表現(xiàn)不佳,這可能是因為self-attention機(jī)制是利用上下文來理解token的語義,但這樣忽略了句子對之間的語義差異,因此為了更好的整合句子對之間的更加細(xì)粒度的差別,將difference向量和affinity向量放在一起建模

difference vector為差異向量

affinity vector為相似向量,即普通的attention得到的向量表示

7badfadc-4b79-11ed-a3b6-dac502259ad0.png

字面意義相似但語義不同的例句,S1和S2是一對句子

2.1 Two questions

有了上面的思路之后,就自然而然的產(chǎn)生了兩個關(guān)鍵問題

Q1:如何使普通的注意力機(jī)制能夠?qū)渥訉χg細(xì)微差別的語義進(jìn)行建模?

Vanilla attention,或稱為affinity attention,并不太關(guān)注句子對之間的細(xì)微差別,要提升這個能力,一個直觀的解決方案是在表示向量之間做減法,以捕獲它們的語義差異。論文中提出了一個雙注意力模塊,包括差異注意力和普通注意力。差異注意力使用基于減法的cross-attention來聚合詞和短語層面的交互差異。同時,為了充分利用差異信息,使用雙通道將差異信息注入Transformer中的multi-head attention,以獲得描述相似和差異的語義表示。

Q2:如何將兩類語義表示融合為一個統(tǒng)一的表示?

通過額外的結(jié)構(gòu)對兩種信號進(jìn)行硬融合可能會破壞預(yù)訓(xùn)練模型的表示能力,如何將這些信息更柔和地注入到預(yù)訓(xùn)練的模型中仍然是一個難題。論文中提出了一個自適應(yīng)融合模塊,使用額外的注意力來學(xué)習(xí)差異和相似特征,以產(chǎn)生描述句子匹配細(xì)節(jié)的向量。

它首先通過不同的注意力將兩個信號相互對齊以捕獲語義交互,然后使用門控來自適應(yīng)地融合差異特征。這些生成的向量通過另一個 fuse-gate 進(jìn)一步縮放,以減少差異信息對預(yù)訓(xùn)練模型的損害,輸出的最終向量可以更好地描述句子對的匹配細(xì)節(jié)。

3. Main contributions

明確地對句子對之間的細(xì)粒度差異語義進(jìn)行建模,進(jìn)而有效地提升句子語義匹配任務(wù)的效果,并且提出了一種基于BERT的新型雙流注意力增強(qiáng)機(jī)制

提出的DABERT模型使用雙流注意力來分別關(guān)注句子對中的相似性和差異性特征,并采用soft-integrated的調(diào)節(jié)機(jī)制來自適應(yīng)地聚合這兩個特征,使得生成的向量可以更好地描述句子對的匹配細(xì)節(jié)

4. Semantic Sentence Matching

先介紹一下句子語義匹配任務(wù)(SSM, Semantic Sentence Matching),其目標(biāo)是比較兩個句子并識別它們的語義關(guān)系。

在轉(zhuǎn)述識別中,SSM用來確定兩個句子是否是轉(zhuǎn)述關(guān)系;在自然語言推理任務(wù)中,SSM用來判斷一個假設(shè)句是否可以從一個前提句中推斷出來;在QA任務(wù)中,SSM被用來評估問題-答案之間的相關(guān)性,并對所有候選回答進(jìn)行排序。

處理句子語義匹配任務(wù)一般可分為兩個主要的研究方向:

利用句子編碼器將句子轉(zhuǎn)換為潛在空間中的低維向量,并應(yīng)用參數(shù)化的函數(shù)來學(xué)習(xí)二者之間的匹配分?jǐn)?shù)

采用注意力機(jī)制來計算兩個句子token之間的分?jǐn)?shù),然后將匹配分?jǐn)?shù)匯總,做出句子級的決策

還有通過注入知識來解決該問題的嘗試,如SemBERT,UER-BERT,Syntax-BERT等

5. Model architecture

DABERT是對原始 Transformer結(jié)構(gòu)的修改,其結(jié)構(gòu)如下所示

7bc2d056-4b79-11ed-a3b6-dac502259ad0.png

The overall architecture of Dual Attention Enhanced BERT (DABERT). The left side is the Dual attention module, and the right side is the Adaptive Fusion module

在這個新結(jié)構(gòu)中包括兩個子模塊

(1)雙注意力模塊,它在多頭注意力中使用雙通道機(jī)制來匹配兩個句子之間的單詞,每個通道使用不同的注意力頭,分別計算affinity 和 difference分?jǐn)?shù),得到兩個表征,分別測量相似 和 差異信息。

(2)自適應(yīng)融合模塊,用于融合雙流注意力得到的表征,首先使用guide-attention來對齊兩個信號,然后使用多個門控模塊來融合這兩個信號,最終輸出一個包括更細(xì)粒度的匹配細(xì)節(jié)的向量

5.1 Dual Attention Module

在這個模塊中,使用兩個不同的注意力函數(shù),即常規(guī)注意力和差異注意力,來比較兩個句子之間向量的相似度和差異度。雙重注意力模塊的輸入是的三要素,其中是潛在維度,是序列長度。

雙流注意力模塊通過兩個獨立的注意力機(jī)制計算K、Q和V之間的潛在關(guān)系,以測量它們的相似度和差異度。因此該模塊會產(chǎn)生兩組注意力表征,后續(xù)由自適應(yīng)融合模塊處理。

7becf048-4b79-11ed-a3b6-dac502259ad0.png

雙流注意力模塊

5.1.1 Affinity Attention

相似注意力是雙流注意力的一部分,它是標(biāo)準(zhǔn)的點積注意力,按照Transformer的默認(rèn)操作進(jìn)行計算。該模塊的輸入包括query和維度為的key,以及維度為的value。

計算query與所有key的點積,將每個點積除以,并使用softmax函數(shù)來獲得數(shù)值的權(quán)重,將輸出的相似向量表示為

其中,表示描述由Transformer原始注意力模塊生成的相似表達(dá)的向量。

5.1.2 Difference Attention

雙流注意力的第二部分是差異注意力模塊,用于捕捉和聚合句子對之間的差異信息,采用基于減法的cross-attention機(jī)制,它允許模型通過element-wise的減法來捕獲句子對之間的差別,如

其中,是輸入序列長度,
表示差異注意力模塊所產(chǎn)生的表示。是一個Mask操作。相似注意力和差異注意力都被用來建模句子對之間的語義關(guān)系,并分別從相似和差異的角度獲得相同維度的表征,這種雙通道機(jī)制可以獲得描述句子匹配的更詳細(xì)的表征。

5.2 Adaptive Fusion Module

使用自適應(yīng)融合模塊來融合相似表示A和差異表示D,因為直接融合(即平均嵌入向量)可能會損害預(yù)訓(xùn)練模型的原始表示能力

7c06ae48-4b79-11ed-a3b6-dac502259ad0.png

自適應(yīng)融合模塊

融合過程包括三個步驟

通過affinity-guided attention和difference-guided attention,靈活地與這兩個表示進(jìn)行互動和對齊

采用多個門控模塊來選擇性地提取交互語義信息

為了減輕差異表示對預(yù)訓(xùn)練模型的損害,我們利用filter gates來自適應(yīng)地過濾掉噪聲信息,最后生成更好描述句子匹配細(xì)節(jié)的向量

poYBAGNuAuSAI8xmAAG9dHdCw40842.jpg
pYYBAGNuAuuAWhkwAAE0dIetS7s373.jpg

6. Experimental and Results analysis

6.1 Datasets

作者主要做了語義匹配和模型魯棒性的實驗,用到的數(shù)據(jù)集分別如下

Semantic Matching

GLUE的6個句對數(shù)據(jù)集:MRPC、QQP、STS-B、MNLI、RTE、QNLI

其他4個流行的數(shù)據(jù)集:SNLI、SICK、TwitterURL、Scitail

Robustness Test

利用TextFlint對多個數(shù)據(jù)集(Quora、SNLI、MNLI-m/mm)進(jìn)行轉(zhuǎn)化,包括特定任務(wù)的轉(zhuǎn)化(SwapAnt、NumWord、AddSent)和一般轉(zhuǎn)化(InsertAdv、Appendlrr、AddPunc、BackTrans、TwitterType、SwapNamedEnt、SwapSyn-WordNet)

TextFlint是一個自然語言處理模型的魯棒性評估平臺。它包括80多種模式來變形數(shù)據(jù),包括插入標(biāo)點符號,改變文本中的數(shù)字,替換同義詞,修改副詞,刪除單詞等,可以有效地評估模型的魯棒性和泛化性

6.2 Baselines

BERT、SemBERT、SyntaxBERT、URBERT和其他多個PLM

此外,還選擇了幾個沒有預(yù)訓(xùn)練的競爭模型作為基線,如ESIM,Transformer等

在魯棒性實驗中,比較了多個預(yù)訓(xùn)練模型和SemBERT,URBERT、Syntax-BERT

6.3 Results analysis

更具體的實驗結(jié)果這里就不羅列了,只看一下論文作者對于一些結(jié)果的解釋

模型表現(xiàn)優(yōu)于SyntaxBERT,這是之前利用外部知識的最佳模型,基于BERT-large的平均相對改進(jìn)為0.86%。在QQP數(shù)據(jù)集上,DABERT的準(zhǔn)確性比SyntaxBERT明顯提高了2.4%。造成這種結(jié)果的主要原因有兩個

使用雙流注意力來增強(qiáng)DABERT捕捉差異特征的能力,這使得DABERT能夠獲得更精細(xì)的交互匹配特征

對于外部結(jié)構(gòu)引入的潛在噪聲問題,自適應(yīng)融合模塊可以有選擇地過濾掉不合適的信息,以抑制噪聲的傳播,而以前的工作似乎沒有對這個問題給予足夠的關(guān)注

SyntaxBERT仍在幾個數(shù)據(jù)集上取得了稍好的準(zhǔn)確性,作者認(rèn)為這是句法和依存知識的內(nèi)在關(guān)聯(lián)性的結(jié)果

7c36196c-4b79-11ed-a3b6-dac502259ad0.png

The performance comparison of DABERT with other methods. Accuracy × 100 on 6 GLUE datasets. Methods with ? indicate the results from their papers, while methods with ? indicate our implementation

Robustness Test Performance

下表列出了DABERT和六個基線模型在三個數(shù)據(jù)集上的準(zhǔn)確性??梢杂^察到,

SwapAnt的性能表現(xiàn)最差,而DABERT在SwapAnt(QQP)上優(yōu)于最佳模型SemBert近10%,這表明DABERT比基線模型更能處理反義詞引起的語義矛盾

NumWord轉(zhuǎn)換,BERT模型性能下降到56.96%,而DABERT優(yōu)于BERT近6%,因為它要求模型捕捉細(xì)微的數(shù)字差異,以進(jìn)行正確的語言推理

SwapSyn變換,UERBERT明顯優(yōu)于其他基線模型,因為它明確使用同義詞相似性矩陣來校準(zhǔn)注意力分布,而DABERT在不添加外部知識的情況下仍能達(dá)到與UERBERT相當(dāng)?shù)男阅?/strong>

TwitterType和AddPunc,注入句法樹的SyntaxBERT性能明顯下降,這可能是因為將文本轉(zhuǎn)換為twitter類型或添加標(biāo)點符號破壞了句子的正常句法結(jié)構(gòu),而DABERT在這兩種轉(zhuǎn)換中仍然取得了不錯的的性能

在其他情況下,DABERT也取得了更好的性能,因為它捕捉到了句子對的細(xì)微差別。同時,ESIM的表現(xiàn)最差,結(jié)果反映出預(yù)訓(xùn)練機(jī)制得益于豐富的外部資源,并提供了比從頭訓(xùn)練的模型更好的泛化能力。

而改進(jìn)后的預(yù)訓(xùn)練模型SyntaxBERT比原來的BERT模型表現(xiàn)更好,這反映出足夠的預(yù)訓(xùn)練語料和合適的外部知識融合策略有助于提高模型的泛化性能。

7c6bc9ea-4b79-11ed-a3b6-dac502259ad0.png

Robustness Test Performance

6.4 Ablation Study

作者在QQP和QNLI數(shù)據(jù)集上進(jìn)行了基于BERT的消融實驗

去掉相似注意力后,模型在兩個數(shù)據(jù)集上的性能分別下降了1.8%和0.7%。相似注意力可以捕捉到詞對之間的動態(tài)對齊關(guān)系,這對SSM任務(wù)至關(guān)重要

去掉差異注意力后,兩個數(shù)據(jù)集的性能分別下降了1.5%和0.6%。差異信息可以進(jìn)一步描述詞與詞之間的相互作用,并且可以為預(yù)訓(xùn)練的模型提供更精細(xì)的比較信息,從而使模型獲得更好的表現(xiàn)

上述實驗表明,去除子模塊后,性能急劇下降,這表明了雙流注意力模塊內(nèi)部組件的有效性

自適應(yīng)融合模塊中,作者也進(jìn)行了幾次實驗來驗證相似和差異向量的融合效果。在QQP數(shù)據(jù)集上,

刪除引導(dǎo)注意力模塊(guide attention),性能下降到90.4%。因為引導(dǎo)注意力可以捕捉到兩種表示之間的相互作用,這種相互作用信息對于融合兩個不同的信息至關(guān)重要

去掉fusion gate后,只通過簡單的平均來整合兩個表示,準(zhǔn)確率下降到91.4%,表明根據(jù)不同的權(quán)重動態(tài)地合并相似和差異向量可以提高模型的性能

移出filter gate后,準(zhǔn)確率下降了0.4%,表明沒有filter gate,模型抑制噪聲的能力被削弱了

用簡單的平均代替整體聚合和調(diào)節(jié)模塊,性能急劇下降到89.4%。雖然差異信息對判斷句對關(guān)系至關(guān)重要,但將差異信息硬性整合到PLM中會破壞其預(yù)存的知識,而更柔和的聚合和處理可以更好地利用差異信息

總的來說,通過各個部分的有效組合,DABERT可以自適應(yīng)地將差異特征融合到預(yù)訓(xùn)練的模型中,并利用其強(qiáng)大的上下文表示法來更好地推斷語義

7c873cac-4b79-11ed-a3b6-dac502259ad0.png

Results of component ablation experiment

6.5 Case Study

為了直觀地了解DABERT的工作情況,作者使用下表中的三個案例進(jìn)行定性分析。

在第一種情況下,非預(yù)訓(xùn)練的語言模型ESIM很難捕捉到由差異詞引起的語義沖突。因此,ESIM在案例1中給出了錯誤的預(yù)測結(jié)果。

BERT在案例1中可以借助于上下文來識別語義差異,但在案例3中,BERT不能捕捉到數(shù)字 "12 "和 "24 "之間的差異,并給出了錯誤的預(yù)測。

SyntaxBERT通過引入句法樹來加強(qiáng)文本理解,由于案例2和案例3具有相同的句法結(jié)構(gòu),SyntaxBERT也給出了錯誤的預(yù)測

總的來說,這幾種不同的情況,上述三種模型都有其處理不了的原因,反觀DABERT在上述所有的情況下都做出了正確的預(yù)測。

由于DABERT通過差異注意力明確地關(guān)注句子對中的不同部分,并在自適應(yīng)融合模塊中自適應(yīng)地聚合相似和差異信息,它可以識別由句子對內(nèi)的細(xì)微差異引起的語義差異

7cac64fa-4b79-11ed-a3b6-dac502259ad0.png

Example sentence pairs, Red and Blue are difference phrases in sentence pair.

Attention Distribution

為了驗證基于減法的注意力對差異信息的融合效果,作者還在下圖中展示了BERT和DABERT的權(quán)重分布并進(jìn)行比較。

可以看出,雙流注意力得到的注意力矩陣分布變得更加合理,尤其是 "hardware "和 "software"之間的注意力權(quán)重明顯增加,這表明DABERT給句子對的差異之處給予了更多的關(guān)注

7d337986-4b79-11ed-a3b6-dac502259ad0.png

Distribution of BERT (a) and DABERT (b)

7. Conclusion

總結(jié)一下,這篇論文是通過改變傳統(tǒng)Transformer中的注意力結(jié)構(gòu)來達(dá)到優(yōu)化注意力權(quán)重分布的效果,進(jìn)而讓模型可以將句子對之間的向量表示有差別的地方凸顯出來,而相似的地方更加靠近。

在保持原始預(yù)訓(xùn)練語言模型不被影響到情況下,增強(qiáng)模型的表示能力,并且做了大量的實驗來證明,比之前的工作得到了更好的效果。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ssm
    ssm
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    11408
  • MRPC
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    1272

原文標(biāo)題:清華&美團(tuán)提出:DABERT — 雙流注意力增強(qiáng)型BERT,自適應(yīng)融合提升模型效果 | COLING'22

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪

    一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪
    發(fā)表于 01-07 22:23 ?0次下載

    DeepMind為視覺問題回答提出了一種新的硬注意力機(jī)制

    然而,在基于梯度的學(xué)習(xí)框架(如深度學(xué)習(xí))存在個關(guān)鍵的缺點:因為選擇要處理的信息的過程是離散化的,因此也就是不可微分的,所以梯度不能反向傳播到選擇機(jī)制支持基于梯度的優(yōu)化。目前研究
    的頭像 發(fā)表于 08-10 08:44 ?6243次閱讀

    北大研究者創(chuàng)建了一種注意力生成對抗網(wǎng)絡(luò)

    同時我們還將完整的GAN結(jié)構(gòu)和我們網(wǎng)絡(luò)的部分相對比:A表示只有自動編碼器,沒有注意力地圖;A+D表示沒有注意力自動編碼器,也沒有注意力判別器;A+AD表示沒有注意力自動編碼器,但是有
    的頭像 發(fā)表于 08-11 09:22 ?4989次閱讀

    一種通過引入硬注意力機(jī)制引導(dǎo)學(xué)習(xí)視覺回答任務(wù)的研究

    ),用于通過頂層正則化項選擇固定數(shù)量的特征向量。第二個版本我們稱之為自適應(yīng)的硬注意力網(wǎng)絡(luò) AdaHAN (Hard Hard Attention Network),這是基于輸入決定特征向量的可變數(shù)量的
    的頭像 發(fā)表于 10-04 09:23 ?5499次閱讀

    深度分析NLP注意力機(jī)制

    注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn),因此對注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對注意力機(jī)制做了較為全面的綜述。
    的頭像 發(fā)表于 02-17 09:18 ?3882次閱讀

    注意力機(jī)制的誕生、方法及幾種常見模型

    簡而言之,深度學(xué)習(xí)注意力機(jī)制可以被廣義地定義為個描述重要性的權(quán)重向量:通過這個權(quán)重向量為了預(yù)測或者推斷個元素,比如圖像的某個像素或
    的頭像 發(fā)表于 03-12 09:49 ?4.2w次閱讀

    一種自監(jiān)督同變注意力機(jī)制,利用自監(jiān)督方法彌補監(jiān)督信號差異

    本文提出了一種自監(jiān)督同變注意力機(jī)制(self-supervised equivariant attention mechanism,簡稱SEAM),利用自監(jiān)督方法彌補監(jiān)督信號差異。在
    的頭像 發(fā)表于 05-12 10:16 ?7855次閱讀
    <b class='flag-5'>一種</b>自監(jiān)督同變<b class='flag-5'>注意力</b>機(jī)制,利用自監(jiān)督方法<b class='flag-5'>來</b>彌補監(jiān)督信號<b class='flag-5'>差異</b>

    一種全新的多階段注意力答案選取模型

    信息與問題關(guān)鍵信息的多階段注意力答案選取模型。該方法首先利用雙向LSTM模型分別對問題和候選答案進(jìn)行語義表示;然后采用問題的關(guān)鍵信息,包括問題類型和問題中心詞,利用注意力機(jī)制對候選答案集合進(jìn)行信息增強(qiáng),篩選?opK個候
    發(fā)表于 03-24 11:17 ?8次下載
    <b class='flag-5'>一種</b>全新的多階段<b class='flag-5'>注意力</b>答案選取模型

    一種注意力增強(qiáng)的自然語言推理模型aESIM

    在自然語言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此,提出一種注意力增強(qiáng)的自然語言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層
    發(fā)表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b><b class='flag-5'>注意力</b><b class='flag-5'>增強(qiáng)</b>的自然語言推理模型aESIM

    一種上下文感知與層級注意力網(wǎng)絡(luò)的文檔分類方法

    集中于當(dāng)前所編碼的句子,并沒有有效地將文檔結(jié)構(gòu)知識整合到體系結(jié)構(gòu)。針對此問題,提出種上下文感知與層級注意力網(wǎng)絡(luò)的文檔分類方法( CAHAN)。該方法采用分層結(jié)構(gòu)表示文檔的層次結(jié)構(gòu),
    發(fā)表于 04-02 14:02 ?3次下載
    <b class='flag-5'>一種</b>上下文感知與層級<b class='flag-5'>注意力</b>網(wǎng)絡(luò)的文檔分類方法

    增強(qiáng)型鉛塑封裝的應(yīng)用注意事項

    增強(qiáng)型鉛塑封裝的應(yīng)用注意事項
    發(fā)表于 05-14 14:34 ?5次下載
    熱<b class='flag-5'>增強(qiáng)型</b>鉛塑封裝的應(yīng)用<b class='flag-5'>注意</b>事項

    如何用番茄鐘提高注意力

    電子發(fā)燒友網(wǎng)站提供《如何用番茄鐘提高注意力.zip》資料免費下載
    發(fā)表于 10-28 14:29 ?0次下載
    如何用番茄鐘<b class='flag-5'>提高</b><b class='flag-5'>注意力</b>

    計算機(jī)視覺注意力機(jī)制

    計算機(jī)視覺注意力機(jī)制 卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考 注意力機(jī)制簡介與分類 注意力機(jī)制(Attention Mechanism) 是機(jī)器學(xué)習(xí)
    發(fā)表于 05-22 09:46 ?0次下載
    計算機(jī)視覺<b class='flag-5'>中</b>的<b class='flag-5'>注意力</b>機(jī)制

    一種新的深度注意力算法

    本文簡介了一種新的深度注意力算法,即深度殘差收縮網(wǎng)絡(luò)(Deep Residual Shrinkage Network)。從功能上講,深度殘差收縮網(wǎng)絡(luò)是一種面向強(qiáng)噪聲或者高度冗余數(shù)據(jù)的特征學(xué)習(xí)方法
    發(fā)表于 05-24 16:28 ?0次下載
    <b class='flag-5'>一種</b>新的深度<b class='flag-5'>注意力</b>算法

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)的故障檢測對其可維護(hù)性和安全性至關(guān)重要。然而,系統(tǒng)監(jiān)測變量往往具有復(fù)雜的聯(lián)系,很難表征它們的關(guān)系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)(HGCAN),以
    的頭像 發(fā)表于 11-12 09:52 ?335次閱讀
    <b class='flag-5'>一種</b>基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)