0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformers內(nèi)部運(yùn)作原理研究

新機(jī)器視覺 ? 來源:我得學(xué)城 ? 2024-01-30 09:47 ? 次閱讀

Ketan Doshi | 作者 羅伯特

在第一篇文章中,我們了解了Transformer的功能、使用方式、其高級(jí)架構(gòu)以及優(yōu)勢(shì)。 前一篇文章,移步:Transformers圖解(第1部分):功能概述 在這篇文章中,我們將深入了解它的內(nèi)部運(yùn)作,詳細(xì)研究它是如何工作的。我們將看到數(shù)據(jù)如何通過系統(tǒng)流動(dòng),以及它們的實(shí)際矩陣表示和形狀,理解每個(gè)階段執(zhí)行的計(jì)算。 以下是本系列中之前和接下來文章的快速摘要。整個(gè)系列中的目標(biāo)是不僅了解某物是如何運(yùn)作的,而且為什么它以這種方式運(yùn)作。

功能概述(Transformer的使用方式以及為什么它們比RNN更好。架構(gòu)的組成部分,以及在訓(xùn)練和推理期間的行為)。

工作原理 — 本文(內(nèi)部操作端到端。數(shù)據(jù)如何流動(dòng)以及在每個(gè)階段執(zhí)行的計(jì)算,包括矩陣表示)。

多頭注意力(Transformer中注意力模塊的內(nèi)部工作)。

為什么注意力提升性能(注意力不僅做什么,還為什么它如此有效。注意力如何捕捉句子中單詞之間的關(guān)系)。

1. 架構(gòu)概述 正如我們?cè)诘谝徊糠种锌吹降?,架?gòu)的主要組件包括:

e88b0594-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像)

編碼器和解碼器的數(shù)據(jù)輸入,其中包括:

嵌入層(Embedding layer)

位置編碼層(Position Encoding layer)

解碼器堆棧包含多個(gè)解碼器。每個(gè)解碼器包含:

兩個(gè)多頭注意力層(Multi-Head Attention layer)

前饋層(Feed-forward layer)

輸出(右上方)—生成最終輸出,并包含:

線性層(Linear layer)

Softmax層(Softmax layer)

為了理解每個(gè)組件的作用,讓我們通過訓(xùn)練Transformer解決翻譯問題的過程,逐步了解Transformer的工作原理。我們將使用訓(xùn)練數(shù)據(jù)的一個(gè)樣本,其中包含輸入序列(英語中的'You are welcome')和目標(biāo)序列(西班牙語中的'De nada')。

2. 嵌入和位置編碼

與任何自然語言處理模型一樣,Transformer需要了解有關(guān)每個(gè)單詞的兩個(gè)方面:?jiǎn)卧~的含義以及它在序列中的位置。 嵌入層編碼單詞的含義。位置編碼層表示單詞的位置。Transformer通過將這兩種編碼相加來組合它們。

2.1 嵌入(embedding)

Transformer有兩個(gè)嵌入層。輸入序列被送入第一個(gè)嵌入層,稱為輸入嵌入。

e8a4f710-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 目標(biāo)序列在將目標(biāo)向右移一個(gè)位置并在第一個(gè)位置插入起始標(biāo)記后,被送入第二個(gè)嵌入層。請(qǐng)注意,在推理期間,我們沒有目標(biāo)序列,我們將輸出序列循環(huán)饋送到這第二層,正如我們?cè)诘谝徊糠种袑W(xué)到的。這就是為什么它被稱為輸出嵌入。 文本序列使用我們的詞匯表映射為數(shù)值單詞ID。然后,嵌入層將每個(gè)輸入單詞映射到一個(gè)嵌入向量,這是該單詞含義的更豐富表示。

e8b1dc0a-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像)

2.2 位置編碼

由于RNN實(shí)現(xiàn)了一個(gè)循環(huán),每個(gè)單詞都按順序輸入,它隱式地知道每個(gè)單詞的位置。 然而,Transformer不使用RNN,序列中的所有單詞都是并行輸入的。這是它相對(duì)于RNN架構(gòu)的主要優(yōu)勢(shì),但這意味著位置信息丟失了,必須單獨(dú)添加。 就像有兩個(gè)嵌入層一樣,有兩個(gè)位置編碼層。位置編碼是獨(dú)立于輸入序列計(jì)算的。這些是僅依賴于序列的最大長(zhǎng)度的固定值。例如,

第一項(xiàng)是指示第一個(gè)位置的常數(shù)代碼,

第二項(xiàng)是指示第二個(gè)位置的常數(shù)代碼,

以此類推。

這些常數(shù)是使用下面的公式計(jì)算的,其中:

pos是單詞在序列中的位置

d_model是編碼向量的長(zhǎng)度(與嵌入向量相同)

是該向量中的索引值。

e8c12f48-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 換句話說,它交替使用正弦曲線和余弦曲線,對(duì)于所有偶數(shù)索引使用正弦值,對(duì)于所有奇數(shù)索引使用余弦值。例如,如果我們對(duì)一個(gè)包含40個(gè)單詞的序列進(jìn)行編碼,我們可以看到下面是一些(單詞位置,編碼索引)組合的編碼數(shù)值。

e8cf634c-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 藍(lán)色曲線顯示了所有40個(gè)單詞位置的第0個(gè)索引的編碼,橙色曲線顯示了所有40個(gè)單詞位置的第1個(gè)索引的編碼。對(duì)于其余的索引值,將會(huì)有類似的曲線。

3. 矩陣維度

正如我們所知,深度學(xué)習(xí)模型一次處理一個(gè)批次的訓(xùn)練樣本。嵌入層和位置編碼層操作的是表示一批序列樣本的矩陣。嵌入層接收一個(gè)形狀為(樣本數(shù),序列長(zhǎng)度)的單詞ID矩陣。它將每個(gè)單詞ID編碼成一個(gè)長(zhǎng)度為嵌入大小的單詞向量,從而產(chǎn)生一個(gè)形狀為(樣本數(shù),序列長(zhǎng)度,嵌入大?。┑妮敵鼍仃?。位置編碼使用與嵌入大小相等的編碼大小。因此,它產(chǎn)生一個(gè)形狀類似的矩陣,可以添加到嵌入矩陣中。

e8de4740-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 由嵌入層和位置編碼層產(chǎn)生的形狀為(樣本數(shù),序列長(zhǎng)度,嵌入大?。┑木仃囋谡麄€(gè)Transformer中得以保留,因?yàn)閿?shù)據(jù)通過編碼器和解碼器堆棧流動(dòng),直到被最終的輸出層重新整形。 這給出了Transformer中3D矩陣維度的概念。然而,為了簡(jiǎn)化可視化,從這里開始我們將放棄第一個(gè)維度(樣本數(shù)),并使用單個(gè)樣本的2D表示。

e8fb860c-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 輸入嵌入將其輸出發(fā)送到編碼器。類似地,輸出嵌入饋入解碼器。

4. 編碼器(Encoder)

編碼器和解碼器堆棧由若干(通常為六個(gè))編碼器和解碼器連接而成。

e9126c0a-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 堆棧中的第一個(gè)編碼器從嵌入和位置編碼接收其輸入。堆棧中的其他編碼器從前一個(gè)編碼器接收其輸入。 編碼器將其輸入傳遞到多頭自注意力層。自注意力輸出傳遞到前饋層,然后將其輸出向上傳遞到下一個(gè)編碼器。

e91ff618-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 自注意力和前饋?zhàn)訉佣加欣@過它們的殘差跳連接,然后是一層歸一化。 最后一個(gè)編碼器的輸出被饋送到解碼器堆棧中的每個(gè)解碼器,如下所述。

5. 解碼器(Decoder)

解碼器的結(jié)構(gòu)與編碼器非常相似,但有一些區(qū)別。 與編碼器一樣,堆棧中的第一個(gè)解碼器從輸出嵌入和位置編碼接收其輸入。堆棧中的其他解碼器從前一個(gè)解碼器接收其輸入。 解碼器將其輸入傳遞到多頭自注意力層。這個(gè)自注意力層的運(yùn)作方式略有不同于編碼器中的自注意力層。它只允許關(guān)注序列中較早的位置。這是通過屏蔽未來位置來實(shí)現(xiàn)的,我們將很快討論。

e92ce53a-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 與編碼器不同,解碼器有第二個(gè)多頭注意力層,稱為編碼器-解碼器注意力層。編碼器-解碼器注意力層的工作方式類似于自注意力,只是它結(jié)合了兩個(gè)輸入源 —— 在它下面的自注意力層以及編碼器堆棧的輸出。 自注意力輸出傳遞到前饋層,然后將其輸出向上傳遞到下一個(gè)解碼器。 這些子層,自注意力、編碼器-解碼器注意力和前饋,都有繞過它們的殘差跳連接,然后是一層歸一化。

6. 注意力

在第一部分中,我們談到了在處理序列時(shí)為什么注意力非常重要。在Transformer中,注意力在三個(gè)地方使用:

編碼器的自注意力 — 輸入序列關(guān)注自身

解碼器的自注意力 — 目標(biāo)序列關(guān)注自身

解碼器的編碼器-解碼器注意力 — 目標(biāo)序列關(guān)注輸入序列

注意力層以三個(gè)參數(shù)的形式接收其輸入,稱為Query(查詢)、Key(鍵)和Value(值)。

在編碼器的自注意力中,編碼器的輸入傳遞給所有三個(gè)參數(shù):Query、Key 和 Value。

e93b5368-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 在解碼器的自注意力中,解碼器的輸入傳遞給所有三個(gè)參數(shù):Query、Key 和 Value。在解碼器的編碼器-解碼器注意力中,堆棧中最后一個(gè)編碼器的輸出傳遞給 Value 和 Key 參數(shù)。下面的自注意力(和層歸一化)模塊的輸出傳遞給 Query 參數(shù)。

e947ece0-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像)

7. 多頭注意力

Transformer將每個(gè)注意力處理器稱為一個(gè)注意力頭,并并行地重復(fù)多次。這被稱為多頭注意力。它通過組合多個(gè)類似的注意力計(jì)算,使得注意力具有更強(qiáng)的判別力。

e95d2d44-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) Query、Key 和 Value 分別通過單獨(dú)的線性層傳遞,每個(gè)層都有自己的權(quán)重,產(chǎn)生三個(gè)結(jié)果分別稱為 Q、K 和 V。然后,它們使用如下所示的注意力公式結(jié)合在一起,產(chǎn)生注意力分?jǐn)?shù)。

e96ed1b6-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像)

這里需要意識(shí)到的重要一點(diǎn)是,Q、K 和 V 值攜帶了序列中每個(gè)單詞的編碼表示。注意力計(jì)算然后將每個(gè)單詞與序列中的每個(gè)其他單詞結(jié)合在一起,使得注意力分?jǐn)?shù)為序列中的每個(gè)單詞編碼了一個(gè)分?jǐn)?shù)。 在稍早前討論解碼器時(shí),我們簡(jiǎn)要提到了掩碼。上述注意力圖中也顯示了掩碼。讓我們看看它是如何工作的。

8. 注意力掩碼

在計(jì)算注意力分?jǐn)?shù)時(shí),注意力模塊實(shí)施了一個(gè)掩碼步驟。掩碼有兩個(gè)目的: 在編碼器自注意力和編碼器-解碼器注意力中:掩碼用于將輸入句子中的填充位置的注意力輸出置零,以確保填充不會(huì)影響自注意力。(注意:由于輸入序列的長(zhǎng)度可能不同,它們被擴(kuò)展為帶有填充標(biāo)記的固定長(zhǎng)度向量,就像大多數(shù)NLP應(yīng)用程序一樣。)

e97f7368-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 編碼器-解碼器注意力同樣如此。

e99e5454-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 在解碼器的自注意力中:掩碼用于防止解碼器在預(yù)測(cè)下一個(gè)單詞時(shí)偷看目標(biāo)句子的其余部分。 解碼器處理源序列中的單詞,并使用它們來預(yù)測(cè)目標(biāo)序列中的單詞。在訓(xùn)練期間,通過教師強(qiáng)制(teacher forcing),完整的目標(biāo)序列被作為解碼器的輸入傳遞。因此,在預(yù)測(cè)某個(gè)位置的單詞時(shí),解碼器可以使用該單詞之前以及之后的目標(biāo)單詞。這使得解碼器可以通過使用未來‘時(shí)間步’中的目標(biāo)單詞來‘作弊’。 例如,在預(yù)測(cè)‘Word 3’時(shí),解碼器應(yīng)該只參考目標(biāo)中的前3個(gè)輸入單詞,而不是第4個(gè)單詞‘Ketan’。

e9b0ad84-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 因此,解碼器屏蔽了序列中稍后出現(xiàn)的輸入單詞。

e9be482c-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 在計(jì)算注意力分?jǐn)?shù)時(shí)(參考前面顯示計(jì)算的圖片),掩碼應(yīng)用于 Softmax 之前的分子部分。被屏蔽的元素(白色方塊)被設(shè)置為負(fù)無窮,以便 Softmax 將這些值轉(zhuǎn)換為零。

9. 生成輸出

堆棧中的最后一個(gè)解碼器將其輸出傳遞給輸出組件,將其轉(zhuǎn)換為最終的輸出句子。 線性層將解碼器向量投影為單詞分?jǐn)?shù),每個(gè)位置的句子中目標(biāo)詞匯表中的每個(gè)唯一單詞都有一個(gè)分?jǐn)?shù)值。例如,如果我們的最終輸出句子有7個(gè)單詞,而目標(biāo)西班牙語詞匯表中有10000個(gè)唯一單詞,我們將為這7個(gè)單詞生成10000個(gè)分?jǐn)?shù)值。分?jǐn)?shù)值指示了每個(gè)單詞在該句子位置的出現(xiàn)概率。 然后,Softmax層將這些分?jǐn)?shù)轉(zhuǎn)換為概率(總和為1.0)。在每個(gè)位置,我們找到具有最高概率的單詞的索引,然后將該索引映射到詞匯表中相應(yīng)的單詞。這些單詞然后形成Transformer的輸出序列。

e9cb3cee-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像)

10. 訓(xùn)練和損失函數(shù)

在訓(xùn)練過程中,我們使用交叉熵?fù)p失等損失函數(shù)來比較生成的輸出概率分布與目標(biāo)序列。概率分布給出了每個(gè)單詞在該位置出現(xiàn)的概率。

e9e43604-b8c6-11ee-8b88-92fbcf53809c.png

(作者提供的圖像) 假設(shè)我們的目標(biāo)詞匯表只包含四個(gè)單詞。我們的目標(biāo)是生成一個(gè)概率分布,與我們期望的目標(biāo)序列“De nada END”相匹配。 這意味著第一個(gè)單詞位置的概率分布應(yīng)該對(duì)“De”有一個(gè)概率為1,而對(duì)詞匯表中所有其他單詞的概率為0。同樣,“nada”和“END”在第二和第三個(gè)單詞位置的概率應(yīng)分別為1。 與往常一樣,損失用于計(jì)算梯度,通過反向傳播來訓(xùn)練Transformer。

11. 結(jié)論

希望這能讓你對(duì)Transformer在訓(xùn)練過程中的內(nèi)部運(yùn)作有所了解。正如我們?cè)谇耙黄恼轮杏懻摰哪菢樱谕评磉^程中,它運(yùn)行在一個(gè)循環(huán)中,但大部分處理方式保持不變。 多頭注意力模塊是賦予Transformer強(qiáng)大能力的關(guān)鍵。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1144

    瀏覽量

    40822
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    6026
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    619

    瀏覽量

    13599
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    89

    瀏覽量

    6899

原文標(biāo)題:Transformers圖解(第2部分):它是如何工作的,逐步說明

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用基于Transformers的API在CPU上實(shí)現(xiàn)LLM高效推理

    英特爾 Extension for Transformers是英特爾推出的一個(gè)創(chuàng)新工具包,可基于英特爾 架構(gòu)平臺(tái),尤其是第四代英特爾 至強(qiáng) 可擴(kuò)展處理器(代號(hào) SapphireRapids,SPR)顯著加速基于Transformers的大語言模型( LargeLangua
    的頭像 發(fā)表于 01-22 11:11 ?2748次閱讀
    使用基于<b class='flag-5'>Transformers</b>的API在CPU上實(shí)現(xiàn)LLM高效推理

    若想使用ADS8422IBPFBT是要怎么替換或運(yùn)作?

    由于近期要做關(guān)于ANC的研究,欲購TMS320C6713 DSP Starter Kit (DSK)來實(shí)作,考慮使用ADS8422IBPFBT作為ADC,但是原本似乎就有內(nèi)建AIC23 CODEC
    發(fā)表于 12-13 11:13

    汽車車身內(nèi)部布置方法研究與總結(jié)

    汽車車身內(nèi)部布置方法研究與總結(jié)本文主要內(nèi)容是結(jié)合實(shí)際經(jīng)驗(yàn)(現(xiàn)有車型數(shù)據(jù)),運(yùn)用車身內(nèi)部布置設(shè)計(jì)的方法(借助于基于CATIA 軟件車身內(nèi)部布置系統(tǒng))詳細(xì)的闡述了車身
    發(fā)表于 04-16 13:35

    電流互感器怎么運(yùn)作的?

    電流互感器怎么運(yùn)作的,變比100/5保護(hù)用,是電流過100才運(yùn)作變比給保護(hù)裝置?小于100不運(yùn)行?計(jì)量的又是怎么樣?
    發(fā)表于 03-21 09:47

    生產(chǎn)運(yùn)作管理培訓(xùn)教材

    生產(chǎn)運(yùn)作管理培訓(xùn)教材:為什么要學(xué)習(xí)生產(chǎn)與運(yùn)作管理生產(chǎn)運(yùn)作管理是企業(yè)競(jìng)爭(zhēng)力的源泉工商管理人員沒有對(duì)現(xiàn)代生產(chǎn)與運(yùn)作管理方法的理解,單純的商業(yè)教育是完全不夠的.
    發(fā)表于 07-30 10:33 ?47次下載

    BJDEEN PULSE TRANSFORMERS

    aboutthe need  for  versatile pulse transformers that meet all the electricalrequirements of Manchester II serial biphas
    發(fā)表于 06-11 08:40 ?9次下載

    通關(guān)安全檢查系統(tǒng)的運(yùn)作模式與仿真研究綜述

    由于近年來恐怖攻擊事件頻繁出現(xiàn),如何優(yōu)化安全檢查機(jī)制成為國(guó)土安全管理的重要研究議題之一。本文綜述了通關(guān)安全檢查站的優(yōu)化問題與計(jì)算機(jī)仿真建模,我們介紹海關(guān)通關(guān)安檢系統(tǒng)運(yùn)作模式的研究現(xiàn)狀,并探索通關(guān)安全性與便利性之間的權(quán)衡問題。最后
    發(fā)表于 12-20 14:34 ?0次下載

    電子濾波器對(duì)于智能手機(jī)和其他無線設(shè)備的內(nèi)部運(yùn)作至關(guān)重要

    電子濾波器對(duì)于智能手機(jī)和其他無線設(shè)備的內(nèi)部運(yùn)作至關(guān)重要。它們消除或增強(qiáng)了特定的輸入信號(hào),以實(shí)現(xiàn)所需的輸出信號(hào)。盡管必不可少,但這種濾波器占用了研究人員不斷縮小尺寸的芯片空間。 為了解決這個(gè)
    發(fā)表于 08-14 11:08 ?669次閱讀

    深度學(xué)習(xí):transformers的近期工作成果綜述

    2021年和2022年發(fā)表的研究成果)進(jìn)行詳細(xì)的調(diào)研。 這張圖與一篇調(diào)查論文[Tay 2022]中的圖相似,但被調(diào)transformers會(huì)更新并
    的頭像 發(fā)表于 10-19 10:04 ?685次閱讀
    深度學(xué)習(xí):<b class='flag-5'>transformers</b>的近期工作成果綜述

    永磁同步電機(jī)運(yùn)作

    主要對(duì)于裝載在大眾E-Golf使用的三相永磁同步電機(jī)/充電機(jī)(MG)進(jìn)行其運(yùn)作進(jìn)行研究探討,沿著典型的運(yùn)作原理及電路特性提出一些問題,我想分享和討論這些問題與研究結(jié)果。 在我們開始進(jìn)行
    發(fā)表于 03-14 10:52 ?0次下載
    永磁同步電機(jī)<b class='flag-5'>運(yùn)作</b>

    永磁同步電機(jī)運(yùn)作

    主要對(duì)于裝載在大眾E-Golf使用的三相永磁同步電機(jī)/充電機(jī)(MG)進(jìn)行其運(yùn)作進(jìn)行研究探討,沿著典型的運(yùn)作原理及電路特性提出一些問題,我想分享和討論這些問題這些問題與研究結(jié)果。在我們開
    的頭像 發(fā)表于 03-25 09:32 ?824次閱讀
    永磁同步電機(jī)<b class='flag-5'>運(yùn)作</b>

    Transformers是什么意思?人工智能transformer怎么翻譯?

    Transformers是什么意思?transformer怎么翻譯?人工智能transformer怎么翻譯? Transformers是一個(gè)包含自然語言處理中的基礎(chǔ)技術(shù)的深度神經(jīng)網(wǎng)絡(luò)。它可以將源語言
    的頭像 發(fā)表于 08-22 15:59 ?3090次閱讀

    微軟內(nèi)部對(duì)亞洲研究院的未來持有不同看法

    四位消息人士披露,微軟內(nèi)部曾考慮過關(guān)閉或搬遷MSRA,但高層領(lǐng)導(dǎo)普遍傾向于維持實(shí)驗(yàn)室在中國(guó)的運(yùn)作。目前,微軟已在加拿大溫哥華設(shè)立MSR分中心,部分研究員已被調(diào)配至此。此舉旨在作為備用安置點(diǎn),以應(yīng)對(duì)可能面臨的
    的頭像 發(fā)表于 01-11 13:58 ?603次閱讀

    Transformers的功能概述

    近年來,我們聽說了很多關(guān)于Transformers的事情,并且在過去的幾年里,它們已經(jīng)在NLP領(lǐng)域取得了巨大成功。Transformers是一種使用注意力機(jī)制(Attention)顯著改進(jìn)深度學(xué)習(xí)
    的頭像 發(fā)表于 01-23 10:15 ?731次閱讀
    <b class='flag-5'>Transformers</b>的功能概述

    電容器的功能和運(yùn)作原理

    電容器的功能和運(yùn)作原理
    的頭像 發(fā)表于 06-22 11:23 ?1035次閱讀
    電容器的功能和<b class='flag-5'>運(yùn)作</b>原理