0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer模型結(jié)構(gòu),訓(xùn)練過程

新機(jī)器視覺 ? 來源:哈工大SCIR ? 作者:Alexander Rush ? 2022-06-20 14:26 ? 次閱讀

導(dǎo)讀

本文分享一篇來自哈佛大學(xué)關(guān)于Transformer的文章,作者為此文章寫了篇注解文檔,詳細(xì)介紹了模型結(jié)構(gòu),訓(xùn)練過程并給出了可實現(xiàn)的Transformer的代碼。本文僅作為研究人員和開發(fā)者的入門版教程

下面分享一篇實驗室翻譯的來自哈佛大學(xué)一篇關(guān)于Transformer的詳細(xì)博文。

e88aea92-efd1-11ec-ba43-dac502259ad0.jpg

"Attention is All You Need"[1] 一文中提出的Transformer網(wǎng)絡(luò)結(jié)構(gòu)最近引起了很多人的關(guān)注。Transformer不僅能夠明顯地提升翻譯質(zhì)量,還為許多NLP任務(wù)提供了新的結(jié)構(gòu)。雖然原文寫得很清楚,但實際上大家普遍反映很難正確地實現(xiàn)。

所以我們?yōu)榇宋恼聦懥似⒔馕臋n,并給出了一行行實現(xiàn)的Transformer的代碼。本文檔刪除了原文的一些章節(jié)并進(jìn)行了重新排序,并在整個文章中加入了相應(yīng)的注解。此外,本文檔以Jupyter notebook的形式完成,本身就是直接可以運(yùn)行的代碼實現(xiàn),總共有400行庫代碼,在4個GPU上每秒可以處理27,000個tokens。

想要運(yùn)行此工作,首先需要安裝PyTorch[2]。這篇文檔完整的notebook文件及依賴可在github[3] 或 Google Colab[4]上找到。

需要注意的是,此注解文檔和代碼僅作為研究人員和開發(fā)者的入門版教程。這里提供的代碼主要依賴OpenNMT[5]實現(xiàn),想了解更多關(guān)于此模型的其他實現(xiàn)版本可以查看Tensor2Tensor[6] (tensorflow版本) 和 Sockeye[7](mxnet版本)

  • Alexander Rush (@harvardnlp[8] or srush@seas.harvard.edu)

0.準(zhǔn)備工作

# !pip install http://download.pytorch.org/whl/cu80/torch-0.3.0.post4-cp36-cp36m-linux_x86_64.whl numpy matplotlib spacy torchtext seaborn
e89735fe-efd1-11ec-ba43-dac502259ad0.png

內(nèi)容目錄

準(zhǔn)備工作

背景

模型結(jié)構(gòu)

- Encoder和Decoder

- Encoder

- Decoder

- Attention

- Attention在模型中的應(yīng)用

- Position-wise前饋網(wǎng)絡(luò)

- Embedding和Softmax

- 位置編碼

- 完整模型

(由于原文篇幅過長,其余部分在下篇)

訓(xùn)練

- 批和掩碼

- 訓(xùn)練循環(huán)

- 訓(xùn)練數(shù)據(jù)和批處理

- 硬件和訓(xùn)練進(jìn)度

- 優(yōu)化器

- 正則化

- 標(biāo)簽平滑

第一個例子

- 數(shù)據(jù)生成

- 損失計算

- 貪心解碼

真實示例

- 數(shù)據(jù)加載

- 迭代器

- 多GPU訓(xùn)練

- 訓(xùn)練系統(tǒng)附加組件:BPE,搜索,平均

結(jié)果

- 注意力可視化

結(jié)論

本文注解部分都是以引用的形式給出的,主要內(nèi)容都是來自原文。

1.背景

減少序列處理任務(wù)的計算量是一個很重要的問題,也是Extended Neural GPU、ByteNet和ConvS2S等網(wǎng)絡(luò)的動機(jī)。上面提到的這些網(wǎng)絡(luò)都以CNN為基礎(chǔ),并行計算所有輸入和輸出位置的隱藏表示。

在這些模型中,關(guān)聯(lián)來自兩個任意輸入或輸出位置的信號所需的操作數(shù)隨位置間的距離增長而增長,比如ConvS2S呈線性增長,ByteNet呈現(xiàn)以對數(shù)形式增長,這會使學(xué)習(xí)較遠(yuǎn)距離的兩個位置之間的依賴關(guān)系變得更加困難。而在Transformer中,操作次數(shù)則被減少到了常數(shù)級別。

Self-attention有時候也被稱為Intra-attention,是在單個句子不同位置上做的Attention,并得到序列的一個表示。它能夠很好地應(yīng)用到很多任務(wù)中,包括閱讀理解、摘要、文本蘊(yùn)涵,以及獨(dú)立于任務(wù)的句子表示。端到端的網(wǎng)絡(luò)一般都是基于循環(huán)注意力機(jī)制而不是序列對齊循環(huán),并且已經(jīng)有證據(jù)表明在簡單語言問答和語言建模任務(wù)上表現(xiàn)很好。

據(jù)我們所知,Transformer是第一個完全依靠Self-attention而不使用序列對齊的RNN或卷積的方式來計算輸入輸出表示的轉(zhuǎn)換模型。

2.模型結(jié)構(gòu)

目前大部分比較熱門的神經(jīng)序列轉(zhuǎn)換模型都有Encoder-Decoder結(jié)構(gòu)[9]。Encoder將輸入序列映射到一個連續(xù)表示序列。

對于編碼得到的z,Decoder每次解碼生成一個符號,直到生成完整的輸出序列:。對于每一步解碼,模型都是自回歸的[10],即在生成下一個符號時將先前生成的符號作為附加輸入。

e8aa504e-efd1-11ec-ba43-dac502259ad0.jpg

Transformer的整體結(jié)構(gòu)如下圖所示,在Encoder和Decoder中都使用了Self-attention, Point-wise和全連接層。Encoder和decoder的大致結(jié)構(gòu)分別如下圖的左半部分和右半部分所示。

e8b8348e-efd1-11ec-ba43-dac502259ad0.jpg

2.Encoder和Decoder

Encoder

Encoder由N=6個相同的層組成。

e8c927c6-efd1-11ec-ba43-dac502259ad0.jpg

我們在每兩個子層之間都使用了殘差連接(Residual Connection) [11]和歸一化 [12]。

e8da3818-efd1-11ec-ba43-dac502259ad0.pnge8f4e65e-efd1-11ec-ba43-dac502259ad0.jpge905b722-efd1-11ec-ba43-dac502259ad0.jpg

每層都有兩個子層組成。第一個子層實現(xiàn)了“多頭”的 Self-attention,第二個子層則是一個簡單的Position-wise的全連接前饋網(wǎng)絡(luò)。

e90f83ec-efd1-11ec-ba43-dac502259ad0.jpg

Dncoder

Decoder也是由N=6個相同層組成。

e918170a-efd1-11ec-ba43-dac502259ad0.jpg

除了每個編碼器層中的兩個子層之外,解碼器還插入了第三種子層對編碼器棧的輸出實行“多頭”的Attention。與編碼器類似,我們在每個子層兩端使用殘差連接進(jìn)行短路,然后進(jìn)行層的規(guī)范化處理。

e92985d0-efd1-11ec-ba43-dac502259ad0.jpge938dfbc-efd1-11ec-ba43-dac502259ad0.jpge9450a62-efd1-11ec-ba43-dac502259ad0.jpg

3.Attention

e9545bb6-efd1-11ec-ba43-dac502259ad0.jpge9684de2-efd1-11ec-ba43-dac502259ad0.jpge97583cc-efd1-11ec-ba43-dac502259ad0.jpg

“多頭”機(jī)制能讓模型考慮到不同位置的Attention,另外“多頭”Attention可以在不同的子空間表示不一樣的關(guān)聯(lián)關(guān)系,使用單個Head的Attention一般達(dá)不到這種效果。

e98bf5d0-efd1-11ec-ba43-dac502259ad0.jpge998afaa-efd1-11ec-ba43-dac502259ad0.jpge9a2f74e-efd1-11ec-ba43-dac502259ad0.jpg

4.Attention在模型中的應(yīng)用

Transformer中以三種不同的方式使用了“多頭”Attention:

1) 在"Encoder-Decoder Attention"層,Query來自先前的解碼器層,并且Key和Value來自Encoder的輸出。Decoder中的每個位置Attend輸入序列中的所有位置,這與Seq2Seq模型中的經(jīng)典的Encoder-Decoder Attention機(jī)制[15]一致。

2) Encoder中的Self-attention層。在Self-attention層中,所有的Key、Value和Query都來同一個地方,這里都是來自Encoder中前一層的輸出。Encoder中當(dāng)前層的每個位置都能Attend到前一層的所有位置。

3) 類似的,解碼器中的Self-attention層允許解碼器中的每個位置Attend當(dāng)前解碼位置和它前面的所有位置。這里需要屏蔽解碼器中向左的信息流以保持自回歸屬性。具體的實現(xiàn)方式是在縮放后的點積Attention中,屏蔽(設(shè)為負(fù)無窮)Softmax的輸入中所有對應(yīng)著非法連接的Value。

5.Position-wise前饋網(wǎng)絡(luò)

e9b135d4-efd1-11ec-ba43-dac502259ad0.jpg

6.Embedding和Softmax

e9c15568-efd1-11ec-ba43-dac502259ad0.jpg

7.位置編碼

e9cf8e58-efd1-11ec-ba43-dac502259ad0.jpge9d868c0-efd1-11ec-ba43-dac502259ad0.jpge9e8b4fa-efd1-11ec-ba43-dac502259ad0.jpg

我們也嘗試了使用預(yù)學(xué)習(xí)的位置Embedding,但是發(fā)現(xiàn)這兩個版本的結(jié)果基本是一樣的。我們選擇正弦曲線版本的實現(xiàn),因為使用此版本能讓模型能夠處理大于訓(xùn)練語料中最大序了使用列長度的序列。

8.完整模型

下面定義了連接完整模型并設(shè)置超參的函數(shù)。

e9fda4b4-efd1-11ec-ba43-dac502259ad0.jpg

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4808

    瀏覽量

    68815
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    6026
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13283

原文標(biāo)題:搞懂Transformer結(jié)構(gòu),看這篇PyTorch實現(xiàn)就夠了

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    GPU是如何訓(xùn)練AI大模型

    在AI模型訓(xùn)練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓(xùn)練AI大模型的。
    的頭像 發(fā)表于 12-19 17:54 ?175次閱讀

    如何訓(xùn)練ai大模型

    訓(xùn)練AI大模型是一個復(fù)雜且耗時的過程,涉及多個關(guān)鍵步驟和細(xì)致的考量。 一、數(shù)據(jù)準(zhǔn)備 1. 數(shù)據(jù)收集 確定數(shù)據(jù)類型 :根據(jù)模型的應(yīng)用場景,確定需要收集的數(shù)據(jù)類型,如文本、圖像、音頻等。
    的頭像 發(fā)表于 10-17 18:17 ?1225次閱讀

    FP8模型訓(xùn)練中Debug優(yōu)化思路

    目前,市場上許多公司都積極開展基于 FP8 的大模型訓(xùn)練,以提高計算效率和性能。在此,我們整理并總結(jié)了客戶及 NVIDIA 技術(shù)團(tuán)隊在 FP8 模型訓(xùn)練過程中的 debug 思路和方法
    的頭像 發(fā)表于 09-06 14:36 ?364次閱讀
    FP8<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>中Debug優(yōu)化思路

    BP神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)訓(xùn)練過程

    網(wǎng)絡(luò)結(jié)構(gòu),通過誤差反向傳播算法(Error Backpropagation Algorithm)來訓(xùn)練網(wǎng)絡(luò),實現(xiàn)對復(fù)雜問題的學(xué)習(xí)和解決。以下將詳細(xì)闡述BP神經(jīng)網(wǎng)絡(luò)的工作方式,涵蓋其基本原理、訓(xùn)練過程、應(yīng)用實例以及優(yōu)缺點等多個方面
    的頭像 發(fā)表于 07-10 15:07 ?4934次閱讀
    BP神經(jīng)網(wǎng)絡(luò)的基本<b class='flag-5'>結(jié)構(gòu)</b>和<b class='flag-5'>訓(xùn)練過程</b>

    Transformer語言模型簡介與實現(xiàn)過程

    任務(wù),隨后迅速擴(kuò)展到其他NLP任務(wù)中,如文本生成、語言理解、問答系統(tǒng)等。本文將詳細(xì)介紹Transformer語言模型的原理、特點、優(yōu)勢以及實現(xiàn)過程。
    的頭像 發(fā)表于 07-10 11:48 ?1963次閱讀

    解讀PyTorch模型訓(xùn)練過程

    PyTorch作為一個開源的機(jī)器學(xué)習(xí)庫,以其動態(tài)計算圖、易于使用的API和強(qiáng)大的靈活性,在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型訓(xùn)練的全過程,包括數(shù)據(jù)準(zhǔn)備、模型
    的頭像 發(fā)表于 07-03 16:07 ?1121次閱讀

    深度學(xué)習(xí)的典型模型訓(xùn)練過程

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支,近年來在圖像識別、語音識別、自然語言處理等多個領(lǐng)域取得了顯著進(jìn)展。其核心在于通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從大規(guī)模數(shù)據(jù)中自動學(xué)習(xí)并提取特征,進(jìn)而實現(xiàn)高效準(zhǔn)確的預(yù)測和分類。本文將深入解讀深度學(xué)習(xí)中的典型模型及其
    的頭像 發(fā)表于 07-03 16:06 ?1599次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)訓(xùn)練過程

    處理具有空間層次結(jié)構(gòu)的數(shù)據(jù)時表現(xiàn)出色。本文將從卷積神經(jīng)網(wǎng)絡(luò)的歷史背景、基本原理、網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練過程以及應(yīng)用領(lǐng)域等方面進(jìn)行詳細(xì)闡述,以期全面解析這一重要算法。
    的頭像 發(fā)表于 07-02 18:27 ?979次閱讀

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過程及應(yīng)用領(lǐng)域

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過程以及應(yīng)用領(lǐng)域。 卷積神經(jīng)網(wǎng)絡(luò)的基本原理 1.1 卷積運(yùn)算 卷積運(yùn)算是CNN模型的核心,它是一種數(shù)學(xué)運(yùn)算
    的頭像 發(fā)表于 07-02 15:26 ?3912次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理、結(jié)構(gòu)訓(xùn)練過程

    、訓(xùn)練過程以及應(yīng)用場景。 一、卷積神經(jīng)網(wǎng)絡(luò)的基本原理 卷積運(yùn)算 卷積運(yùn)算是卷積神經(jīng)網(wǎng)絡(luò)的核心,它是一種數(shù)學(xué)運(yùn)算,用于提取圖像中的局部特征。卷積運(yùn)算的過程如下: (1)定義卷積核:卷積核是一個小的矩陣,用于在輸入圖像上滑動,提取局部特征。 (2)滑動窗口:將
    的頭像 發(fā)表于 07-02 14:21 ?2814次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Trans
    的頭像 發(fā)表于 07-02 11:41 ?1716次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    詳細(xì)介紹深度學(xué)習(xí)模型訓(xùn)練的全過程,包括數(shù)據(jù)預(yù)處理、模型構(gòu)建、損失函數(shù)定義、優(yōu)化算法選擇、訓(xùn)練過程以及模型
    的頭像 發(fā)表于 07-01 16:13 ?1399次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    具有以下三個非常顯著的特點,一個就是模型參數(shù)規(guī)模更大,訓(xùn)練數(shù)據(jù)更多。當(dāng)然,對計算資源的要求也會更高。 構(gòu)建強(qiáng)大的語言模型時,模型的選型至關(guān)重要,涉及
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先,概述自然語言的基本表示,這是理解大語言模型技術(shù)的前提。接著,詳細(xì)介紹自然語言處理預(yù)訓(xùn)練的經(jīng)典結(jié)構(gòu)Tr
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    的復(fù)雜模式和長距離依賴關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過程的第一階段,模型在大量的文本數(shù)據(jù)上學(xué)習(xí)語言的通用表示。常用的預(yù)訓(xùn)練
    發(fā)表于 05-05 10:56