淺析預訓練模型的起源與發(fā)展

2022年下半年開始，涌現出一大批“大模型”的優(yōu)秀應用，其中比較出圈的當屬AI作畫與ChatGPT，刷爆了各類社交平臺，其讓人驚艷的效果，讓AI以一個鮮明的姿態(tài)，站到了廣大民眾面前，讓不懂AI的人也能直觀地體會到AI的強大。大模型即大規(guī)模預訓練模型，本文就和大家聊一聊 預訓練模型的起源與發(fā)展 。

1. 前言

NLP模型開發(fā)領域的標準范式“pretrain+finetune”近年來，由于預訓練模型（Pretrained Models， PTMs）的蓬勃發(fā)展，“預訓練（pretrain）+微調（finetune）”成為了AI模型開發(fā)領域的標準范式。

預訓練模型的作用可想而知，它極大推進了AI的落地，讓AI模型的開發(fā)從手工作坊模式走向工廠模式，快速適應AI市場的定制化需求。但它絕非一個空降神器，預訓練的研究最早起源于遷移學習。

遷移學習的核心思想，即運用已有的知識來學習新的知識，通俗來說就是將一個預訓練的模型被重新用在另一個任務中。早期的預訓練模型主要基于有標簽數據，預訓練模型的第一個浪潮發(fā)生在CV領域，得益于ImageNet[1]數據集中所富含的強大的視覺信息，其包含了上百萬張上千種類別的圖片，覆蓋了日常生活中的各種物體，

在ImageNet上預訓練的模型（比如ResNet50）廣泛應用于圖像領域的各個下游任務，均取得了卓越的進展。而在NLP領域，由于下游任務的多樣性以及數據標注的復雜性，導致無法獲得一個像ImageNet這樣大規(guī)模的有標簽數據，所以NLP領域嘗試使用自監(jiān)督學習的方法來獲取預訓練模型，自監(jiān)督學習的主要思想就是利用文本間的內在聯系為監(jiān)督信號。

通過自我監(jiān)督學習，可以利用大量未標記的文本數據來捕獲通用的語言知識。早期NLP領域的NLP模型主要是詞嵌入（word embedding）的研究，比如word2Vec[2]，Glove[3]等，它們至今在各種NLP任務中仍發(fā)揮著重要的作用。2017年出現的Transformer結構[4]，給NLP領域預訓練模型的發(fā)展帶來了絕大的突破。Transformer的成功，也誘使CV領域加入了自監(jiān)督預訓練模型的賽道。

如今，自監(jiān)督預訓練已經成為當前人工智能研究的重點，幾乎所有的最新的 PTM都是采用類Transformer結構與自監(jiān)督學習的方法，接下來介紹比較有代表性的自監(jiān)督預訓練語言模型。

圖2 預訓練的起源與發(fā)展[5]

2. 模型結構

PTM成功的關鍵是自監(jiān)督學習和Transformer。本節(jié)從占主導地位的神經架構 Transformer 開始。然后介紹兩個具有里程碑意義的基于 Transformer 的 PTM，GPT[6]和BERT[7]。所有后續(xù)的PTMs基本都是這兩個模型的變體。

2.1 Transformer

Transformer是一種序列到序列（seq2seq）架構，由編碼器（encoder）和解碼器（decoder）組成。說起Transformer，就不得不提它的注意力機制（Attention），對于注意力機制的原理解析可參考[5]，這里主要總結下transformer中存在的三種注意力機制：

Self-attention ：存在于encoder中的注意力層中，使用前一層的輸出作為Q，K，V。給定一個詞，自注意力計算其與輸入序列中的所有單詞的注意力得分，來表示其他單詞對給定詞匯特征表示的貢獻程度。
Mask-attention ：存在于decoder階段，通過掩膜的手段，控制注意力得分的計算過程僅當前詞匯左側的詞參與。因為decoder是一個從左到右逐詞生成的過程。
Cross-attention ：同樣是存在于decoder階段，使用前一層的輸出作為Q，同時使用encoder的輸出作為K，V。交叉注意力機制的主要作用在于生成詞過程中能夠利用其輸入序列的信息，這在諸如機器翻譯和文本摘要的seq2seq任務中尤為重要。

圖3 Transformer網絡結構示意圖[5]

2.2 GPT

GPT是第一個在Transformer結構上應用自監(jiān)督學習目標的PTM，它僅使用了Transformer的decoder作為基礎結構，由于采用自監(jiān)督學習，所以刪去了cross-attention層。GPT是一個標準的自回歸語言模型，它的學習目標，是根據上文預測下一個詞，因此也往往更適合自然語言生成任務。

圖4 BERT與GPT的區(qū)別[5]## 2.3 BERT

BERT是基于雙向 Transformer 結構構建，僅使用了Transformer的encoder結構。這里的雙向主要是通過它的預訓練目標實現的，BERT設計了一個 masked language modeling (MLM) 預訓練任務，根據上下文來預測masked詞匯?！半p向”即體現在，在進行注意力計算時，BERT會同時考慮被遮蔽詞左右的詞對其的影響。BERT是一種自編碼語言模型，更適合自然語言理解任務。

2.4 后起之秀

在GPT和BERT之后，出現了很多基于它們的變體，圖5中羅列了目前預訓練模型家族的主要成員。一部分工作致力于改進模型架構并探索新的預訓練任務；一部分工作致力于探索數據的豐富性，比如多語言和多模態(tài)PTMs；還有一部分工作致力于探索更多參數的模型以及PTM計算效率的優(yōu)化。

預訓練模型的主要目標是如何利用未標注語料來獲取通用知識，以便快速遷移到各種下游任務中。預訓練任務即學習目標的設計至關重要。前文也提到了GPT和BERT的預訓練任務Autoregressive language modeling和masked language modeling，它們也分別是自回歸語言模型和自編碼語言模型無法替代的預訓練任務，后續(xù)的一些PTMs中探索的新的預訓練任務均是在此基礎上追加的。下表中總結了目前一些常見的預訓練任務。對于單資源數據輸入（單語言純文本），往往從挖掘文本間詞匯、句子、篇章的內在聯系設計新的預訓練任務；對于多資源數據輸入，比如多語言和多模態(tài)的預訓練模型，往往會從如何構建不同語言和不同模態(tài)的統(tǒng)一的特征表示來考慮設計新的預訓練任務。

4. 總結

本文整體介紹了預訓練模型起源與發(fā)展，文章大部分內容來自于論文[5]，在此基礎上做了一些總結和梳理，感興趣的可以去閱讀原文。預訓練模型的發(fā)展無疑推進了AI的落地。近年來，隨著神經網絡結構設計技術逐漸成熟并趨于收斂，以及數據和模型參數規(guī)模的不斷增大，行業(yè)內也掀起了“煉大模型”的熱潮，致力于打造AI領域的基石模型。而對于預訓練模型的應用，除了“pretrain+finetune”，逐漸盛行了一種新的范式“pretrain+prompt+predict"，致力于重構不同的下游任務，打造大一統(tǒng)的多任務模型。歸根結底，大家其實都是在解決同一個問題：”如何快速有效地進行AI模型開發(fā)“，這也是AI領域一直以來研究的重要課題。

5. 參考文獻

[1] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009: 248-255.

[2] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

[3] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.

閱讀全文

AI(263628) AI(263628)
nlp(21784) nlp(21784)
ChatGPT(3870) ChatGPT(3870)

AI模型是如何訓練的？訓練一個模型花費多大？

電子發(fā)燒友網報道（文/李彎彎）在深度學習中，經常聽到一個詞“模型訓練”，但是模型是什么？又是怎么訓練的？在人工智能中，面對大量的數據，要在雜亂無章的內容中，準確、容易地識別，輸出需要的圖像/語音

2022-10-23 00:19:00

24277

英偉達 H100 vs 蘋果M2 大模型訓練，哪款性價比更高？

訓練和微調大型語言模型對于硬件資源的要求非常高。目前，主流的大模型訓練硬件通常采用英特爾的CPU和英偉達的GPU。然而，最近蘋果的M2 Ultra芯片和AMD的顯卡進展給我們帶來了一些新的希望。

2023-07-28 16:11:01

2126

如何才能高效地進行深度學習模型訓練？

分布式深度學習框架中，包括數據/模型切分、本地單機優(yōu)化算法訓練、通信機制、和數據/模型聚合等模塊?，F有的算法一般采用隨機置亂切分的數據分配方式，隨機優(yōu)化算法（例如隨機梯度法）的本地訓練算法，同步或者異步通信機制，以及參數平均的模型聚合方式。

2018-07-09 08:48:22

13609

深層神經網絡模型的訓練:過擬合優(yōu)化

為了訓練出高效可用的深層神經網絡模型，在訓練時必須要避免過擬合的現象。過擬合現象的優(yōu)化方法通常有三種。

2020-12-02 14:17:24

2322

一文詳解知識增強的語言預訓練模型

隨著預訓練語言模型(PLMs)的不斷發(fā)展，各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習一定的知識，但仍舊存在很多問題，如知識量有限、受訓練數據長尾分布影響魯棒性不好

2022-04-02 17:21:43

8765

基于不同量級預訓練數據的RoBERTa模型分析

NLP領域的研究目前由像RoBERTa等經過數十億個字符的語料經過預訓練的模型匯主導。那么對于一個預訓練模型，對于不同量級下的預訓練數據能夠提取到的知識和能力有何不同？

2023-03-03 11:21:51

1339

大模型訓練為什么不能用4090顯卡，GPU訓練性能和成本對比

為什么？一般有 tensor parallelism、pipeline parallelism、data parallelism 幾種并行方式，分別在模型的層內、模型的層間、訓練數據三個維度上對 GPU 進行劃分。三個并行度乘起來，就是這個訓練任務總的 GPU 數量。

2023-09-15 11:16:21

12112

淺析eTS的起源和演進

、并行和并發(fā)能力增強、類型系統(tǒng)增強等方面的語言特性。本期我們結合JS和TS以及相關的開發(fā)框架的發(fā)展，為大家介紹eTS的起源和演進思路。一、JSJS語言由Mozilla創(chuàng)造，最初主要是為了解決頁面中的邏輯

2022-07-14 11:04:10

淺析變頻器發(fā)展現狀和趨勢

淺析變頻器發(fā)展現狀和趨勢（原文鏈接）變頻器：利用電力半導體器件的通斷作用將工頻電源變換為另一頻率的電能控制裝置。其作用對象主要是電動機。分類：交—交（頻率電壓可變）、交—直—交（整流、逆變）性能優(yōu)劣

2021-09-03 06:40:59

訓練好的ai模型導入cubemx不成功怎么解決？

訓練好的ai模型導入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

Edge Impulse的分類模型淺析

Edge Impulse是一個應用于嵌入式領域的在線的機器學習網站，不僅為用戶提供了一些現成的神經網絡模型以供訓練，還能直接將訓練好的模型轉換成能在單片機MCU上運行的代碼，使用方便，容易上手。本文

2021-12-20 06:51:26

GBDT算法原理和模型訓練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

Pytorch模型訓練實用PDF教程【中文】

本教程以實際應用、工程開發(fā)為目的，著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發(fā)中，主要涉及三大部分，分別是數據、模型和損失函數及優(yōu)化器。本文也按順序的依次介紹數據、模型和損失函數

2018-12-21 09:18:02

labview可以調用在python上訓練好的分類模型么？

能否直接調用訓練好的模型文件？

2021-06-22 14:51:03

pcb起源發(fā)展

　　印制板從單層發(fā)展到雙面、多層和撓性，并且仍舊保持著各自的發(fā)展趨勢。由于不斷地向高精度、高密度和高可靠性方向發(fā)展，不斷縮小體積、減少成本、提高性能，使得印制板在未來電子設備的發(fā)展工程中，仍然保持著

2020-10-21 16:37:02

【AI學習】第3篇--人工神經網絡

`本篇主要介紹：人工神經網絡的起源、簡單神經網絡模型、更多神經網絡模型、機器學習的步驟：訓練與預測、訓練的兩階段：正向推演與反向傳播、以TensorFlow + Excel表達訓練流程以及AI普及化教育之路。`

2020-11-05 17:48:39

【KV260視覺入門套件試用體驗】Vitis AI 通過遷移學習訓練自定義模型

學習的方法，將預訓練的resnet18模型從原來的1000類分類任務，改造為適應自定義的30類分類任務。 ResNet18介紹 ResNet18是一種基于深度殘差網絡（ResNet）的卷積神經網絡模型

2023-10-16 15:03:16

【Sipeed M2 Dock開發(fā)板試用體驗】之家貓檢測模型訓練篇

準備開始為家貓做模型訓練檢測，要去官網https://maix.sipeed.com/home 注冊帳號，文章尾部的視頻是官方的，與目前網站略有出路，說明訓練網站的功能更新得很快。其實整個的過程

2022-06-26 21:19:40

【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

TOP1的桂冠，可想大家對本書的認可和支持！這本書為什么如此受歡迎？它究竟講了什么？下面就給大家詳細~~ 本書主要內容本書圍繞大語言模型構建的四個主要階段——預訓練、有監(jiān)督微調、獎勵建模和強化

2024-03-11 15:16:39

【米爾百度大腦EdgeBoard邊緣AI計算盒試用連載】第四篇基于針對EdgeBoard的EasyDL分類模型訓練實例

` EasyDL網站可以免費生成針對EdgeBoard板卡FZ5的離線訓練模型SDK，該SDK可以完美與FZ5硬件契合，最重要的是——free(免費)。下面就是針對FZ5生成模型SDK的實例——圖片

2021-03-23 14:32:35

使用eIQ門戶進行訓練時出現服務器錯誤如何解決?

我正在嘗試使用自己的數據集訓練人臉檢測模型。此錯誤發(fā)生在訓練開始期間。如何解決這一問題？

2023-04-17 08:04:49

醫(yī)療模型人訓練系統(tǒng)是什么？

醫(yī)療模型人訓練系統(tǒng)是為滿足廣大醫(yī)學生的需要而設計的。我國現代醫(yī)療模擬技術的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產品都源于國外，雖然對于模擬人仿真已經出現一些產品，但那些產品只是就模擬人的某一部分，某一個功能實現的仿真，沒有一個完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

卷積神經網絡模型發(fā)展及應用

卷積神經網絡模型發(fā)展及應用轉載****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學習是機器學習和人工智能研究的最新趨勢，作為一個

2022-08-02 10:39:39

在Ubuntu上使用Nvidia GPU訓練模型

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，沒有問題，過一會再訓練出現非?？D，使用nvidia-smi查看發(fā)現，顯示GPU的風扇和電源報錯：解決方案自動風扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的表情或性別gradcam

CV：基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

基于Keras的mini_XCEPTION訓練情感分類模型hdf5并保存到指定文件夾下

CV：基于Keras利用CNN主流架構之mini_XCEPTION訓練情感分類模型hdf5并保存到指定文件夾下

2018-12-26 11:08:26

如何使用TensorFlow將神經網絡模型部署到移動或嵌入式設備上

使用TensorFlow的transform_graph工具生成一個優(yōu)化的8位模型，該模型效率更高，但精度較低。 4.在設備上對優(yōu)化的模型進行基準測試，并選擇最符合您部署需求的模型。本教程使用預訓練

2023-08-02 06:43:57

如何使用eIQ門戶訓練人臉檢測模型？

我正在嘗試使用 eIQ 門戶訓練人臉檢測模型。我正在嘗試從 tensorflow 數據集 (tfds) 導入數據集，特別是 coco/2017 數據集。但是，我只想導入 wider_face。但是，當我嘗試這樣做時，會出現導入程序錯誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

如何對數字預失真平臺系統(tǒng)進行仿真測試？

數字預失真平臺系統(tǒng)模型是怎樣構成的？如何對數字預失真平臺系統(tǒng)進行仿真測試？

2021-04-21 07:23:32

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預訓練的 YOLOv5s 模型，model并傳遞圖像進行推理。'yolov5s'是最輕最快的 YOLOv5 型號。有關所有可用模型的詳細信息，請參閱自述文件。詳細示例此示例

2022-07-22 16:02:42

探索一種降低ViT模型訓練成本的方法

Transformers已成為計算機視覺最新進展的核心。然而，從頭開始訓練ViT模型可能會耗費大量資源和時間。在本文中旨在探索降低ViT模型訓練成本的方法。引入了一些算法改進，以便能夠在有限的硬件

2022-11-24 14:56:31

用tflite接口調用tensorflow模型進行推理

tensorflow模型部署系列的一部分，用于tflite實現通用模型的部署。本文主要使用pb格式的模型文件，其它格式的模型文件請先進行格式轉換，參考tensorflow模型部署系列————預訓練模型導出。從...

2021-12-22 06:51:18

算法原理與模型訓練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-25 15:02:15

請問K510設備什么時候可以支持線上模型訓練？

目前官方的線上模型訓練只支持K210，請問K510什么時候可以支持

2023-09-13 06:12:13

請問Labveiw如何調用matlab訓練好的神經網絡模型呢？

我在matlab中訓練好了一個神經網絡模型，想在labview中調用，請問應該怎么做呢？或者labview有自己的神經網絡工具包嗎？

2018-07-05 17:32:32

智能維修訓練系統(tǒng)模型的設計與實現

介紹了基于事例的智能維修訓練系統(tǒng)中學生模型的結構組成和實現方法。該模型釆用了模糊測量方法即貼近度和擇近原則來對學生的知識水平

2009-09-15 10:11:51

淺析第四代移動通信

淺析第四代移動通信　　　引言　　移動通信技術飛速發(fā)展，已經歷了3個主要發(fā)展階段。每一代的發(fā)展都是技術的突破和觀念的創(chuàng)新。第一代起源于20世紀80年

2010-01-23 10:19:45

1099

淺析LED路燈的發(fā)展和應用

淺析LED路燈的發(fā)展和應用　　摘要：本文簡要分析了城市道路照明大功率LED路燈在發(fā)展和應用中“產品的標準化和通用性、國家標準的制定、光學設計、散熱等主要

2010-04-20 11:13:46

1342

飛行訓練成績評估模型的建立與實現

飛行訓練成績評估模型的建立與實現，有興趣的同學可以下載學習

2016-05-04 14:37:53

基于圖的服務起源追蹤機制

為基礎，重新定義服務起源在圖形數據庫中的存儲結構，并提供基于此存儲結構的聚合操作。然后提出了基于靜態(tài)權值、基于混合操作與基于實時任務三種不同的服務起源追蹤模型。實驗結果表明該服務起源追蹤機制能夠滿足聚合、追蹤等

2017-12-17 10:58:13

白菜白光起源、發(fā)展及代表性電路圖資料下載

白菜白光起源、發(fā)展及代表性電路圖

2018-02-03 10:34:14

GPU如何訓練大批量模型？方法在這里

深度學習模型和數據集的規(guī)模增長速度已經讓 GPU 算力也開始捉襟見肘，如果你的 GPU 連一個樣本都容不下，你要如何訓練大批量模型？通過本文介紹的方法，我們可以在訓練批量甚至單個訓練樣本大于 GPU

2018-12-03 17:24:01

668

為什么要使用預訓練模型？8種優(yōu)秀預訓練模型大盤點

正如我們在本文中所述，ULMFiT使用新穎的NLP技術取得了令人矚目的成果。該方法對預訓練語言模型進行微調，將其在WikiText-103數據集（維基百科的長期依賴語言建模數據集Wikitext之一）上訓練，從而得到新數據集，通過這種方式使其不會忘記之前學過的內容。

2019-04-04 11:26:26

23192

機器學習模型再訓練的指南詳細概述

機器學習模型的訓練，通常是通過學習某一組輸入特征與輸出目標之間的映射來進行的。一般來說，對于映射的學習是通過優(yōu)化某些成本函數，來使預測的誤差最小化。在訓練出最佳模型之后，將其正式發(fā)布上線，再根據未來

2020-04-10 08:00:00

預訓練語言模型設計的理論化認識

在這篇文章中，我會介紹一篇最新的預訓練語言模型的論文，出自MASS的同一作者。這篇文章的亮點是：將兩種經典的預訓練語言模型（MaskedLanguage Model, Permuted

2020-11-02 15:09:36

2334

關于語言模型和對抗訓練的工作

本文把對抗訓練用到了預訓練和微調兩個階段，對抗訓練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進行對抗，在下游任務上取得了一致的效果提升。有趣的是，這種對抗

2020-11-02 15:26:49

1802

圖解BERT預訓練模型！

BERT的發(fā)布是這個領域發(fā)展的最新的里程碑之一，這個事件標志著NLP 新時代的開始。BERT模型打破了基于語言處理的任務的幾個記錄。在 BERT 的論文發(fā)布后不久，這個團隊還公開了模型的代碼，并提供了模型的下載版本

2020-11-24 10:08:22

3200

字符感知預訓練模型CharBERT

本期推送介紹了哈工大訊飛聯合實驗室在自然語言處理重要國際會議COLING 2020上發(fā)表的工作，提出了一種字符感知預訓練模型CharBERT，在多個自然語言處理任務中取得顯著性能提升，并且大幅度

2020-11-27 10:47:09

1582

小米在預訓練模型的探索與優(yōu)化

導讀：預訓練模型在NLP大放異彩，并開啟了預訓練-微調的NLP范式時代。由于工業(yè)領域相關業(yè)務的復雜性，以及工業(yè)應用對推理性能的要求，大規(guī)模預訓練模型往往不能簡單直接地被應用于NLP業(yè)務中。本文將為

2020-12-31 10:17:11

2217

一個GPU訓練一個130億參數的模型

。這些大模型的出現讓普通研究者越發(fā)絕望：沒有「鈔能力」、沒有一大堆 GPU 就做不了 AI 研究了嗎？在此背景下，部分研究者開始思考：如何讓這些大模型的訓練變得更加接地氣？也就是說，怎么用更少的卡訓練更大的模型？為了解決這個問題，來自微軟、加州大學默塞德分校的研究

2021-02-11 09:04:00

2167

一種脫離預訓練的多尺度目標檢測網絡模型

為提高卷積神經網絡目標檢測模型精度并增強檢測器對小目標的檢測能力，提出一種脫離預訓練的多尺度目標檢測網絡模型。采用脫離預訓練檢測網絡使其達到甚至超過預訓練模型的精度，針對小目標特點

2021-04-02 11:35:50

基于預訓練模型和長短期記憶網絡的深度學習模型

作為模型的初始化詞向量。但是，隨機詞向量存在不具備語乂和語法信息的缺點;預訓練詞向量存在¨一詞-乂”的缺點，無法為模型提供具備上下文依賴的詞向量。針對該問題，提岀了一種基于預訓練模型BERT和長短期記憶網絡的深度學習

2021-04-20 14:29:06

樣本量極少可以訓練機器學習模型嗎？

本文首先介紹了用小樣本訓練模型會導致的問題，再介紹了Few-Shot Learning的基本原理即三大思路下的方法。

2021-06-23 15:02:11

6238

如何向大規(guī)模預訓練語言模型中融入知識？

本文關注于向大規(guī)模預訓練語言模型（如RoBERTa、BERT等）中融入知識。

2021-06-23 15:07:31

3468

多模態(tài)圖像-文本預訓練模型

在某一方面的智能程度。具體來說是，領域專家人工構造標準數據集，然后在其上訓練及評價相關模型及方法。但由于相關技術的限制，要想獲得效果更好、能力更強的模型，往往需要在大量的有標注的數據上進行訓練。近期預訓練模型的

2021-09-06 10:06:53

3351

超大Transformer語言模型的分布式訓練框架

大模型的預訓練計算。大模型是大勢所趨近年來，NLP 模型的發(fā)展十分迅速，模型的大小每年以1-2個數量級的速度在提升，背后的推動力當然是大模型可以帶來更強大更精準的語言語義理解和推理能力。截止到去年，OpenAI發(fā)布的GPT-3模型達到了175B的大小，相比2018年94M的ELMo模型，三年的時間整整增大了

2021-10-11 16:46:05

2226

探究超大Transformer語言模型的分布式訓練框架

大模型的預訓練計算。上篇主要介紹了大模型訓練的發(fā)展趨勢、NVIDIA Megatron的模型并行設計，本篇將承接上篇的內容，解析Megatron 在NVIDIA DGX SuperPOD 上的實踐

2021-10-20 09:25:43

2078

2021 OPPO開發(fā)者大會：NLP預訓練大模型

2021 OPPO開發(fā)者大會：NLP預訓練大模型 2021 OPPO開發(fā)者大會上介紹了融合知識的NLP預訓練大模型。責任編輯：haq

2021-10-27 14:18:41

1492

淺析碟式離心機的分離影響因素及模型

2021-11-12 17:10:04

如何實現更綠色、經濟的NLP預訓練模型遷移

NLP中，預訓練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預訓練得到的Bert、GPT等模型，在下游不同任務上分別進行finetune，得到下游任務的模型。然而，這種方式

2022-03-21 15:33:30

1843

DGX SuperPOD助力助力織女模型的高效訓練

　　“強悍的織女模型在京東探索研究院建設的全國首個基于 DGX SuperPOD 架構的超大規(guī)模計算集群 “天琴α” 上完成訓練，該集群具有全球領先的大規(guī)模分布式并行訓練技術，其近似線性加速比的數據、模型、流水線并行技術持續(xù)助力織女模型的高效訓練。”

2022-04-13 15:13:11

783

如何使用NVIDIA TAO快速準確地訓練AI模型

利用 NVIDIA TLT 快速準確地訓練人工智能模型的探索表明，人工智能在工業(yè)過程中具有巨大的潛力。

2022-04-20 17:45:40

2330

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

物件檢測進行模型訓練的詳細步驟

中 training_config 設置組的 “enable_qat” 參數設為 “false” 就行，然后直接執(zhí)行指令塊的命令，TAO 就會啟動視覺類容器來執(zhí)行模型訓練任務。

2022-05-13 10:57:19

1180

微調前給預訓練模型參數增加噪音提高效果的方法

為了減輕上述問題，提出了NoisyTune方法，即，在finetune前加入給預訓練模型的參數增加少量噪音，給原始模型增加一些擾動，從而提高預訓練語言模型在下游任務的效果，如下圖所示，

2022-06-07 09:57:32

1972

如何更高效地使用預訓練語言模型

本文對任務低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預訓練模型的參數實在是太多了，很難找到這么多參數的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

935

基于對抗自注意力機制的預訓練語言模型

表示輸入的特征，在傳統(tǒng)的對抗訓練中，通常是 token 序列或者是 token 的 embedding，表示 ground truth. 對于由參數化的模型，模型的預測結果可以表示為。

2022-07-08 16:57:09

1047

預訓練語言模型的字典描述

今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯合出品的采用對比學習的字典描述知識增強的預訓練語言模型-DictBERT，全名為《Dictionary Description Knowledge

2022-08-11 10:37:55

866

AI模型是如何訓練的？訓練一個模型花費多大？

2022-10-23 00:20:03

7253

汽車環(huán)視技術發(fā)展趨勢淺析

汽車環(huán)視技術發(fā)展趨勢淺析

2022-11-02 08:16:10

CogBERT：腦認知指導的預訓練語言模型

另一方面，從語言處理的角度來看，認知神經科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設計了預訓練的模型來捕捉大腦如何表示語言的意義。之前的工作主要是通過明確微調預訓練的模型來預測語言誘導的大腦記錄，從而納入認知信號。

2022-11-03 15:07:08

707

介紹大模型高效訓練所需要的主要技術

隨著BERT、GPT等預訓練模型取得成功，預訓-微調范式已經被運用在自然語言處理、計算機視覺、多模態(tài)語言模型等多種場景，越來越多的預訓練模型取得了優(yōu)異的效果。

2022-11-08 09:57:19

3714

使用 NVIDIA TAO 工具套件和預訓練模型加快 AI 開發(fā)

NVIDIA 發(fā)布了 TAO 工具套件 4.0 。該工具套件通過全新的 AutoML 功能、與第三方 MLOPs 服務的集成以及新的預訓練視覺 AI 模型提高開發(fā)者的生產力。該工具套件的企業(yè)版現在

2022-12-15 19:40:06

722

預訓練數據大小對于預訓練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務上的良好表現主要得益于其在大量無監(jiān)督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個預訓練模型的究竟學習到了什么樣的語言學文本知識呢？

2023-03-03 11:20:00

911

什么是預訓練 AI 模型？

預訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據不同行業(yè)的應用需求進行自定義。如果要教一個剛學會走路的孩子什么是獨角獸，那么我們首先應

2023-04-04 01:45:02

1025

人工智能訓練數據集：基礎與發(fā)展

作為人工智能領域的基礎，訓練數據集對于模型的訓練和優(yōu)化至關重要。在過去的幾十年中，隨著計算機技術和硬件性能的不斷提升，人工智能技術得到了快速的發(fā)展，但是訓練數據集作為基礎部分，卻一直是制約其發(fā)展

2023-04-26 17:27:21

836

利用OpenVINO?部署HuggingFace預訓練模型的方法與技巧

作為深度學習領域的 “github”，HuggingFace 已經共享了超過 100,000 個預訓練模型

2023-05-19 15:57:43

494

什么是預訓練AI模型？

預訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據不同行業(yè)的應用需求進行自定義。

2023-05-25 17:10:09

595

State of GPT：大神Andrej揭秘OpenAI大模型原理和訓練過程

因為該模型的訓練時間明顯更長，訓練了1.4 萬億標記而不是 3000 億標記。所以你不應該僅僅通過模型包含的參數數量來判斷模型的能力。

2023-05-30 14:34:56

642

如何將Pytorch自訓練模型變成OpenVINO IR模型形式

本文章將依次介紹如何將Pytorch自訓練模型經過一系列變換變成OpenVINO IR模型形式，而后使用OpenVINO Python API 對IR模型進行推理，并將推理結果通過OpenCV API顯示在實時畫面上。

2023-06-07 09:31:42

1058

圖解大模型訓練之：Megatron源碼解讀2，模型并行

前文說過，用Megatron做分布式訓練的開源大模型有很多，我們選用的是THUDM開源的CodeGeeX（代碼生成式大模型，類比于openAI Codex）。選用它的原因是“完全開源”與“清晰的模型架構和預訓練配置圖”，能幫助我們高效閱讀源碼。我們再來回顧下這兩張圖。

2023-06-07 15:08:24

2186

基于預訓練模型和語言增強的零樣本視覺學習

在一些非自然圖像中要比傳統(tǒng)模型表現更好 CoOp 增加一些 prompt 會讓模型能力進一步提升怎么讓能力更好？可以引入其他知識，即其他的預訓練模型，包括大語言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

277

卷積神經網絡模型訓練步驟

卷積神經網絡模型訓練步驟? 卷積神經網絡（Convolutional Neural Network, CNN）是一種常用的深度學習算法，廣泛應用于圖像識別、語音識別、自然語言處理等諸多領域。CNN

2023-08-21 16:42:00

885

大模型分布式訓練并行技術（一）-概述

數據并行是最常見的并行形式，因為它很簡單。在數據并行訓練中，數據集被分割成幾個碎片，每個碎片被分配到一個設備上。這相當于沿批次（Batch）維度對訓練過程進行并行化。每個設備將持有一個完整的模型副本，并在分配的數據集碎片上進行訓練。

2023-08-24 15:17:28

537

使用OpenVINO優(yōu)化并部署訓練好的YOLOv7模型

在《英特爾銳炫顯卡+ oneAPI 和 OpenVINO 實現英特爾視頻 AI 計算盒訓推一體-上篇》一文中，我們詳細介紹基于英特爾獨立顯卡搭建 YOLOv7 模型的訓練環(huán)境，并完成了 YOLOv7 模型訓練，獲得了最佳精度的模型權重。

2023-08-25 11:08:58

819

訓練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網絡行業(yè)如何針對訓練的工作負載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

大語言模型（LLM）預訓練數據集調研分析

finetune）、rlhf(optional). ?State of GPT：大神 Andrej 揭秘 OpenAI 大模型原理和訓練過程。 supervised finetune 一般在 base

2023-09-19 10:00:06

506

如何讓網絡模型加速訓練

的博文，對 Pytorch的AMP ( autocast與Gradscaler 進行對比) 自動混合精度對模型訓練加速。注意Pytorch1.6+，已經內置torch.cuda.amp，因此便不需要加載

2023-11-03 10:00:19

1054

深度學習如何訓練出好的模型

算法工程、數據派THU深度學習在近年來得到了廣泛的應用，從圖像識別、語音識別到自然語言處理等領域都有了卓越的表現。但是，要訓練出一個高效準確的深度學習模型并不容易。不僅需要有高質量的數據、合適的模型

2023-12-07 12:38:24

547

如何基于深度學習模型訓練實現圓檢測與圓心位置預測

Hello大家好，今天給大家分享一下如何基于深度學習模型訓練實現圓檢測與圓心位置預測，主要是通過對YOLOv8姿態(tài)評估模型在自定義的數據集上訓練，生成一個自定義的圓檢測與圓心定位預測模型

2023-12-21 10:50:05

529

如何基于深度學習模型訓練實現工件切割點位置預測

Hello大家好，今天給大家分享一下如何基于深度學習模型訓練實現工件切割點位置預測，主要是通過對YOLOv8姿態(tài)評估模型在自定義的數據集上訓練，生成一個工件切割分離點預測模型

2023-12-22 11:07:46

259

谷歌模型訓練軟件有哪些功能和作用

谷歌模型訓練軟件主要是指ELECTRA，這是一種新的預訓練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢，而且在效率上更勝一籌。

2024-02-29 17:37:39

337

谷歌模型訓練軟件有哪些？谷歌模型訓練軟件哪個好？

谷歌在模型訓練方面提供了一些強大的軟件工具和平臺。以下是幾個常用的谷歌模型訓練軟件及其特點。

2024-03-01 16:24:01

184

已全部加載完成

搜索歷史