国产精品视频一区日韩丝袜 ,天天爱天天做狠狠久久做

“Jeff Dean稱贊，TensorFlow官方推特支持，BERT目前工業(yè)界最耗時的應(yīng)用，計算量遠高于ImageNet。我們將BERT的訓(xùn)練時間從三天縮短到了一小時多?！盪C Berkeley大學(xué)在讀博士尤洋如是說道。

近日，來自Google、UC Berkeley、UCLA研究團隊再度合作，成功燃燒1024塊TPU，將BERT預(yù)訓(xùn)練模型的訓(xùn)練時長從3天縮減到了76分鐘。batch size技術(shù)是加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵，在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中，作者提出了LAMB優(yōu)化器，它支持自適應(yīng)元素更新和分層校正。

論文傳送門：https://arxiv.org/pdf/1904.00962.pdf

論文摘要：batch size增加到很大時的模型訓(xùn)練是加速大型分布式系統(tǒng)中深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵。但是，這種模型訓(xùn)練很難，因為它會導(dǎo)致一種泛化差距。直接優(yōu)化通常會導(dǎo)致測試集上的準(zhǔn)確性下降。

BERT是一種先進的深度學(xué)習(xí)模型，它建立在語義理解的深度雙向轉(zhuǎn)換器上。當(dāng)我們增加batch size的大小（如超過8192）時，此前的模型訓(xùn)練技巧在BERT上表現(xiàn)得并不好。BERT預(yù)訓(xùn)練也需要很長時間才能完成，如在16個TPUv3上大約需要三天。

為了解決這個問題，我們提出了LAMB優(yōu)化器，可將batch size擴展到65536，且不會降低準(zhǔn)確率。LAMB是一個通用優(yōu)化器，batch size大小均使用，且除了學(xué)習(xí)率之外不需要別的參數(shù)調(diào)整。

基線BERT-Large模型需要100萬次迭代才能完成預(yù)訓(xùn)練，而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進行內(nèi)存限制，接近TPUv3 pod，結(jié)果可在76分鐘內(nèi)完成BERT訓(xùn)練。

據(jù)悉，該論文的一作是來自UC Berkeley計算機科學(xué)部的在讀博士尤洋，同時也是Google Brain的實習(xí)生。據(jù)公開信息顯示，尤洋的導(dǎo)師是美國科學(xué)院與工程院院士，ACM/IEEE fellow，伯克利計算機系主任，以及首批中關(guān)村海外顧問James Demmel教授。他當(dāng)前的研究重點是大規(guī)模深度學(xué)習(xí)訓(xùn)練算法的分布式優(yōu)化。2017年9月，尤洋等人的新算法以24分鐘完成ImageNet訓(xùn)練，刷新世界紀錄。

在此之前，他曾在英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等機構(gòu)實習(xí)。尤洋本科就讀于中國農(nóng)業(yè)大學(xué)計算機系，碩士保送清華大學(xué)計算機系，是一名杠杠的理工學(xué)霸！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4772

瀏覽量
100809
TPU

TPU

+關(guān)注

關(guān)注
0

文章
141

瀏覽量
20740
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121207
訓(xùn)練模型

訓(xùn)練模型

+關(guān)注

關(guān)注
1

文章
36

瀏覽量
3841

原文標(biāo)題：1024塊TPU在燃燒！BERT訓(xùn)練從3天縮短到76分鐘 | 技術(shù)頭條

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

，基礎(chǔ)模型。 ? 大模型是一個簡稱，完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。預(yù)

發(fā)表于 11-25 09:29 ?1530次閱讀

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

Llama 3 模型訓(xùn)練技巧

Llama 3 模型，假設(shè)是指一個先進的人工智能模型，可能是一個虛構(gòu)的或者是一個特定領(lǐng)域的術(shù)語。 1. 數(shù)據(jù)預(yù)處理數(shù)據(jù)是任何機器學(xué)習(xí)模型的基礎(chǔ)。在

發(fā)表于 10-27 14:24 ?327次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)，特別是預(yù)訓(xùn)練的基礎(chǔ)模型研究得到了廣泛的應(yīng)用，但其仍然主要依賴于在大量樣本上的批量式訓(xùn)練

發(fā)表于 10-18 08:09 ?233次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域中的兩個重要概念，它們在提高模型性能、減少訓(xùn)練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?1076次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?438次閱讀

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

在人工智能和自然語言處理（NLP）領(lǐng)域，大型語言模型（Large Language Model，簡稱LLM）的興起極大地推動了技術(shù)的進步和應(yīng)用的發(fā)展。LLM通過在大規(guī)模文本數(shù)據(jù)上進行預(yù)

發(fā)表于 07-10 11:03 ?1081次閱讀

llm模型訓(xùn)練一般用什么系統(tǒng)

。硬件系統(tǒng) 1.1 GPU（圖形處理器）在訓(xùn)練大型語言模型時，GPU是首選的硬件設(shè)備。相比于CPU，GPU具有更高的并行處理能力，可以顯著提高訓(xùn)練速度。目前，NVIDIA的Tesl

發(fā)表于 07-09 10:02 ?418次閱讀

人臉識別模型訓(xùn)練流程

人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細介紹人臉識別模型的訓(xùn)練流程，包括數(shù)據(jù)準(zhǔn)備、

發(fā)表于 07-04 09:19 ?983次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）等領(lǐng)域中得

發(fā)表于 07-03 18:20 ?2877次閱讀

解讀PyTorch模型訓(xùn)練過程

PyTorch作為一個開源的機器學(xué)習(xí)庫，以其動態(tài)計算圖、易于使用的API和強大的靈活性，在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型

發(fā)表于 07-03 16:07 ?1082次閱讀

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型，本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù)，

發(fā)表于 07-01 16:13 ?1290次閱讀

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化，可以進一步提高數(shù)據(jù)的質(zhì)量和可用性，為后續(xù)的數(shù)據(jù)分析和建模提供更有價值的數(shù)據(jù)支持。在得到了大語言模型的數(shù)據(jù)之后，就是對其進行預(yù)

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

特定任務(wù)對模型進行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個轉(zhuǎn)折點，還為許多現(xiàn)實世界的應(yīng)用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預(yù)

發(fā)表于 05-05 12:17

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

和強化學(xué)習(xí)展開，詳細介紹各階段使用的算法、數(shù)據(jù)、難點及實踐經(jīng)驗。 預(yù)訓(xùn)練階段需要利用包含數(shù)千億甚至數(shù)萬億單詞的訓(xùn)練數(shù)據(jù)，并借助由數(shù)千塊高性能GPU 和高速網(wǎng)絡(luò)組成的超級計算機，花費數(shù)十

發(fā)表于 03-11 15:16

谷歌模型訓(xùn)練軟件有哪些功能和作用

谷歌模型訓(xùn)練軟件主要是指ELECTRA，這是一種新的預(yù)訓(xùn)練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢，而且

發(fā)表于 02-29 17:37 ?795次閱讀

搜索歷史

1024塊TPU在燃燒！將BERT預(yù)訓(xùn)練模型的訓(xùn)練時長從3天縮減到了76分鐘

評論

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

Llama 3 模型訓(xùn)練技巧

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

大語言模型的預(yù)訓(xùn)練

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

llm模型訓(xùn)練一般用什么系統(tǒng)

人臉識別模型訓(xùn)練流程

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

解讀PyTorch模型訓(xùn)練過程

深度學(xué)習(xí)模型訓(xùn)練過程詳解

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

谷歌模型訓(xùn)練軟件有哪些功能和作用

搜索歷史

1024塊TPU在燃燒！將BERT預(yù)訓(xùn)練模型的訓(xùn)練時長從3天縮減到了76分鐘

評論

1024塊TPU在燃燒！將BERT預(yù)訓(xùn)練模型的訓(xùn)練時長從3天縮減到了76分鐘