赤裸孕妇牲交视频,最近中文字幕2024最新电影

華為云ModelArts在國(guó)際權(quán)威的深度學(xué)習(xí)模型基準(zhǔn)測(cè)試平臺(tái)斯坦福DAWNBenchmark上取得了當(dāng)前圖像識(shí)別訓(xùn)練時(shí)間最佳成績(jī)，ResNet-50在ImageNet數(shù)據(jù)集上收斂?jī)H用10分28秒，比第二名成績(jī)提升近44%。華為自研了分布式通用加速框架MoXing，在應(yīng)用層和TensorFlow、MXNet、PyTorch等框架之間實(shí)現(xiàn)再優(yōu)化。

日前，斯坦福大學(xué)發(fā)布了DAWNBenchmark最新成績(jī)，在圖像識(shí)別（ResNet50-on-ImageNet，93%以上精度）的總訓(xùn)練時(shí)間上，華為云ModelArts排名第一，僅需10分28秒，比第二名提升近44%。

斯坦福大學(xué)DAWNBenchmark圖像識(shí)別訓(xùn)練時(shí)間最新成績(jī)，華為云ModelArts以10分28秒排名第一，超越了fast.ai、谷歌等勁敵。

作為人工智能最重要的基礎(chǔ)技術(shù)之一，近年來深度學(xué)習(xí)逐步延伸到更多的應(yīng)用場(chǎng)景。除了精度，訓(xùn)練時(shí)間和成本也是構(gòu)建深度學(xué)習(xí)模型時(shí)需要考慮的核心要素。然而，當(dāng)前的深度學(xué)習(xí)基準(zhǔn)往往以衡量精度為主，斯坦福大學(xué)DAWNBench正是在此背景下提出。

斯坦福DAWNBench是衡量端到端深度學(xué)習(xí)模型訓(xùn)練和推理性能的國(guó)際權(quán)威基準(zhǔn)測(cè)試平臺(tái)，提供了一套通用的深度學(xué)習(xí)評(píng)價(jià)指標(biāo)，用于評(píng)估不同優(yōu)化策略、模型架構(gòu)、軟件框架、云和硬件上的訓(xùn)練時(shí)間、訓(xùn)練成本、推理延遲以及推理成本，吸引了谷歌、亞馬遜AWS、fast.ai等高水平隊(duì)伍參與，相應(yīng)的排名反映了當(dāng)前全球業(yè)界深度學(xué)習(xí)平臺(tái)技術(shù)的領(lǐng)先性。

正是在這樣高手云集的基準(zhǔn)測(cè)試中，華為云ModelArts第一次參加國(guó)際排名，便實(shí)現(xiàn)了更低成本、更快速度的體驗(yàn)。

華為云創(chuàng)造端到端全棧優(yōu)化新紀(jì)錄：128塊GPU，10分鐘訓(xùn)練完ImageNet

為了達(dá)到更高的精度，通常深度學(xué)習(xí)所需數(shù)據(jù)量和模型都很大，訓(xùn)練非常耗時(shí)。例如，在計(jì)算機(jī)視覺領(lǐng)域常用的經(jīng)典ImageNet數(shù)據(jù)集（1000個(gè)類別，共128萬張圖片）上，用1塊P100 GPU訓(xùn)練一個(gè)ResNet-50模型，耗時(shí)需要將近1周。這嚴(yán)重阻礙了深度學(xué)習(xí)應(yīng)用的開發(fā)進(jìn)度。因此，深度學(xué)習(xí)訓(xùn)練加速一直是學(xué)術(shù)界和工業(yè)界所關(guān)注的重要問題，也是深度學(xué)習(xí)應(yīng)用的主要痛點(diǎn)。

曾任Kaggle總裁和首席科學(xué)家的澳大利亞數(shù)據(jù)科學(xué)家和企業(yè)家Jeremy Howard，與其他幾位教授共同組建了AI初創(chuàng)公司fast.ai，專注于深度學(xué)習(xí)加速。他們用128塊V100 GPU，在上述ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型，最短時(shí)間為18分鐘。

最近BigGAN、NASNet、BERT等模型的出現(xiàn)，預(yù)示著訓(xùn)練更好精度的模型需要更強(qiáng)大的計(jì)算資源。可以預(yù)見，在未來隨著模型的增大、數(shù)據(jù)量的增加，深度學(xué)習(xí)訓(xùn)練加速將變得會(huì)更加重要。

只有擁有端到端全棧的優(yōu)化能力，才能使得深度學(xué)習(xí)的訓(xùn)練性能做到極致。

華為云ModelArts功能視圖

華為云ModelArts是一站式的AI開發(fā)平臺(tái)，已經(jīng)服務(wù)于華為公司內(nèi)部各大產(chǎn)品線的AI模型開發(fā)，幾年下來已經(jīng)積累了跨場(chǎng)景、軟硬協(xié)同、端云一體等多方位的優(yōu)化經(jīng)驗(yàn)。

ModelArts提供了自動(dòng)學(xué)習(xí)、數(shù)據(jù)管理、開發(fā)管理、訓(xùn)練管理、模型管理、推理服務(wù)管理、市場(chǎng)等多個(gè)模塊化的服務(wù)，使得不同層級(jí)的用戶都能夠很快地開發(fā)出自己的AI模型。

自研分布式通用加速框架MoXing，性能再加速

為什么ModelArts能在圖像識(shí)別的訓(xùn)練時(shí)間上取得如此優(yōu)異的成績(jī)？

答案是“MoXing”。

在模型訓(xùn)練部分，ModelArts通過硬件、軟件和算法協(xié)同優(yōu)化來實(shí)現(xiàn)訓(xùn)練加速。尤其在深度學(xué)習(xí)模型訓(xùn)練方面，華為將分布式加速層抽象出來，形成一套通用框架——MoXing（“模型”的拼音，意味著一切優(yōu)化都圍繞模型展開）。

采用與fast.ai一樣的硬件、模型和訓(xùn)練數(shù)據(jù)，ModelArts可將訓(xùn)練時(shí)長(zhǎng)可縮短到10分鐘，創(chuàng)造了新的紀(jì)錄，為用戶節(jié)省44%的時(shí)間

MoXing是華為云ModelArts團(tuán)隊(duì)自研的分布式訓(xùn)練加速框架，它構(gòu)建于開源的深度學(xué)習(xí)引擎TensorFlow、MXNet、PyTorch、Keras之上，使得這些計(jì)算引擎分布式性能更高，同時(shí)易用性更好。

華為云MoXing架構(gòu)圖

MoXing內(nèi)置了多種模型參數(shù)切分和聚合策略、分布式SGD優(yōu)化算法、級(jí)聯(lián)式混合并行技術(shù)、超參數(shù)自動(dòng)調(diào)優(yōu)算法，并且在分布式訓(xùn)練數(shù)據(jù)切分策略、數(shù)據(jù)讀取和預(yù)處理、分布式通信等多個(gè)方面做了優(yōu)化，結(jié)合華為云Atlas高性能服務(wù)器，實(shí)現(xiàn)了硬件、軟件和算法協(xié)同優(yōu)化的分布式深度學(xué)習(xí)加速。

有了MoXing后，上層開發(fā)者可以聚焦業(yè)務(wù)模型，無需關(guān)注下層分布式相關(guān)的API，只用根據(jù)實(shí)際業(yè)務(wù)定義輸入數(shù)據(jù)、模型以及相應(yīng)的優(yōu)化器即可，訓(xùn)練腳本與運(yùn)行環(huán)境（單機(jī)或者分布式）無關(guān)，上層業(yè)務(wù)代碼和分布式訓(xùn)練引擎可以做到完全解耦。

用數(shù)據(jù)說話：從吞吐量和收斂時(shí)間看加速性能

深度學(xué)習(xí)加速屬于一個(gè)從底層硬件到上層計(jì)算引擎、再到更上層的分布式訓(xùn)練框架及其優(yōu)化算法多方面協(xié)同優(yōu)化的結(jié)果，具備全棧優(yōu)化能力才能將用戶訓(xùn)練成本降到最低。

在模型訓(xùn)練這方面，華為云ModelArts內(nèi)置的MoXing框架使得深度學(xué)習(xí)模型訓(xùn)練速度有了很大的提升。

下圖是華為云團(tuán)隊(duì)測(cè)試的模型收斂曲線（128塊V100 GPU，完成ResNet50-on-ImageNet）。一般在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型，當(dāng)Top-5精度≥93%或者Top-1 精度≥75%時(shí)，即可認(rèn)為模型收斂。

ResNet50-on-ImageNet訓(xùn)練收斂曲線（曲線上的精度為訓(xùn)練集上的精度）：(a)所對(duì)應(yīng)的模型在驗(yàn)證集上Top-1 精度≥75%，訓(xùn)練耗時(shí)為10分06秒；(b) 所對(duì)應(yīng)的模型在驗(yàn)證集上Top-5精度≥93%，訓(xùn)練耗時(shí)為10分28秒。

Top-1和Top-5精度為訓(xùn)練集上的精度，為了達(dá)到極致的訓(xùn)練速度，訓(xùn)練過程中采用了額外進(jìn)程對(duì)模型進(jìn)行驗(yàn)證，最終驗(yàn)證精度如下表所示（包含與fast.ai的對(duì)比）。

MoXing與fast.ai的訓(xùn)練結(jié)果對(duì)比

華為云團(tuán)隊(duì)介紹，衡量分布式深度學(xué)習(xí)框架加速性能時(shí)，主要看吞吐量和收斂時(shí)間。在與吞吐量和收斂時(shí)間相關(guān)的幾個(gè)關(guān)鍵指標(biāo)上，團(tuán)隊(duì)都做了精心處理：

在數(shù)據(jù)讀取和預(yù)處理方面，MoXing通過利用多級(jí)并發(fā)輸入流水線使得數(shù)據(jù)IO不會(huì)成為瓶頸；

在模型計(jì)算方面，MoXing對(duì)上層模型提供半精度和單精度組成的混合精度計(jì)算，通過自適應(yīng)的尺度縮放減小由于精度計(jì)算帶來的損失；

在超參調(diào)優(yōu)方面，采用動(dòng)態(tài)超參策略（如momentum、batch size等）使得模型收斂所需epoch個(gè)數(shù)降到最低；

在底層優(yōu)化方面，MoXing與底層華為自研服務(wù)器和通信計(jì)算庫(kù)相結(jié)合，使得分布式加速進(jìn)一步提升

后續(xù)，華為云ModelArts將進(jìn)一步整合軟硬一體化的優(yōu)勢(shì)，提供從芯片（Ascend）、服務(wù)器（Atlas Server）、計(jì)算通信庫(kù)（CANN）到深度學(xué)習(xí)引擎（MindSpore）和分布式優(yōu)化框架（MoXing）全棧優(yōu)化的深度學(xué)習(xí)訓(xùn)練平臺(tái)。

ModelArts會(huì)逐步集成更多的數(shù)據(jù)標(biāo)注工具，擴(kuò)大應(yīng)用范圍，將繼續(xù)服務(wù)于智慧城市、智能制造、自動(dòng)駕駛及其它新興業(yè)務(wù)場(chǎng)景，在公有云上為用戶提供更普惠的AI服務(wù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

華為

華為

+關(guān)注

關(guān)注
216

文章
34440

瀏覽量
251771
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121175

原文標(biāo)題：華為云刷新深度學(xué)習(xí)加速紀(jì)錄：128塊GPU，10分鐘訓(xùn)練完ImageNet

文章出處：【微信號(hào)：worldofai，微信公眾號(hào)：worldofai】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

華為云Flexus X實(shí)例，Redis性能加速評(píng)測(cè)及對(duì)比

加速 Redis 的選項(xiàng)。本文旨在通過實(shí)際測(cè)試，展示華為云 Flexus X 實(shí)例在加速 Redis 方面的性能優(yōu)勢(shì)，并與其他業(yè)界 U1 實(shí)例進(jìn)行對(duì)比。

發(fā)表于 12-29 15:47 ?67次閱讀

<b class='flag-5'>華為</b><b class='flag-5'>云</b>Flexus X實(shí)例，Redis性能<b class='flag-5'>加速</b>評(píng)測(cè)及對(duì)比

基于華為云 Flexus 云服務(wù)器 X 實(shí)例搭建 Linux 學(xué)習(xí)環(huán)境

不僅提供了強(qiáng)大的計(jì)算資源，還擁有靈活的擴(kuò)展能力和穩(wěn)定的運(yùn)行表現(xiàn)，為用戶提供了可靠的技術(shù)支撐。特別是對(duì)于那些希望快速搭建 Linux 學(xué)習(xí)環(huán)境的用戶來說，華為云 Flexus 云服務(wù)器

發(fā)表于 12-25 17:10 ?118次閱讀

基于<b class='flag-5'>華為</b><b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服務(wù)器 X 實(shí)例搭建 Linux <b class='flag-5'>學(xué)習(xí)</b>環(huán)境

NPU在深度學(xué)習(xí)中的應(yīng)用

設(shè)計(jì)的硬件加速器，它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對(duì)深度學(xué)習(xí)算法優(yōu)化的處理器，它與傳統(tǒng)的CPU和G

發(fā)表于 11-14 15:17 ?591次閱讀

基于深度學(xué)習(xí)的三維點(diǎn)云分類方法

近年來，點(diǎn)云表示已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一，并廣泛應(yīng)用于自動(dòng)駕駛、虛擬現(xiàn)實(shí)、機(jī)器人等許多領(lǐng)域。雖然深度學(xué)習(xí)技術(shù)在處理常規(guī)結(jié)構(gòu)化的二維網(wǎng)格圖像數(shù)據(jù)方面取得了巨大成功，但在處理不規(guī)則、非結(jié)構(gòu)化的點(diǎn)云數(shù)據(jù)方面仍面臨著巨大挑戰(zhàn)。

發(fā)表于 10-29 09:43 ?470次閱讀

基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的三維點(diǎn)<b class='flag-5'>云</b>分類方法

Pytorch深度學(xué)習(xí)訓(xùn)練的方法

掌握這 17 種方法，用最省力的方式，加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。

發(fā)表于 10-28 14:05 ?215次閱讀

Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

GPU深度學(xué)習(xí)應(yīng)用案例

GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要，以下是一些GPU深度學(xué)習(xí)應(yīng)用案例：一、圖像識(shí)別圖像識(shí)別是深度學(xué)習(xí)

發(fā)表于 10-27 11:13 ?398次閱讀

FPGA加速深度學(xué)習(xí)模型的案例

FPGA（現(xiàn)場(chǎng)可編程門陣列）加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速

發(fā)表于 10-25 09:22 ?229次閱讀

AI大模型與深度學(xué)習(xí)的關(guān)系

AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系，它們互為促進(jìn)，相輔相成。以下是對(duì)兩者關(guān)系的介紹：一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐：深度

發(fā)表于 10-23 15:25 ?745次閱讀

深度學(xué)習(xí)GPU加速效果如何

圖形處理器（GPU）憑借其強(qiáng)大的并行計(jì)算能力，成為加速深度學(xué)習(xí)任務(wù)的理想選擇。

發(fā)表于 10-17 10:07 ?200次閱讀

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

，共同進(jìn)步。歡迎加入FPGA技術(shù)微信交流群14群! 交流問題（一） Q：FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？現(xiàn)在用FPGA做深度學(xué)習(xí)加速成為一個(gè)熱

發(fā)表于 09-27 20:53

中軟國(guó)際與華為云“同舟共濟(jì)”合作7周年系列活動(dòng)成功舉辦

華為云全領(lǐng)域綜合型合作伙伴。本次活動(dòng)，中軟國(guó)際聯(lián)合華為云與多位技術(shù)專家共同聚焦業(yè)務(wù)發(fā)展，圍繞政策產(chǎn)品、腰部運(yùn)作、生態(tài)持續(xù)運(yùn)營(yíng)等方面展開深度交

發(fā)表于 07-19 11:43 ?734次閱讀

新手小白怎么學(xué)GPU云服務(wù)器跑深度學(xué)習(xí)?

新手小白想用GPU云服務(wù)器跑深度學(xué)習(xí)應(yīng)該怎么做? 用個(gè)人主機(jī)通常pytorch可以跑但是LexNet，AlexNet可能就直接就跑不動(dòng),如何實(shí)現(xiàn)更經(jīng)濟(jì)便捷的實(shí)現(xiàn)GPU云服務(wù)器

發(fā)表于 06-11 17:09

華為云尚海峰：以數(shù)智技術(shù)為核心，加速培育和形成新質(zhì)生產(chǎn)力

科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合，記者采訪了華為混合云總裁、主機(jī)上云軍團(tuán)CEO 尚海峰，他分享了如何通過數(shù)智技術(shù)幫助政企加快發(fā)展新質(zhì)生產(chǎn)力，實(shí)現(xiàn)產(chǎn)業(yè)轉(zhuǎn)型和智能化升級(jí)的觀點(diǎn)。

發(fā)表于 04-10 23:19 ?526次閱讀

科技融合金融深度創(chuàng)新成果加速落地|華為云Web3與伙伴共創(chuàng)價(jià)值

? 2023年是區(qū)塊鏈技術(shù)飛速發(fā)展的一年，也是華為云Web3服務(wù)的輝煌之年，作為華為云核心產(chǎn)品，華為云

發(fā)表于 04-07 16:53 ?889次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

上漲，因?yàn)槭聦?shí)表明，它們的 GPU 在訓(xùn)練和運(yùn)行深度學(xué)習(xí)模型方面效果明顯。實(shí)際上，英偉達(dá)也已經(jīng)對(duì)自己的業(yè)務(wù)進(jìn)行了轉(zhuǎn)型，之前它是一家純粹做 GPU 和游戲的公司，現(xiàn)在除了作為一家云 GPU 服務(wù)

發(fā)表于 03-21 15:19

搜索歷史

華為云刷新深度學(xué)習(xí)加速紀(jì)錄

評(píng)論

華為云Flexus X實(shí)例，Redis性能加速評(píng)測(cè)及對(duì)比

基于華為云 Flexus 云服務(wù)器 X 實(shí)例搭建 Linux 學(xué)習(xí)環(huán)境

NPU在深度學(xué)習(xí)中的應(yīng)用

基于深度學(xué)習(xí)的三維點(diǎn)云分類方法

Pytorch深度學(xué)習(xí)訓(xùn)練的方法

GPU深度學(xué)習(xí)應(yīng)用案例

FPGA加速深度學(xué)習(xí)模型的案例

AI大模型與深度學(xué)習(xí)的關(guān)系

深度學(xué)習(xí)GPU加速效果如何

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

中軟國(guó)際與華為云“同舟共濟(jì)”合作7周年系列活動(dòng)成功舉辦

新手小白怎么學(xué)GPU云服務(wù)器跑深度學(xué)習(xí)?

華為云尚海峰：以數(shù)智技術(shù)為核心，加速培育和形成新質(zhì)生產(chǎn)力

科技融合金融深度創(chuàng)新成果加速落地|華為云Web3與伙伴共創(chuàng)價(jià)值

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU