0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TensorFlow 2:專為性能和易用性而設(shè)計(jì)

Tensorflowers ? 來(lái)源:TensorFlow ? 2020-09-08 16:02 ? 次閱讀

衡量機(jī)器學(xué)習(xí)性能的業(yè)界標(biāo)準(zhǔn) MLPerf(https://mlperf.org) 發(fā)布了 MLPerf Training v0.7 輪的最新基準(zhǔn)測(cè)試結(jié)果。我們開(kāi)心地與大家分享,Google 的提交結(jié)果展現(xiàn)出一流的性能(達(dá)到目標(biāo)質(zhì)量用時(shí)最短),能夠擴(kuò)展至 4,000 多個(gè)加速器,并且在 Google Cloud 上為 TensorFlow 2 開(kāi)發(fā)者提供了靈活的開(kāi)發(fā)體驗(yàn)。

在本文中,我們將探討 TensorFlow 2 MLPerf 提交結(jié)果,以及這些結(jié)果展示了企業(yè)如何在 Google Cloud 中尖端的 ML 加速器上運(yùn)行 MLPerf 所代表的有價(jià)值的工作任務(wù),如廣泛部署的幾代 GPU 和 Cloud TPU(

TensorFlow 2:專為性能和易用性而設(shè)計(jì)

在今年早些時(shí)候舉行的 TensorFlow 開(kāi)發(fā)者峰會(huì)上,我們著重介紹了 TensorFlow 2 將注重易用性和實(shí)際性能。為爭(zhēng)取贏得基準(zhǔn)測(cè)試,工程師們往往依賴于低階 API 調(diào)用和硬件專用的代碼,而這些在日常企業(yè)環(huán)境中可能很少見(jiàn)或不實(shí)用。借助 TensorFlow 2,我們的目標(biāo)是通過(guò)更直接的代碼提供開(kāi)箱即用的高性能,避免低級(jí)優(yōu)化在代碼重用性、代碼運(yùn)行狀況和工程效率方面帶來(lái)的重大問(wèn)題。

MLPerf Training v0.7 中 Google 使用帶 8 個(gè) NVIDIA V100 GPU 的 Google Cloud VM 的收斂時(shí)間(分鐘)。提交結(jié)果在“可用”類別中

TensorFlow 的 Keras API(請(qǐng)參閱相關(guān)的一系列指南)支持多種硬件架構(gòu),提供了易用性和可移植性。例如,模型開(kāi)發(fā)者可以使用 Keras 混合精度 API 和 Distribution Strategy API 來(lái)使同一代碼庫(kù)盡可能在多個(gè)硬件平臺(tái)上流暢運(yùn)行。Google 的“云端可用”類別中的 MLPerf 提交結(jié)果是由這些 API 實(shí)現(xiàn)的。這些提交結(jié)果證明了使用高階 Keras API 編寫(xiě)的幾乎相同的 TensorFlow 代碼可以在業(yè)界兩個(gè)領(lǐng)先的廣泛可用的 ML 加速器平臺(tái)上提供高性能使用體驗(yàn):NVIDIA 的 V100 GPU 和 Google 的 Cloud TPU v3 Pod。

指南
https://tensorflow.google.cn/guide/keras/sequential_model

Keras混合精度 API
https://tensorflow.google.cn/guide/keras/mixed_precision

Distribution Strategy API
https://tensorflow.google.cn/guide/distributed_training

注:圖表中顯示的所有結(jié)果均于 2020 年 7 月 29 日從 www.mlperf.org 中獲取。MLPerf 名稱和徽標(biāo)為商標(biāo)。有關(guān)詳細(xì)信息,請(qǐng)?jiān)L問(wèn) www.mlperf.org。顯示的結(jié)果:0.7-1 和 0.7-2。

MLPerf Training v0.7 中使用含 16 個(gè) TPU 芯片的 Google Cloud TPU v3 Pod 切片的收斂時(shí)間(分鐘)。提交結(jié)果在“可用”類別中

深入了解:借助 XLA 提升性能

Google 提交的在 GPU 和 Cloud TPU Pod 上的測(cè)試結(jié)果使用了 XLA 編譯器來(lái)優(yōu)化 TensorFlow 性能。XLA 是 TPU 編譯器技術(shù)棧的核心部分,可以選擇性地為 GPU 啟用。XLA 是一個(gè)基于圖模型的即時(shí)編譯器,用于執(zhí)行各種不同類型的全程序優(yōu)化,包括 ML 運(yùn)算的廣泛 融合 。

XLA 編譯器
https://tensorflow.google.cn/xla

算子融合降低了 ML 模型對(duì)存儲(chǔ)容量和帶寬的要求。此外,融合減少了運(yùn)算的啟動(dòng)開(kāi)銷,尤其是在 GPU 上??傮w而言,XLA 優(yōu)化具有通用性和可移植性,與 cuDNN 和 cuBLAS 庫(kù)的互操作性十分出色,并且通常可以作為手動(dòng)編寫(xiě)低級(jí)內(nèi)核的有力替代方案。

Google 的“云端可用”類別中的 TensorFlow 2 提交結(jié)果使用了 TensorFlow 2.0 中引入的 @tf.function API。@tf.function API 提供了一種簡(jiǎn)單的方法來(lái)有選擇地啟用 XLA,從而可以精確控制將要編譯的函數(shù)。

啟用 XLA
https://www.tensorflow.org/xla/tutorials/compile

XLA 帶來(lái)的性能提升令人贊嘆:在連接 8 個(gè) Volta V100 GPU(每個(gè)具有 16 GB GPU 內(nèi)存)的 Google Cloud VM 上,XLA 將 BERT訓(xùn)練吞吐量從每秒 23.1 個(gè)序列提高到每秒 168 個(gè)序列,提升了約 7 倍。XLA 還使每個(gè) GPU 的可運(yùn)行批次大小增加了 5 倍。XLA 減少了內(nèi)存使用量,因此使得高級(jí)訓(xùn)練技術(shù)(如梯度積累)的使用成為可能。

在 Google Cloud 上使用 8 個(gè) V100 GPU 的 BERT 模型中啟用 XLA 的影響(分鐘)(Google 在 MLPerf Training 0.7 中提交的測(cè)試結(jié)果)與停用優(yōu)化條件下同一系統(tǒng)中未經(jīng)驗(yàn)證的 MLPerf 結(jié)果

Google Cloud 上最先進(jìn)的加速器

Google Cloud 是唯一支持訪問(wèn)最新 GPU 和 Cloud TPU 的公共云平臺(tái),使 AI 研究人員和數(shù)據(jù)科學(xué)家可以自由地為每個(gè)任務(wù)選擇合適的硬件。

GPU
https://cloud.google.com/blog/products/compute/announcing-google-cloud-a2-vm-family-based-on-nvidia-a100-gpu

Cloud TPU
https://cloud.google.com/tpu/

BERT 等前沿模型已在 Google 內(nèi)廣泛使用,并在整個(gè)行業(yè)范圍內(nèi)用于各種自然語(yǔ)言處理任務(wù),現(xiàn)在可以使用訓(xùn)練 Google 內(nèi)部工作任務(wù)所用的基礎(chǔ)架構(gòu)在 Google Cloud 上進(jìn)行訓(xùn)練。借助 Google Cloud,您可以在一個(gè)小時(shí)內(nèi)在具有 16 個(gè) TPU 芯片的 Cloud TPU v3 Pod 切片上將 BERT 訓(xùn)練 300 萬(wàn)個(gè)序列,總成本不到 32 美元。

BERT
https://github.com/tensorflow/models/blob/master/official/benchmark/bert_benchmark.py

結(jié)論

Google 的 MLPerf 0.7 訓(xùn)練提交結(jié)果展示了 TensorFlow 2 在最新的 ML 加速器硬件上的性能、易用性和可移植性。立即開(kāi)始,體驗(yàn) TensorFlow 2 在 Google Cloud GPU、Google Cloud TPU 和具有 Google Cloud Deep Learning VM 的 TensorFlow Enterprise 上的易用性和功能。

致謝

GPU 的 MLPerf 提交結(jié)果離不開(kāi)與 NVIDIA 的密切協(xié)作。NVIDIA 的所有工程師都為提交測(cè)試結(jié)果提供了幫助,在此一并表示感謝。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8425

    瀏覽量

    132769
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    329

    瀏覽量

    60541

原文標(biāo)題:TensorFlow 2 MLPerf 提交結(jié)果在 Google Cloud 上展現(xiàn)出同類最佳性能

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    充分考慮設(shè)備的體驗(yàn)易用性 藍(lán)鵬設(shè)計(jì)部將這一理念貫穿于整個(gè)研發(fā)過(guò)程

    關(guān)鍵字:藍(lán)鵬測(cè)控設(shè)計(jì)部,藍(lán)鵬測(cè)控測(cè)徑儀,藍(lán)鵬測(cè)控專利,測(cè)徑儀專利, 藍(lán)鵬設(shè)計(jì)部在研發(fā)過(guò)程中充分考慮設(shè)備的體驗(yàn)和易用性,這一理念對(duì)于提升產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力具有重要意義。 藍(lán)鵬設(shè)計(jì)部在研發(fā)設(shè)備時(shí),始終
    發(fā)表于 12-24 14:07

    11-06-CBM94AD67【中文排版】-202402221530

    CBM94AD67-250是一種16位單片中頻采樣模數(shù)轉(zhuǎn)換器(ADC)。它針對(duì)寬帶高性能和易用性進(jìn)行了優(yōu)化。該產(chǎn)品以250MSPS的轉(zhuǎn)換速率運(yùn)行,專為需要高動(dòng)態(tài)范圍的無(wú)線接收器、儀器和測(cè)試設(shè)備
    發(fā)表于 11-22 14:21 ?0次下載

    專為運(yùn)行而設(shè)計(jì):使用bq2018電源管理器IC的通用電池監(jiān)控器

    電子發(fā)燒友網(wǎng)站提供《專為運(yùn)行而設(shè)計(jì):使用bq2018電源管理器IC的通用電池監(jiān)控器.pdf》資料免費(fèi)下載
    發(fā)表于 10-24 09:28 ?0次下載
    <b class='flag-5'>專為</b>運(yùn)行<b class='flag-5'>而設(shè)</b>計(jì):使用bq2018電源管理器IC的通用電池監(jiān)控器

    Bourns 推出符合 AEC-Q200 標(biāo)準(zhǔn)高壓氣體放電管 (GDT) 專為滿足嚴(yán)苛的可靠、耐用和法規(guī)標(biāo)準(zhǔn)而設(shè)計(jì)

    組件領(lǐng)導(dǎo)制造供貨商,推出 SA2-A 高壓氣體放電管 (GDT) 系列。這是 Bourns 符合 AEC-Q200 標(biāo)準(zhǔn)的廣泛產(chǎn)品組合中的最新系列,專為滿足特定惡劣環(huán)境以及需要卓越的可靠、耐用
    發(fā)表于 10-08 11:35 ?3301次閱讀
     Bourns 推出符合 AEC-Q200 標(biāo)準(zhǔn)高壓氣體放電管 (GDT) <b class='flag-5'>專為</b>滿足嚴(yán)苛的可靠<b class='flag-5'>性</b>、耐用<b class='flag-5'>性</b>和法規(guī)標(biāo)準(zhǔn)<b class='flag-5'>而設(shè)</b>計(jì)

    中科創(chuàng)達(dá)旗下創(chuàng)通聯(lián)達(dá)Qualcomm RB3 Gen 2 Lite開(kāi)發(fā)套件上市銷售

    日前,中科創(chuàng)達(dá)旗下創(chuàng)通聯(lián)達(dá)(Thundercomm)宣布Qualcomm RB3 Gen 2 Lite 開(kāi)發(fā)套件在其官網(wǎng)商城正式上市銷售。該開(kāi)發(fā)套件是專為性能計(jì)算、高易用性
    的頭像 發(fā)表于 08-20 09:21 ?614次閱讀

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開(kāi)發(fā)的一個(gè)開(kāi)源深度學(xué)習(xí)框架,它允許開(kāi)發(fā)者方便地構(gòu)建、訓(xùn)練和部署各種復(fù)雜的機(jī)器學(xué)習(xí)模型。TensorFlow憑借其高效的計(jì)算性能、靈活的架構(gòu)以及豐富的工具和庫(kù),在學(xué)
    的頭像 發(fā)表于 07-12 16:38 ?735次閱讀

    tensorflow和pytorch哪個(gè)更簡(jiǎn)單?

    TensorFlow和PyTorch都是用于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的開(kāi)源框架。TensorFlow由Google Brain團(tuán)隊(duì)開(kāi)發(fā),而PyTorch由Facebook的AI研究團(tuán)隊(duì)開(kāi)發(fā)。 易用性
    的頭像 發(fā)表于 07-05 09:45 ?905次閱讀

    tensorflow和pytorch哪個(gè)好

    。 生態(tài)系統(tǒng) :擁有龐大的社區(qū)和豐富的資源,包括TensorFlow Hub、TensorBoard等工具。 易用性 :對(duì)于初學(xué)者來(lái)說(shuō),TensorFlow的學(xué)習(xí)曲線可能相對(duì)較陡
    的頭像 發(fā)表于 07-05 09:42 ?715次閱讀

    SOLIDWORKS教育版本的易用性

    在數(shù)字化和智能化的教育時(shí)代背景下,三維設(shè)計(jì)軟件在教學(xué)領(lǐng)域的應(yīng)用越來(lái)越廣泛。SOLIDWORKS教育版本作為一款專門針對(duì)教育領(lǐng)域設(shè)計(jì)的三維建模軟件,以其優(yōu)越的易用性贏得了廣泛的認(rèn)可。
    的頭像 發(fā)表于 07-04 17:11 ?302次閱讀

    新品 | Prime Block 50mm——專為實(shí)現(xiàn)最高性能而設(shè)計(jì)

    新品PrimeBlock50mm——專為實(shí)現(xiàn)最高性能而設(shè)計(jì)50mmPrimeBlock模塊優(yōu)化了熱阻,在更高的溫度條件下,它們的性能超越了目前的極限。因此,在相同的尺寸下,功率密度最高
    的頭像 發(fā)表于 05-28 08:14 ?261次閱讀
    新品 | Prime Block 50mm——<b class='flag-5'>專為</b>實(shí)現(xiàn)最高<b class='flag-5'>性能</b><b class='flag-5'>而設(shè)</b>計(jì)

    論RISC-V的MCU中UART接口的重要

    有效地傳輸大量數(shù)據(jù),從而改善外部設(shè)備的性能。這使得RISC-V的MCU在需要實(shí)時(shí)數(shù)據(jù)交互和處理的場(chǎng)景中表現(xiàn)出色,如遠(yuǎn)程控制、遠(yuǎn)程監(jiān)控等應(yīng)用。 低成本和易用性 : UART接口具有低成本的優(yōu)勢(shì),因?yàn)樗?/div>
    發(fā)表于 05-27 15:52

    基于 GaN 的 MOSFET 如何實(shí)現(xiàn)高性能電機(jī)逆變器

    ,設(shè)計(jì)人員可以使用氮化鎵(GaN)來(lái)實(shí)現(xiàn)這些目標(biāo),氮化鎵是一種寬帶隙(WBG)FET器件技術(shù),在成本、性能、可靠和易用性方面都得到了改進(jìn)和進(jìn)步。GaN器件是主流,已
    的頭像 發(fā)表于 05-23 10:56 ?606次閱讀
    基于 GaN 的 MOSFET 如何實(shí)現(xiàn)高<b class='flag-5'>性能</b>電機(jī)逆變器

    溫度測(cè)試儀的穩(wěn)定性和易用性

    溫度測(cè)試儀是一種廣泛應(yīng)用于科研、工業(yè)生產(chǎn)和日常生活中的重要儀器,主要用于精確測(cè)量物體或環(huán)境的溫度。這種設(shè)備以其高度的準(zhǔn)確、穩(wěn)定性和易用性,為眾多領(lǐng)域提供了有力的技術(shù)支持。 溫度測(cè)試儀的工作原理主要
    的頭像 發(fā)表于 03-25 11:26 ?457次閱讀
    溫度測(cè)試儀的穩(wěn)定性<b class='flag-5'>和易用性</b>

    打造穩(wěn)定快速的家庭網(wǎng)絡(luò),選購(gòu)高性能4G路由器

    選擇高性能4G路由器,關(guān)注品牌、網(wǎng)絡(luò)覆蓋能力、信號(hào)強(qiáng)度、速度和性能、安全和易用性等因素。只有綜合考慮,才能購(gòu)買到適合家庭使用的高性能4G路
    的頭像 發(fā)表于 01-23 17:07 ?407次閱讀

    芯原專為性能汽車應(yīng)用而設(shè)計(jì)的圖像信號(hào)處理器通過(guò)標(biāo)準(zhǔn)認(rèn)證

    2024年1月8日,美國(guó)拉斯維加斯——芯原股份 (芯原,股票代碼:688521.SH) 今日宣布其專為性能汽車應(yīng)用而設(shè)計(jì)的圖像信號(hào)處理器 (ISP) IP ISP8200-FS
    的頭像 發(fā)表于 01-12 16:45 ?1249次閱讀