0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TensorFlow正式發(fā)布1.5.0,使Volta GPUs/FP16上的訓(xùn)練速度翻倍

DPVg_AI_era ? 2018-01-29 15:02 ? 次閱讀

TensorFlow今天正式發(fā)布了1.5.0版本,支持CUDA 9和cuDNN 7,進(jìn)一步提速。并且,從1.6版本開(kāi)始,預(yù)編譯二進(jìn)制文件將使用AVX指令,這可能會(huì)破壞老式CPU上的TF。

剛剛,TensorFlow發(fā)布了1.5.0正式版,很多人都期待已久,最重大的改動(dòng)是支持CUDA 9和cuDNN 7,這承諾將使Volta GPUs/FP16上的訓(xùn)練速度翻倍。

此外,Eager execution預(yù)覽版可用,也將吸引不少初學(xué)者。

下面是這次更新的重大變動(dòng)及錯(cuò)誤修復(fù)。

TensorFlow正式發(fā)布1.5.0,使Volta GPUs/FP16上的訓(xùn)練速度翻倍

重大變動(dòng)

現(xiàn)在預(yù)編譯的二進(jìn)制文件是針對(duì)CUDA 9和cuDNN 7構(gòu)建的。

從1.6版本開(kāi)始,預(yù)編譯二進(jìn)制文件將使用AVX指令。這可能會(huì)破壞老式CPU上的TF。

主要特點(diǎn)和改進(jìn)

Eager execution

預(yù)覽版現(xiàn)在可用。

TensorFlow Lite

dev預(yù)覽現(xiàn)在可用。

提供CUDA 9和cuDNN 7支持。

加速線性代數(shù)(XLA):

將complex64支持添加到XLA編譯器。

bfloat支持現(xiàn)在被添加到XLA基礎(chǔ)設(shè)施。

使ClusterSpec propagation與XLA設(shè)備一起工作。

使用決定性執(zhí)行程序來(lái)生成XLA圖。

tf.contrib:

tf.contrib.distributions:

添加tf.contrib.distributions.Autoregressive。

使tf.contrib.distributions QuadratureCompound類(lèi)支持批處理

參數(shù)中推斷tf.contrib.distributions.RelaxedOneHotCategorical dtype。

使tf.contrib.distributions正交族參數(shù)化為quadrature_grid_and_prob vs quadrature_degree。

auto_correlation添加到tf.contrib.distributions

添加tf.contrib.bayesflow.layers,一個(gè)概率(神經(jīng))層的集合。

添加tf.contrib.bayesflow.halton_sequence。

添加tf.contrib.data.make_saveable_from_iterator。

添加tf.contrib.data.shuffle_and_repeat。

添加新的自定義轉(zhuǎn)換:tf.contrib.data.scan()。

tf.contrib.distributions.bijectors:

添加tf.contrib.distributions.bijectors.MaskedAutoregressiveFlow。

添加tf.contrib.distributions.bijectors.Permute。

添加tf.contrib.distributions.bijectors.Gumbel。

添加tf.contrib.distributions.bijectors.Reshape。

支持形狀推理(即,包含-1的形狀)在Reshape bijector。

添加streaming_precision_recall_at_equal_thresholds,streaming精度計(jì)算方法和 O(num_thresholds +預(yù)測(cè)的大?。r(shí)間和空間的復(fù)雜性。

更改RunConfig默認(rèn)行為,不設(shè)置隨機(jī)種子,使得隨機(jī)行為在分布式Worker上獨(dú)立隨機(jī)。期待這一點(diǎn)普遍提高訓(xùn)練效果。依靠determinism的模型應(yīng)明確設(shè)置一個(gè)隨機(jī)種子。

用absl.flags取代了tf.flags的實(shí)現(xiàn)。

在fp16 GEMM中添加對(duì)CUBLAS_TENSOR_OP_MATH的支持

在NVIDIA Tegra設(shè)備上添加對(duì)CUDA的支持

錯(cuò)誤修復(fù)和其他更改

文檔更新:

說(shuō)明只能在64位機(jī)器上安裝TensorFlow。

添加了一個(gè)簡(jiǎn)短的文檔,解釋了Estimators如何保存檢查點(diǎn)。

為tf2xla網(wǎng)橋支持的操作添加文檔。

修復(fù)SpaceToDepth和DepthToSpace文檔中的小錯(cuò)別字。

在mfcc_mel_filterbank.h和mfcc.h中更新了文檔注釋?zhuān)f(shuō)明輸入域是幅度譜的平方,權(quán)重是在線性幅度譜(輸入的平方)上完成的。

更改tf.contrib.distributions docstring示例以使用tfd別名,而不是ds,bs。

修復(fù)tf.distributions.bijectors.Bijector中的文檔字符串錯(cuò)別字。

tf.assert_equal不再引發(fā)ValueError?,F(xiàn)在提出InvalidArgumentError。

更新入門(mén)文檔和API介紹。

Google云端存儲(chǔ)(GCS):

為GCS客戶(hù)端添加用戶(hù)空間DNS緩存。

為GCS文件系統(tǒng)定制請(qǐng)求超時(shí)。

改進(jìn)GCS文件系統(tǒng)緩存。

Bug修復(fù):

修正分區(qū)整型變量得到錯(cuò)誤形狀的問(wèn)題。

修正Adadelta的CPU和GPU實(shí)現(xiàn)中的correctness bug。

修復(fù)import_meta_graph在處理分區(qū)變量時(shí)的錯(cuò)誤。警告:這可能會(huì)破壞使用帶有非空的import_scope參數(shù)的import_meta_graph后保存的分區(qū)變量的圖形加載檢查點(diǎn)。

修復(fù)離線調(diào)試器中阻止查看事件的錯(cuò)誤。

將WorkerService.DeleteWorkerSession方法添加到gRPC接口來(lái)修復(fù)內(nèi)存泄漏。確保主服務(wù)器和工作服務(wù)器運(yùn)行相同版本的TensorFlow,以避免兼容性問(wèn)題。

修復(fù)BlockLSTM單元的窺視孔peephole實(shí)現(xiàn)中的bug。

通過(guò)將dtype的log_det_jacobian轉(zhuǎn)換為與TransformedDistribution中的log_prob匹配來(lái)修復(fù)bug。

修復(fù)import_meta_graph在處理分區(qū)變量時(shí)的錯(cuò)誤,確保tf.distributions.Multinomial不會(huì)在log_prob中下溢。在這個(gè)變化之前,整型變量的所有分區(qū)都用未分區(qū)變量的形狀初始化; 在這個(gè)改變之后他們被正確地初始化。

其他

為bfloat16添加必要的形狀util支持。

添加一個(gè)方法來(lái)使用MonitoredSession的step函數(shù)運(yùn)行ops。

添加DenseFlipout概率層。

訓(xùn)練時(shí)有一個(gè)新的標(biāo)志ignore_live_threads。如果設(shè)置為T(mén)rue,它會(huì)在成功完成訓(xùn)練后,忽略在拆除基礎(chǔ)架構(gòu)時(shí)仍然運(yùn)行的線程,而不是拋出一個(gè)RuntimeError。

重新標(biāo)準(zhǔn)化DenseVariational作為其他概率的簡(jiǎn)單模板層。

tf.data現(xiàn)在支持?jǐn)?shù)據(jù)集元素中的tf.SparseTensor組件。

現(xiàn)在可以遍歷Tensors。

允許SparseSegmentReduction操作缺少段ID。

修改自定義導(dǎo)出策略以說(shuō)明多維稀疏浮動(dòng)分割。

Conv2D,Conv2DBackpropInput,Conv2DBackpropFilter現(xiàn)在支持具有GPU和cuDNNv6支持的任意擴(kuò)展。

估算器現(xiàn)在支持?jǐn)?shù)據(jù)集:input_fn可以返回?cái)?shù)據(jù)集,而不是張量。

添加RevBlock,這是可逆殘留層的高效內(nèi)存實(shí)現(xiàn)。

減少BFCAllocator內(nèi)部碎片。

將cross_entropy和kl_divergence添加到tf.distributions.Distribution。

添加啟用反向傳播的tf.nn.softmax_cross_entropy_with_logits_v2w.r.t.標(biāo)簽

GPU后端現(xiàn)在使用ptxas編譯生成的PTX。

BufferAssignment的協(xié)議緩沖區(qū)轉(zhuǎn)儲(chǔ)現(xiàn)在是確定性的。

將嵌入操作更改為使用DynamicStitch的并行版本。

添加對(duì)稀疏多維特征列的支持。

加快只有1個(gè)值的稀疏浮點(diǎn)列的情況。

允許稀疏浮動(dòng)分割以支持多值特征列。

將分位數(shù)添加到tf.distributions.TransformedDistribution。

在GPU上添加對(duì)tf.depth_to_space的NCHW_VECT_C支持。

在GPU上為tf.space_to_depth添加NCHW_VECT_C支持。

API的更改

在Squeeze操作的C ++ API中將SqueezeDims屬性重命名為Axis。

Stream :: BlockHostUntilDone現(xiàn)在返回Status而不是bool。

次要重構(gòu):將統(tǒng)計(jì)文件從隨機(jī)移動(dòng)到常見(jiàn)并移除隨機(jī)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10896

    瀏覽量

    212522
  • TF
    TF
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    33117
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    329

    瀏覽量

    60577

原文標(biāo)題:TensorFlow正式發(fā)布1.5.0,支持CUDA 9和cuDNN 7,雙倍提速

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FPGA中使用FP16格式的點(diǎn)積運(yùn)算實(shí)例分析

    本文講述的是使用FP16格式的點(diǎn)積運(yùn)算實(shí)例,展示了MLP72支持的數(shù)字類(lèi)型和乘數(shù)的范圍。
    發(fā)表于 08-15 09:50 ?2321次閱讀
    FPGA中使用<b class='flag-5'>FP16</b>格式的點(diǎn)積運(yùn)算實(shí)例分析

    如何在Raspberry Pi安裝TensorFlow

     在本教程中,我們將學(xué)習(xí)如何在 Raspberry Pi 安裝 TensorFlow,并將展示一些在預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)上進(jìn)行簡(jiǎn)單圖像分類(lèi)的示例。
    發(fā)表于 09-01 16:35 ?2251次閱讀
    如何在Raspberry Pi<b class='flag-5'>上</b>安裝<b class='flag-5'>TensorFlow</b>

    FP16轉(zhuǎn)換報(bào)錯(cuò)的原因?

    FP32轉(zhuǎn)換正常,FP16轉(zhuǎn)換報(bào)錯(cuò)(model_transform正常) 運(yùn)行命令為: model_deploy.py--mlir
    發(fā)表于 01-10 08:01

    TensorFlow是什么

    更長(zhǎng)。TensorFlow 使這一切變得更加簡(jiǎn)單快捷,從而縮短了想法到部署之間的實(shí)現(xiàn)時(shí)間。在本教程中,你將學(xué)習(xí)如何利用 TensorFlow 的功能來(lái)實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)。TensorFlow
    發(fā)表于 07-22 10:14

    實(shí)例!詳解FPGA如何實(shí)現(xiàn)FP16格式點(diǎn)積級(jí)聯(lián)運(yùn)算

    MLP72的列級(jí)聯(lián)到上面的下一個(gè)MLP72塊。在最后一個(gè)MLP72中,在每個(gè)周期,計(jì)算八個(gè)并行FP16乘法的總和。最終結(jié)果是多個(gè)輸入周期內(nèi)的累加總和,其中累加由i_first和i_last輸入控制
    發(fā)表于 08-18 10:58

    詳解天線系統(tǒng)解決方案中的FP16格式點(diǎn)積級(jí)聯(lián)運(yùn)算

    MLP72 的列級(jí)聯(lián)到上面的下一個(gè) MLP72 塊。在最后一個(gè) MLP72 中,在每個(gè)周期,計(jì)算八個(gè)并行 FP16 乘法的總和。最終結(jié)果是多個(gè)輸入周期內(nèi)的累加總和,其中累加由 i_first
    發(fā)表于 09-04 16:12

    推斷FP32模型格式的速度比CPUFP16模型格式快是為什么?

    在 CPU 推斷出 FP32 模型格式和 FP16 模型格式。 FP32 模型格式的推斷速度FP
    發(fā)表于 08-15 08:03

    基于tensorflow.js設(shè)計(jì)、訓(xùn)練面向web的神經(jīng)網(wǎng)絡(luò)模型的經(jīng)驗(yàn)

    你也許會(huì)好奇:為什么要在瀏覽器里基于tensorflow.js訓(xùn)練我的模型,而不是直接在自己的機(jī)器基于tensorflow訓(xùn)練模型?你當(dāng)然
    的頭像 發(fā)表于 10-18 09:43 ?4126次閱讀

    谷歌TensorFlow 2.4 Mac M1優(yōu)化版發(fā)布

    搭載 Apple 全新 M1 芯片或 Intel 芯片 Mac 的 利用 TensorFlow 2.4 Mac 優(yōu)化版和新的 ML Compute 框架來(lái)加快訓(xùn)練速度。這些改進(jìn)提升了
    的頭像 發(fā)表于 12-04 10:11 ?1542次閱讀

    NVIDIA助力騰訊助力“開(kāi)悟”AI開(kāi)放研究平臺(tái)

      為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開(kāi)悟”AI開(kāi)放研究平臺(tái)希望能夠使用TensorRT FP16精度來(lái)加速推理。由于TensorRT對(duì)FP16的支持非常成熟和簡(jiǎn)便,整個(gè)推理流程很快被切換到FP
    的頭像 發(fā)表于 04-21 10:47 ?1260次閱讀

    OpenCV 4.8.0正式發(fā)布

    OpenCV 4.8.0已于2023年6月29日凌晨正式發(fā)布,此次發(fā)布中有DNN模塊中對(duì)TFLite模型的支持,FP16精度推理的支持等諸多亮點(diǎn)。
    的頭像 發(fā)表于 06-30 16:11 ?950次閱讀

    先楫半導(dǎo)體 hpm_sdk v1.5.0 正式發(fā)布

    先楫半導(dǎo)體 hpm_sdk v1.5.0 正式發(fā)布
    的頭像 發(fā)表于 04-12 08:17 ?638次閱讀
    先楫半導(dǎo)體 hpm_sdk v<b class='flag-5'>1.5.0</b> 正式<b class='flag-5'>發(fā)布</b>

    NVIDIA GPU架構(gòu)下的FP8訓(xùn)練與推理

    FP8 訓(xùn)練利用 E5M2/E4M3 格式,具備與 FP16 相當(dāng)?shù)膭?dòng)態(tài)范圍,適用于反向傳播與前向傳播。
    的頭像 發(fā)表于 04-25 10:01 ?830次閱讀
    NVIDIA GPU架構(gòu)下的<b class='flag-5'>FP</b>8<b class='flag-5'>訓(xùn)練</b>與推理

    tensorflow簡(jiǎn)單的模型訓(xùn)練

    在本文中,我們將詳細(xì)介紹如何使用TensorFlow進(jìn)行簡(jiǎn)單的模型訓(xùn)練TensorFlow是一個(gè)開(kāi)源的機(jī)器學(xué)習(xí)庫(kù),廣泛用于各種機(jī)器學(xué)習(xí)任務(wù),包括圖像識(shí)別、自然語(yǔ)言處理等。我們將從安裝
    的頭像 發(fā)表于 07-05 09:38 ?740次閱讀

    FP8數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用

    本文主要介紹了 FP8 數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用、挑戰(zhàn)及最佳實(shí)踐,展示了 FP8 在提升訓(xùn)練速度和效率方面的潛力和實(shí)際效果。
    的頭像 發(fā)表于 11-19 14:54 ?420次閱讀
    <b class='flag-5'>FP</b>8數(shù)據(jù)格式在大型模型<b class='flag-5'>訓(xùn)練</b>中的應(yīng)用