0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

TFRecorder已開源

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-09-23 09:12 ? 次閱讀

在訓練計算機視覺機器學習模型時,數(shù)據(jù)加載是一種常見的性能瓶頸,可能導致 GPU 或 TPU 資源在等待數(shù)據(jù)加載到模型時得不到充分利用。以高效 TensorFlow Record (TFRecord)格式存儲數(shù)據(jù)集是解決這些問題的好方法,只不過,創(chuàng)建 TFRecords 往往需要大量的復雜代碼。

TensorFlow Record
https://tensorflow.google.cn/tutorials/load_data/tfrecord

我們上周開源了 TensorFlow Recorder 項目(也就是 TFRecorder),如此一來,數(shù)據(jù)科學家、數(shù)據(jù)工程師AI/ML 工程師只需幾行代碼即可創(chuàng)建基于圖像的 TFRecords。使用 TFRecords 對于創(chuàng)建高效 TensorFlow ML 流水線非常重要,而過去的創(chuàng)建方法非常繁瑣。在 TFRecorder 之前,要大規(guī)模創(chuàng)建 TFRecords,必須編寫一個數(shù)據(jù)流水線來解析結構化數(shù)據(jù),從存儲中加載圖像并將結果序列化為 TFRecord 格式。TFRecorder 允許您直接從 Pandas dataframe 或 CSV 寫入 TFRecords,無需編寫任何復雜的代碼。

TensorFlow Recorder
https://github.com/google/tensorflow-recorder

以下是 TFRecoder 的示例,但我們先談談 TFRecords 的一些特定優(yōu)勢。

TFRecords 如何提供幫助

TFRecord 文件格式可以將數(shù)據(jù)存儲在文件集中,每個文件都包含序列化為二進制記錄的 Protocol Buffers 序列,可以非常高效地讀取,有助于減少上述數(shù)據(jù)加載瓶頸。

Protocol Buffers
https://developers.google.com/protocol-buffers/

在使用 TFRecord 格式的同時實現(xiàn)預提取和并行交錯,可以進一步提高數(shù)據(jù)加載性能。當模型在當前步驟上執(zhí)行訓練時,使用 prefetch 可以提前獲取下一個訓練步驟的數(shù)據(jù),從而縮短每個模型訓練步驟的時間,Parallel interleave 允許您讀取多個 TFRecords 分片(TFRecord 文件的一部分),并對這些交錯的數(shù)據(jù)流進行預處理。這能夠減少讀取訓練批次所需的延遲,特別適用于從網(wǎng)絡讀取數(shù)據(jù)。

預提取和并行交錯
https://tensorflow.google.cn/guide/data_performance

使用 TensorFlow Recorder

使用 TFRecorder 只需幾行代碼即可創(chuàng)建 TFRecord。工作原理如下。

import pandas as pd import tfrecorder df = pd.read_csv(...) df.tensorflow.to_tfrecord(output_dir="gs://my/bucket")

TFRecorder 目前預期數(shù)據(jù)與 Google AutoML Vision 格式相同。

AutoML Vision
https://cloud.google.com/vision/automl/docs/prepare

這種格式與 Pandas dataframe 或 CSV 格式類似:

split image_uri label
TRAIN gs://my/bucket/image1.jpg cat

其中:

split 可以取值 TRAIN、VALIDATION 和 TEST

image_uri 指定圖像文件的本地或 Google Cloud Storage 位置。

label 可以是將被整數(shù)化的基于文本的標簽,也可以是一個整數(shù)

將來,我們希望進一步擴展 TensorFlow Recorder,支持所有格式的數(shù)據(jù)。

這個示例雖然能夠?qū)⑸锨€圖像順利轉(zhuǎn)換成 TFRecords,但擴展到百萬計的圖像可能就難以處理。為了擴展到龐大的數(shù)據(jù)集,TensorFlow Recorder 提供了與 Google Cloud Dataflow 的連接,后者是一款無服務器 Apache Beam 流水線運行器。擴展到 DataFlow 僅需要多一點配置。

Google Cloud Dataflow
https://cloud.google.com/dataflow
Apache Beam
https://beam.apache.org/

df.tensorflow.to_tfrecord( output_dir="gs://my/bucket", runner="DataFlowRunner", project="my-project", region="us-central1)

未來計劃

我們希望您愿意嘗試 TensorFlow Recorder。您可以從 GitHub 獲取,或者直接 pip 安裝 tfrecorder。

TensorFlow Recorder 剛剛面世,我們非常期待您的反饋、建議和 Pull Requests。

原文標題:創(chuàng)建 TFRecords 的救星 — TensorFlow Recorder 現(xiàn)已開源!

文章出處:【微信公眾號:TensorFlow】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4761

    瀏覽量

    129136
  • DPU
    DPU
    +關注

    關注

    0

    文章

    365

    瀏覽量

    24218
  • 計算機視覺
    +關注

    關注

    8

    文章

    1699

    瀏覽量

    46051
  • Record
    +關注

    關注

    0

    文章

    4

    瀏覽量

    6667

原文標題:創(chuàng)建 TFRecords 的救星 — TensorFlow Recorder 現(xiàn)已開源!

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    RT-Thread榮登2024開源創(chuàng)新榜單,躋身中國十大開源社區(qū)

    日前,由中國科協(xié)科學技術傳播中心、中國計算機學會、中國通信學會和中國科學院軟件研究所聯(lián)合主辦,CSDN承辦的2024年開源創(chuàng)新榜評選活動圓滿落幕。在眾多優(yōu)秀候選者中,RT-Thread開源社區(qū)因其在
    的頭像 發(fā)表于 01-08 19:06 ?195次閱讀
    RT-Thread榮登2024<b class='flag-5'>開源</b>創(chuàng)新榜單,躋身中國十大<b class='flag-5'>開源</b>社區(qū)

    開源鴻蒙榮獲開放原子“2024年度操作系統(tǒng)領域國內(nèi)活躍開源項目”

    近日,2024開放原子開發(fā)者大會暨首屆開源技術學術大會在武漢圓滿召開。在大會開幕式“2024年度國內(nèi)活躍開源項目&開發(fā)者致謝儀式”上,開放原子開源鴻蒙(OpenAtom OpenHarmony,簡稱
    的頭像 發(fā)表于 12-28 15:39 ?408次閱讀

    黃鶴開源社區(qū)正式發(fā)布

    近日,在2024開放原子開發(fā)者大會暨首屆開源技術學術大會開幕式上,基于開放原子開源基金會旗下AtomGit開源協(xié)作平臺搭建的黃鶴開源社區(qū)正式發(fā)布,標志著武漢市
    的頭像 發(fā)表于 12-23 11:33 ?280次閱讀

    開源鴻蒙應用案例重磅發(fā)布

    開源賦能千行百業(yè),有效推動產(chǎn)業(yè)創(chuàng)新升級。隨著開放原子開源基金會的開源鴻蒙(OpenHarmony)5.0 Release版本正式發(fā)布,項目生態(tài)逐步走向成熟,眾多開源應用案例應運而生。近
    的頭像 發(fā)表于 12-23 11:32 ?346次閱讀

    開源能帶我們走向何方

    開源大模型、開源數(shù)據(jù)庫、開源框架、開源硬件......近些年,這些詞匯不絕于耳。雷軍說,好的代碼像詩一樣優(yōu)美,自己大二時寫的代碼就已經(jīng)開源,
    的頭像 發(fā)表于 12-06 17:09 ?488次閱讀

    如何在開源鴻蒙OpenHarmony開啟SELinux模式?RK3566鴻蒙開發(fā)板演示

    本文介紹開源鴻蒙OpenHarmony系統(tǒng)下,開啟/關閉SELinux權限的方法,觸覺智能Purple Pi OH鴻蒙開發(fā)板演示,適配全新OpenHarmony5.0 Release系統(tǒng)!
    的頭像 發(fā)表于 11-18 19:03 ?394次閱讀
    如何在<b class='flag-5'>開源</b>鴻蒙OpenHarmony開啟SELinux模式?RK3566鴻蒙開發(fā)板演示

    希姆計算的RISC-V矩陣擴展開源項目升級至0.5版本,支持向量+矩陣的實現(xiàn)

    希姆計算的RISC-V矩陣擴展開源項目升級至0.5版本-----支持向量+矩陣的實現(xiàn)范福杰博士&陳煒博士項目背景Background為了解決RISC-V在人工智能領域中指令碎片化
    的頭像 發(fā)表于 11-12 01:08 ?909次閱讀
    希姆計算的RISC-V矩陣擴展<b class='flag-5'>開源</b>項目<b class='flag-5'>已</b>升級至0.5版本,支持向量+矩陣的實現(xiàn)

    科技云報到:假開源真噱頭?開源大模型和你想的不一樣!

    科技云報到原創(chuàng)。 25年前,著名的計算機程序員、開源軟件運動旗手Eric S·Raymond出版了《大教堂與集市》一書,首次提出了開放源代碼(Open Source)的概念,提倡軟件源代碼能被任何人
    的頭像 發(fā)表于 11-03 10:46 ?253次閱讀

    開放原子開源運營專區(qū)正式上線

    開源軟件的普及和應用推動了全球科技創(chuàng)新,成為推動技術創(chuàng)新和數(shù)字化轉(zhuǎn)型的關鍵力量。由開放原子開源基金會(簡稱“基金會”)牽頭建設的AtomGit開源協(xié)作平臺,匯聚了廣大開發(fā)者、開源機構和
    的頭像 發(fā)表于 10-22 09:25 ?478次閱讀

    華為全聯(lián)接大會2024亮點:open-eBackup備份軟件項目正式開源

    在備受矚目的華為全聯(lián)接大會2024上,華為宣布了一項重要舉措——open-eBackup備份軟件項目全面開源,標志著華為在數(shù)據(jù)保護領域的又一重大貢獻。目前,該項目的相關代碼順利入駐openEuler社區(qū),并正式開啟其開源運營的
    的頭像 發(fā)表于 09-25 15:39 ?902次閱讀

    Matepad pro12.2 為什么不開源

    Matepad pro12.2 為什么不開源呀,是不是有點違背開源精神了
    發(fā)表于 08-27 17:27

    Matepad pro12.2 上市半個月,但是還沒有在開源網(wǎng)站看到該項目的開源信息,違背開源精神

    Matepad pro12.2 上市半個月,本人自己也購買了同款12+256的pad,想要同步學習下這款pad的一些體驗還不錯的功能點,但是目前為止還沒有在開源網(wǎng)站看到該項目的開源信息,也查詢不到
    發(fā)表于 08-27 17:25

    開啟開源布道新篇章 — LF開源軟件學園誠邀開源精英加入成為OSPO講師

    OSPO——企業(yè)開源戰(zhàn)略的引擎在當今數(shù)字化時代,開源軟件已成為推動全球技術創(chuàng)新的加速器。它不僅重塑了軟件開發(fā)的模式,更成為企業(yè)構建競爭優(yōu)勢的關鍵。然而,隨著開源文化的深入人心,企業(yè)面臨著如何高效管理
    的頭像 發(fā)表于 07-04 08:36 ?335次閱讀
    開啟<b class='flag-5'>開源</b>布道新篇章 — LF<b class='flag-5'>開源</b>軟件學園誠邀<b class='flag-5'>開源</b>精英加入成為OSPO講師

    【議題征集】國際開源及RISC-V人才暨開源技術與生態(tài)之旅

    【議題征集】國際開源及RISC-V人才暨開源技術與生態(tài)之旅
    的頭像 發(fā)表于 07-02 08:36 ?288次閱讀
    【議題征集】國際<b class='flag-5'>開源</b>及RISC-V人才暨<b class='flag-5'>開源</b>技術與生態(tài)之旅

    迅龍軟件加入開放原子開源基金會和OpenHarmony?項目,共建開源新生態(tài)

    近日,迅龍軟件與“開放原子開源基金會”簽署協(xié)議,加入“開放原子開源基金會”(以下簡稱“開源基金會”),成為開源基金會白銀捐贈人,這標志著迅龍軟件將在更大平臺上、更大范圍內(nèi)推動
    的頭像 發(fā)表于 04-30 17:50 ?1071次閱讀
    迅龍軟件加入開放原子<b class='flag-5'>開源</b>基金會和OpenHarmony?項目,共建<b class='flag-5'>開源</b>新生態(tài)