0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌最便宜TPU值不值得買?TPU在執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算方面的優(yōu)勢

DPVg_AI_era ? 來源:lp ? 2019-03-21 09:09 ? 次閱讀

谷歌本月推出千元級搭載Edge TPU芯片的開發(fā)板,性能令人期待。本文以可視化圖形的方式,對比TPU、GPUCPU,解釋了TPU在執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算方面的優(yōu)勢。

谷歌最便宜 TPU 值不值得買?

谷歌 Edge TPU 在本月初終于公布價格 —— 不足 1000 元人民幣,遠(yuǎn)低于 TPU。

實(shí)際上,Edge TPU 基本上就是機(jī)器學(xué)習(xí)樹莓派,它是一個用 TPU 在邊緣進(jìn)行推理的設(shè)備。

Edge TPU(安裝在 Coral 開發(fā)板上)

云 vs 邊緣

Edge TPU顯然是在邊緣(edge)運(yùn)行的,但邊緣是什么呢?為什么我們不選擇在云上運(yùn)行所有東西呢?

在云中運(yùn)行代碼意味著你使用的CPU、GPU和TPU都是通過瀏覽器提供的。在云中運(yùn)行代碼的主要優(yōu)點(diǎn)是,你可以為特定的代碼分配必要的計(jì)算能力(訓(xùn)練大型模型可能需要大量的計(jì)算)。

邊緣與云相反,意味著你是在本地運(yùn)行代碼(也就是說你能夠?qū)嶋H接觸到運(yùn)行代碼的設(shè)備)。在邊緣運(yùn)行代碼的主要優(yōu)點(diǎn)是沒有網(wǎng)絡(luò)延遲。由于物聯(lián)網(wǎng)設(shè)備通常要頻繁地生成數(shù)據(jù),因此運(yùn)行在邊緣上的代碼非常適合基于物聯(lián)網(wǎng)的解決方案。

對比 CPU、GPU,深度剖析 TPU

TPU(Tensor Processing Unit, 張量處理器)是類似于CPU或GPU的一種處理器。不過,它們之間存在很大的差異。最大的區(qū)別是TPU是ASIC,即專用集成電路。ASIC經(jīng)過優(yōu)化,可以執(zhí)行特定類型的應(yīng)用程序。對于TPU來說,它的特定任務(wù)就是執(zhí)行神經(jīng)網(wǎng)絡(luò)中常用的乘積累加運(yùn)算。CPU和GPU并未針對特定類型的應(yīng)用程序進(jìn)行優(yōu)化,因此它們不是ASIC。

下面我們分別看看 CPU、GPU 和 TPU 如何使用各自的架構(gòu)執(zhí)行累積乘加運(yùn)算:

在 CPU 上進(jìn)行累積乘加運(yùn)算

CPU 通過從內(nèi)存中讀取每個輸入和權(quán)重,將它們與其 ALU (上圖中的計(jì)算器) 相乘,然后將它們寫回內(nèi)存中,最后將所有相乘的值相加,從而執(zhí)行乘積累加運(yùn)算。

現(xiàn)代 CPU 通過其每個內(nèi)核上的大量緩存、分支預(yù)測和高時鐘頻率得到增強(qiáng)。這些都有助于降低 CPU 的延遲。

GPU 上的乘積累加運(yùn)算

GPU 的原理類似,但它有成千上萬的 ALU 來執(zhí)行計(jì)算。計(jì)算可以在所有 ALU 上并行進(jìn)行。這被稱為 SIMD (單指令流多數(shù)據(jù)流),一個很好的例子就是神經(jīng)網(wǎng)絡(luò)中的多重加法運(yùn)算。

然而,GPU 并不使用上述那些能夠降低延遲的功能。它還需要協(xié)調(diào)它的數(shù)千個 ALU,這進(jìn)一步減少了延遲。

簡而言之,GPU 通過并行計(jì)算來大幅提高吞吐量,代價是延遲增加?;蛘邠Q句話說:

CPU 是一個強(qiáng)大而訓(xùn)練有素的斯巴達(dá)戰(zhàn)士,而 GPU 就像一支龐大的農(nóng)民大軍,但農(nóng)民大軍可以打敗斯巴達(dá)戰(zhàn)士,因?yàn)樗麄內(nèi)硕唷?/p>

讀取 TPU 上的乘加操作的權(quán)重

TPU 的運(yùn)作方式非常不同。它的 ALU 是直接相互連接的,不需要使用內(nèi)存。它們可以直接提供傳遞信息,從而大大減少延遲。

從上圖中可以看出,神經(jīng)網(wǎng)絡(luò)的所有權(quán)重都被加載到 ALU 中。完成此操作后,神經(jīng)網(wǎng)絡(luò)的輸入將加載到這些 ALU 中以執(zhí)行乘積累加操作。這個過程如下圖所示:

TPU 上的乘加操作

如上圖所示,神經(jīng)網(wǎng)絡(luò)的所有輸入并不是同時插入 ALU 的,而是從左到右逐步地插入。這樣做是為了防止內(nèi)存訪問,因?yàn)?ALU 的輸出將傳播到下一個 ALU。這都是通過脈動陣列 (systolic array) 的方式完成的,如下圖所示。

使用脈動陣列執(zhí)行乘加操作

上圖中的每個灰色單元表示 TPU 中的一個 ALU (其中包含一個權(quán)重)。在 ALU 中,乘加操作是通過將 ALU 從頂部得到的輸入乘以它的權(quán)重,然后將它與從左編得到的值相加。此操作的結(jié)果將傳播到右側(cè),繼續(xù)完成乘加操作。ALU 從頂部得到的輸入被傳播到底部,用于為神經(jīng)網(wǎng)絡(luò)層中的下一個神經(jīng)元執(zhí)行乘加操作。

在每一行的末尾,可以找到層中每個神經(jīng)元的乘加運(yùn)算的結(jié)果,而不需要在運(yùn)算之間使用內(nèi)存。

使用這種脈動陣列顯著提高了 Edge TPU 的性能。

Edge TPU 推理速度超過其他處理器架構(gòu)

TPU 還有一個重要步驟是量化 (quantization)。由于谷歌的 Edge TPU 使用 8 位權(quán)重進(jìn)行計(jì)算,而通常使用 32 位權(quán)重,所以我們應(yīng)該將權(quán)重從 32 位轉(zhuǎn)換為 8 位。這個過程叫做量化。

量化基本上是將更精確的 32 位數(shù)字近似到 8 位數(shù)字。這個過程如下圖所示:

量化

四舍五入會降低精度。然而,神經(jīng)網(wǎng)絡(luò)具有很好的泛化能力 (例如 dropout),因此在使用量化時不會受到很大的影響,如下圖所示。

非量化模型與量化模型的精度

量化的優(yōu)勢更為顯著。它減少了計(jì)算量和內(nèi)存需求,從而提高了計(jì)算的能源效率。

Edge TPU 執(zhí)行推理的速度比任何其他處理器架構(gòu)都要快。它不僅速度更快,而且通過使用量化和更少的內(nèi)存操作,從而更加環(huán)保。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6168

    瀏覽量

    105380
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8418

    瀏覽量

    132634
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    20727

原文標(biāo)題:一文讀懂:谷歌千元級Edge TPU為何如此之快?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進(jìn)行AI計(jì)算

    ,訓(xùn)練尖端人工智能方面,大型科技公司正在尋找英偉達(dá)以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機(jī)器學(xué)習(xí)算法,特別是深度學(xué)習(xí)算法
    的頭像 發(fā)表于 07-31 01:08 ?3373次閱讀

    BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系

    廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型。它們各自具有獨(dú)特的特點(diǎn)和優(yōu)勢,并在不同的應(yīng)用場景中發(fā)揮著重要作用。以下是對BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)關(guān)系的詳細(xì)探討,內(nèi)容將涵蓋兩者的定義、原理、區(qū)別、聯(lián)系以及應(yīng)
    的頭像 發(fā)表于 07-10 15:24 ?1511次閱讀

    BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的區(qū)別

    BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡稱ANNs)之間的關(guān)系與區(qū)別,是神經(jīng)網(wǎng)絡(luò)領(lǐng)域中一個基礎(chǔ)且重要的話題。本文將從定義、結(jié)構(gòu)、算法、應(yīng)用及未來發(fā)展等多個
    的頭像 發(fā)表于 07-10 15:20 ?1071次閱讀

    rnn是遞歸神經(jīng)網(wǎng)絡(luò)還是循環(huán)神經(jīng)網(wǎng)絡(luò)

    : 循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念 循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有時間序列特性的神經(jīng)網(wǎng)絡(luò),它能夠處理序列數(shù)據(jù),具有記憶功能。與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-05 09:52 ?577次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

    結(jié)構(gòu)。它們處理不同類型的數(shù)據(jù)和解決不同問題時具有各自的優(yōu)勢和特點(diǎn)。本文將從多個方面比較循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別。 基本概念 循環(huán)
    的頭像 發(fā)表于 07-04 14:24 ?1295次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的區(qū)別

    處理序列數(shù)據(jù)方面具有顯著的優(yōu)勢,但它們結(jié)構(gòu)和工作原理上存在一些關(guān)鍵的區(qū)別。 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 1.1 RNN的結(jié)構(gòu) 循環(huán)神經(jīng)網(wǎng)絡(luò)是一
    的頭像 發(fā)表于 07-04 14:19 ?918次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時,我們需
    的頭像 發(fā)表于 07-04 13:20 ?874次閱讀

    bp神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種常見的前饋神經(jīng)網(wǎng)絡(luò),它使用反向傳播算法來訓(xùn)練網(wǎng)絡(luò)。雖然BP神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-03 10:14 ?848次閱讀

    bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是兩種不同類型的人工神經(jīng)網(wǎng)絡(luò),它們
    的頭像 發(fā)表于 07-03 10:12 ?1184次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    不同的神經(jīng)網(wǎng)絡(luò)模型,它們結(jié)構(gòu)、原理、應(yīng)用等方面都存在一定的差異。本文將從多個方面對這兩種神經(jīng)網(wǎng)絡(luò)進(jìn)行詳細(xì)的比較和分析。 引言
    的頭像 發(fā)表于 07-02 14:24 ?3956次閱讀

    計(jì)算

    道哥的書籍值不值得呢,這本書還沒有看過,不知道寫的怎么樣
    發(fā)表于 05-16 11:55

    谷歌將推出第六代數(shù)據(jù)中心AI芯片Trillium TPU

    今日舉行的I/O 2024開發(fā)者大會上,谷歌公司震撼發(fā)布了其第六代數(shù)據(jù)中心AI芯片——Trillium Tensor處理器單元(TPU)。據(jù)谷歌首席
    的頭像 發(fā)表于 05-15 11:18 ?635次閱讀

    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統(tǒng)GPU和谷歌TPU。
    的頭像 發(fā)表于 02-26 10:24 ?1041次閱讀
    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b>

    tpu材料的用途和特點(diǎn)

    的制作,例如鞋底、鞋面、鞋墊等。TPU具有耐磨、抗刮擦、柔軟舒適等特點(diǎn),可以為鞋提供良好的保護(hù)和舒適性。 服裝行業(yè):TPU材料服裝行業(yè)中應(yīng)用廣泛,常用于雨衣、防水服、防寒服等。其具有良好的防水性能、抗紫外線能力和耐磨性,能夠有
    的頭像 發(fā)表于 01-16 10:17 ?3266次閱讀

    TPU-MLIR開發(fā)環(huán)境配置時出現(xiàn)的各種問題求解

    。參考下文配置Docker。 2.2. Docker配置? TPU-MLIRDocker環(huán)境開發(fā), 配置好Docker就可以編譯和運(yùn)行了。 從 DockerHub https
    發(fā)表于 01-10 08:02