0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

二代IPU性能超過GPU且全面支持PyTorch

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2020-12-30 15:43 ? 次閱讀

“不管是在今天 GPU 能夠做的事情上,還是 GPU 不能做的事情上,IPU 都有它的價值點和價值定位。” 日前,在英國 AI 芯片初創(chuàng)公司 Graphcore 中國區(qū)的媒體溝通會上,Graphcore 高級副總經理兼中國區(qū)總經理盧濤和 Graphcore 中國工程總負責人、AI 算法科學家金琛,就 Graphcore 的新產品性能以及該公司在中國的落地策略向 DeepTech 等媒體進行了同步。

溝通會上,Graphcore 解讀了其于本月公布的大規(guī)模系統(tǒng)級產品 IPU-M2000 的應用測試數(shù)據(jù)。公布數(shù)據(jù)顯示,在典型 CV 模型 ResNet、基于分組卷積的 ResNeXt、EfficientNet、語音模型、BERT-Large 等自然語言處理模型以及 MCMC 等傳統(tǒng)機器學習模型中,IPU-M2000 在吞吐量、訓練時間和學習結果生成時間方面都有較好表現(xiàn)。比如,在 IPU-M2000 上 EfficientNet 的吞吐量達到 A100 的 18 倍。

bf6a28a2-4a2e-11eb-8b86-12bb97331649.jpg

圖 | IPU-M2000 與 GPU 的吞吐量、訓練及結果生成時間對比(來源:Graphcore)

此前,IPU-M2000 與 Graphcore 第二代 IPU 處理器 GC200 已于今年 7 月 15 日發(fā)布。據(jù)介紹,GC200 芯片基于臺積電的 7nm 工藝制造,集成 250 TFlops AI-Float 算力和 900MB 處理器內存,相較第一代產品性能提升 8 倍。而對于第三代 IPU,盧濤在此次溝通會上并未透露發(fā)布的具體時間表,不過他表示下一代產品正在研發(fā)中,將依舊重點解決存儲問題。

支持 PyTorch、TensorFlow,在 IPU 與 GPU 間無縫銜接

另外,Graphcore 還發(fā)布了 Poplar SDK 1.4 版本和 PyTorch 的 IPU 版本。

Graphcore 對 Poplar SDK 1.4 版本在易用性和速度上進行了優(yōu)化,能夠支持模型和數(shù)據(jù)并行,同時能夠實現(xiàn)模型的橫向擴展 —— 從 1 個 IPU 橫向擴展到 64 個 IPU。金琛表示,下一版本的 Poplar SDK 有望實現(xiàn)橫向擴展到 128 個 IPU。

值得關注的是,除支持 Graphcore 的自研框架 PopART 外,Poplar SDK 1.4 還支持 Facebook 的 PyTorch 框架、以及 Google 的 TensorFlow 框架。

據(jù)金琛介紹,Graphcore 在 PyTorch 代碼中引入了 PopTorch 輕量級接口,通過這一接口,用戶可基于當前的 PyTorch 模型進行封裝,以實現(xiàn) IPU 和 CPU 之間的無障礙銜接。

對于實現(xiàn)這一功能的核心技術,金琛做進一步解釋說,Graphcore 采用 PyTorch 里的 jit.trace 機制對計算圖進行編譯,轉化為 IPU 和 PyTorch 兼容的表達格式,最后用 Graphcore 自研框架 PopART 后端的 audiff 功能自動生成反向圖,便可以實現(xiàn)同一個模型在不同平臺的無差別運行。

目前,PyTorch 因其直觀易懂、靈活易用等優(yōu)勢受到開發(fā)者的廣泛喜愛和應用。Poplar SDK 1.4 增加了對 PyTorch 的支持,策略上是希望用戶在 IPU 上也能體驗 PyTorch,讓用戶多一個轉戰(zhàn) IPU 的理由。不過目前英偉達的 GPU 已經在 AI 計算領域占據(jù)大部分市場,此時 IPU 能夠提供的價值、轉場到 IPU 的成本等,都是用戶所要考慮的問題。

在遷移成本上,盧濤表示,經過幾年來對 Poplar SDK 的打磨,現(xiàn)在從 GPU 到 IPU 的軟硬件遷移難度已經比大家認為的小得多。

金琛補充道,在訓練上,針對一個不太復雜的模型,一般一周可以遷移完成,對于復雜的模型大概需要兩周;在推理上,基本上是 1-2 天的工作量。

談及性能,盧濤表示:“IPU 在訓練推理、語音、圖像模型處理上基本全面超越 GPU?!?不過他也坦言:“不能說 100% 超越了 GPU,因為算法模型確實非常多,比如說語音有不同的語音模型、圖像也是有不同的圖像模型?!?/p>

未來:持續(xù)優(yōu)化性能,進一步壓縮遷移成本

IPU 在機器學習性能上的明顯優(yōu)勢是不可否認的,但前有身強體壯且努力奔跑的巨頭英偉達,Graphcore 更是一刻也不容懈怠。盧濤在溝通會上也多次提到,“目前 Graphcore 面對的壓力最主要還是來自英偉達”。

“重壓” 之下,Graphcore 短期內的計劃是聚焦在數(shù)據(jù)中心高性能訓練和推理市場上,持續(xù)打磨 IPU 和軟件平臺,持續(xù)優(yōu)化性能和提高可用性。盧濤說,“只有在我們聚焦的領域跑得更快,Graphcore 和英偉達之間的距離才會越來越短,甚至在某些領域超過英偉達”。

他還表示,Graphcore 希望未來數(shù)年內,能在數(shù)據(jù)中心的 AI 訓練、推理批量部署、以及發(fā)貨和體量上做到除英偉達以外的另一個頭部地位。

為實現(xiàn)該目標,Graphcore 也將從增加 AI 框架支持、以及模型覆蓋兩個維度著手,以期進一步減少用戶的遷移成本。此外,除目前 AI 應用最廣泛的互聯(lián)網和云計算兩個場景外,盧濤表示公司明年還將在金融、汽車、智慧醫(yī)療、智慧教育、智慧城市和政府服務等領域,至少突破一到兩個比較主流的領域。

原文標題:二代IPU性能超過GPU、全面支持PyTorch,Graphcore接下來將聚焦數(shù)據(jù)中心的AI訓練和推理部署

文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4740

    瀏覽量

    128955
  • AI
    AI
    +關注

    關注

    87

    文章

    30898

    瀏覽量

    269130
  • IPU
    IPU
    +關注

    關注

    0

    文章

    34

    瀏覽量

    15563
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13229

原文標題:二代IPU性能超過GPU、全面支持PyTorch,Graphcore接下來將聚焦數(shù)據(jù)中心的AI訓練和推理部署

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Windows端USB讀二代身份證C#樣例程序

    本開發(fā)包支持USB免驅型、串口型這2種類型的讀卡器,支持讀取二代居民身份證、M1和CPU卡等。提供動態(tài)連接庫dll,提供C++(MFC)和C#下的演示程序執(zhí)行文件和示例源碼。動態(tài)庫文件說明
    發(fā)表于 12-21 14:47

    簡單認識第二代高通Oryon CPU

    在不久前的2024驍龍峰會上,備受矚目的新一驍龍旗艦移動平臺——驍龍8至尊版正式發(fā)布。這款以“至尊版”命名的全新平臺也是首個采用第二代高通Oryon CPU的移動平臺。憑借領先的CPU、GPU
    的頭像 發(fā)表于 11-13 09:43 ?328次閱讀

    AMD推出第二代Versal Premium系列

    近日,AMD(超威,納斯達克股票代碼:AMD )今日宣布推出第二代 AMD Versal Premium 系列,這款自適應 SoC 平臺旨在面向各種工作負載提供最高水平系統(tǒng)加速。第二代 Versal
    的頭像 發(fā)表于 11-13 09:27 ?370次閱讀

    AYANEO Pocket EVO搭載第二代驍龍G3x游戲平臺

    此前,配備7英寸1080P OLED 165Hz高刷屏、搭載第二代驍龍G3x游戲平臺的旗艦安卓掌機AYANEO Pocket EVO正式發(fā)布。全新掌機在性能表現(xiàn)、屏幕體驗、外觀設計和系統(tǒng)軟件體驗上全面進化,為玩家?guī)碛纱笃粮咚Ⅱ?/div>
    的頭像 發(fā)表于 11-08 10:44 ?341次閱讀

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和方法來利用GPU進行模型訓練。 1. 了解GPU
    的頭像 發(fā)表于 11-05 17:43 ?560次閱讀

    路暢科技發(fā)布百秘盾二代加密記錄儀,全面升級汽車數(shù)據(jù)安全防護

    10月25日,路暢科技正式揭曉了其最新的研發(fā)成果——百秘盾二代加密記錄儀,并宣布該產品將于10月28日全面登陸各大電商平臺。這一舉動標志著路暢科技在強化汽車記錄儀音視頻數(shù)據(jù)安全領域取得了重大進展。
    的頭像 發(fā)表于 11-05 11:28 ?549次閱讀

    強茂發(fā)布高效低耗第二代ESD保護極管

    強茂科技近日宣布推出其最新一靜電保護元件——第二代ESD保護極管,該產品在性能上實現(xiàn)了重大飛躍。這款新品不僅融合了高效率與低漏電流的雙重優(yōu)勢,更在高頻環(huán)境下展現(xiàn)出卓越
    的頭像 發(fā)表于 09-12 17:48 ?630次閱讀

    二代身份證識別儀身份證閱讀器讀卡器

    :106kBd ?供電電壓:3.3V~5V ?待機電流:<40mA ?讀卡電流:<100mA 1.3應用范圍 ?適用于需要二代居民身份證讀卡類功能終端 ?適用于辦公區(qū)域、酒店
    發(fā)表于 09-07 15:09

    tensorflow和pytorch哪個更簡單?

    PyTorch更簡單。選擇TensorFlow還是PyTorch取決于您的具體需求和偏好。如果您需要一個易于使用、靈活具有強大社區(qū)支持的框架,Py
    的頭像 發(fā)表于 07-05 09:45 ?873次閱讀

    二代SiC碳化硅MOSFET關斷損耗Eoff

    二代SiC碳化硅MOSFET關斷損耗Eoff
    的頭像 發(fā)表于 06-20 09:53 ?505次閱讀
    第<b class='flag-5'>二代</b>SiC碳化硅MOSFET關斷損耗Eoff

    瑞芯微第二代8nm高性能AIOT平臺 RK3576 詳細介紹

    ArmSoM-Sige5采用Rockchip 第二代8nm高性能AIOT處理器 RK3576,主頻高達2.2GHz,6 TOPS算力NPU , 支持ufs ,雙USB,雙網口,全功能typec,兼容樹莓派40pin arms
    發(fā)表于 03-12 13:45

    airpods一二代區(qū)別充電倉

    二代AirPods的充電倉有許多顯著的區(qū)別。 AirPods是由蘋果公司推出的一款無線耳機。隨著技術的發(fā)展,AirPods也得到了一些更新和改進。一AirPods于2016年推出,二代
    的頭像 發(fā)表于 02-01 13:52 ?3780次閱讀

    高通第二代驍龍XR2+平臺支持4.3K單眼分辨率

    高通技術公司近日宣布推出全新第二代驍龍?XR2+平臺,這一創(chuàng)新平臺旨在為MR和VR設備帶來更出色的性能和體驗。第二代驍龍XR2+平臺具備強大的硬件配置,支持高達4.3K的單眼分辨率和1
    的頭像 發(fā)表于 01-08 15:22 ?970次閱讀

    高通發(fā)布第二代驍龍XR2+平臺,開辟MR和VR新體驗

    近日,高通技術公司再次引領行業(yè)前沿,推出了全新的第二代驍龍XR2+平臺。這一平臺的性能顯著提升,其中GPU頻率提升了15%,CPU頻率提升了20%,為MR和VR體驗開辟了全新的可能性。
    的頭像 發(fā)表于 01-05 15:19 ?659次閱讀

    榮耀100 Pro搭載第二代驍龍8移動平臺

    在新榮耀三周年暨榮耀100系列新品發(fā)布會上,榮耀100 Pro閃耀登場,讓數(shù)字系列再次引領時尚影像新風潮。榮耀100 Pro搭載 第二代驍龍8移動平臺 ,將獨特的美學設計、出色的性能表現(xiàn)、單反級寫真相機以及創(chuàng)新的智能體驗融于一體。本期體驗報告,一起來感受這款時尚新品從設計
    的頭像 發(fā)表于 01-02 11:43 ?1522次閱讀