0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LANL與NVIDIA合作打造出云原生超級計算平臺

科技綠洲 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2022-06-01 14:33 ? 次閱讀

在歐洲和美國,HPC 開發(fā)者正在利用 NVIDIA BlueField-2 DPU 內(nèi)的 Arm 核和加速器的強大功能為超級計算機提供強大助力。

美國洛斯阿拉莫斯國家實驗室(LANL)正在與 NVIDIA 進行一項為期多年的廣泛合作,這項合作旨在將計算型多物理應(yīng)用的性能提高 30 倍。

LANL 研究人員預(yù)計,使用在 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)上運行的 DPU(數(shù)據(jù)處理器)可顯著提升性能。這將使利用 BlueField 以及 NVIDIA DOCA 軟件框架在計算存儲、模式匹配等領(lǐng)域?qū)崿F(xiàn)技術(shù)創(chuàng)新。

面向 DPU 的開放式 API

這些努力還將有助于進一步定義 OpenSNAPI ,任何人都可通過該應(yīng)用接口來控制 DPU 。這是統(tǒng)計計算框架(Unified Communication Framework)的一個項目,Unified Communication Framework 是一個旨在實現(xiàn) HPC 應(yīng)用異構(gòu)計算的聯(lián)盟,成員包括 Arm 、IBM 、NVIDIA 、美國國家實驗室和美國的一些大學(xué)。

LANL 已經(jīng)感受到網(wǎng)絡(luò)計算的強大功能,這要歸功于其創(chuàng)建的 DPU 賦能的存儲系統(tǒng)。

加速閃存盒(ABoF,如下圖所示)將固態(tài)存儲與 DPU 和 InfiniBand 加速器相結(jié)合,可為 Linux 文件系統(tǒng)的關(guān)鍵性能部分提供加速。它的性能高達同類存儲系統(tǒng)的 30 倍,并將成為 LANL 基礎(chǔ)架構(gòu)中的關(guān)鍵組件。

一位研究人員在近期的 LANL 博客中表示:“ABoF 讓計算靠近存儲,可更大限度減少數(shù)據(jù)移動,從而提高仿真和數(shù)據(jù)分析工作流程的效率。”

德克薩斯州打造出云原生超級計算平臺

德克薩斯高級計算中心(TACC)近期也開始在 Dell PowerEdge 服務(wù)器中采用 BlueField-2 。它將在 InfiniBand 網(wǎng)絡(luò)上使用 DPU,使其 Lonestar6 系統(tǒng)成為云原生超級計算的開發(fā)平臺。

TACC 的 Lonestar6 為德州農(nóng)工大學(xué)、德州理工大學(xué)和北德克薩斯大學(xué)的眾多 HPC 開發(fā)者,以及一些研究中心和教職人員提供服務(wù)。

MPI 獲得加速

在距 TACC 東北部 1200 英里的地方,俄亥俄州立大學(xué)的研究人員展示了 DPU 如何將一個 HPC 熱門編程模型的運行速度提高 26%。

他們通過卸載消息傳遞接口(MPI)的關(guān)鍵部分,加速了 P3DFFT ,這是一個用于眾多大規(guī)模 HPC 仿真的數(shù)學(xué)庫。

俄亥俄州立大學(xué)計算機科學(xué)與工程專業(yè)的教授 Dhabaleswar K. (DK) Panda 在其帶領(lǐng)的 MVAPICH 開源軟件團隊推動 DPU 工作,他表示:“DPU 就像是為忙碌的高管處理工作的助手,它們將成為主流,因為它們可以加速運行各種工作負載。”

HPC 中心和云中的 DPU

對于運行藥物研發(fā)或飛機設(shè)計等 HPC 仿真應(yīng)用的超級計算機而言,高達兩位數(shù)的性能加速是驚人的。Panda 表示,云服務(wù)可以利用這些加速提高客戶的生產(chǎn)力,他已收到多個 HPC 中心的代碼請求。

Quantum InfiniBand 網(wǎng)絡(luò)以及 NVIDIA SHARP 特性,助力他高效完成工作。

他說:“其他人還在談?wù)摼W(wǎng)絡(luò)計算,而 InfiniBand 已經(jīng)在為它提供支持?!?/p>

達勒姆開發(fā)負載均衡

歐洲的多個研究團隊正利用 BlueField DPU 加速 MPI 和其他 HPC 工作負載。

例如,英格蘭北部的達勒姆大學(xué)正在開發(fā)一款軟件,用于在 16 個節(jié)點的 Dell PowerEdge 集群上使用 BlueField DPU 以實現(xiàn) MPI 作業(yè)的負載均衡。該項目的首席調(diào)查員 Tobias Weinzierl 表示,該軟件將為全球各地的 HPC 設(shè)施更高效地處理更好算法鋪平道路。

劍橋大學(xué)和慕尼黑的 DPU 應(yīng)用

劍橋大學(xué)、倫敦和慕尼黑的研究人員也在使用 DPU 。

倫敦大學(xué)學(xué)院正在探索如何在 BlueField-2 DPU 上為主機系統(tǒng)調(diào)度作業(yè)。例如,可以使用它的能力在主機處理器之間移動數(shù)據(jù),以便在需要時數(shù)據(jù)已然就位。

Dell PowerEdge 服務(wù)器內(nèi)的 BlueField DPU 可為 Cambridge Service for Data Driven Discovery 服務(wù)卸載主機 CPU 的安全策略、存儲框架和其他作業(yè),從而更大限度地提高系統(tǒng)性能。

與此同時,慕尼黑工業(yè)大學(xué)計算機體系架構(gòu)和并行系統(tǒng)組的研究人員正在尋找方法,使用 DPU 來卸載 MPI 和操作系統(tǒng)任務(wù),這是 EuroHPC 項目的一部分。

在美國,佐治亞理工學(xué)院的研究人員正在與桑迪亞國家實驗室合作,利用 BlueField-2 DPU 加速分子動力學(xué)研究。一篇論文描述了他們目前的工作成果,其中表明,算法可以加速高達 20% ,且不會損失模擬的準確性。

不斷擴展的網(wǎng)絡(luò)

本月早些時候,日本研究人員宣布將推出一款采用新版 NVIDIA H100 Tensor Core GPU 的系統(tǒng),該系統(tǒng)將搭載速度更快、更智能的 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺。

NEC 將使用 H100 的為筑波大學(xué)計算科學(xué)中心構(gòu)建算力大約為 6 PFLOPS 超級計算機。研究人員將使用該系統(tǒng)實現(xiàn)氣候?qū)W、天體物理學(xué)、大數(shù)據(jù)、AI 和更多方面的研究。

與此同時,Panda 等研究人員已經(jīng)開始考慮如何使用 BlueField-3 DPU 的核心功能。

他打趣道:“這就像雇傭擁有大學(xué)學(xué)位的行政助理,而不是那些擁有高中文憑的行政助理一樣,所以我希望能夠完成越來越多的工作卸載。”

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19293

    瀏覽量

    229977
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4990

    瀏覽量

    103120
  • 軟件
    +關(guān)注

    關(guān)注

    69

    文章

    4953

    瀏覽量

    87561
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8893

    瀏覽量

    137465
收藏 人收藏

    評論

    相關(guān)推薦

    如何選擇云原生機器學(xué)習(xí)平臺

    當(dāng)今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機器學(xué)習(xí)平臺種類繁多,功能各異,如何選擇
    的頭像 發(fā)表于 12-25 11:54 ?111次閱讀

    艾體寶與Kubernetes原生數(shù)據(jù)平臺AppsCode達成合作

    虹科姐妹公司艾體寶宣布與Kubernetes 原生數(shù)據(jù)平臺 AppsCode達成正式合作,致力于將其核心產(chǎn)品KubeDB引入中國市場,為企業(yè)提供專業(yè)、高效的云原生數(shù)據(jù)庫管理解決方案。
    的頭像 發(fā)表于 12-16 15:07 ?247次閱讀

    構(gòu)建云原生機器學(xué)習(xí)平臺流程

    構(gòu)建云原生機器學(xué)習(xí)平臺是一個復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)收集、處理、特征提取、模型訓(xùn)練、評估、部署和監(jiān)控等多個環(huán)節(jié)。
    的頭像 發(fā)表于 12-14 10:34 ?140次閱讀

    什么是云原生MLOps平臺

    云原生MLOps平臺,是指利用云計算的基礎(chǔ)設(shè)施和開發(fā)工具,來構(gòu)建、部署和管理機器學(xué)習(xí)模型的全生命周期的平臺。以下,是對云原生MLOps
    的頭像 發(fā)表于 12-12 13:13 ?112次閱讀

    賴耶科技通過NVIDIA AI Enterprise平臺打造超級AI工廠

    NVIDIA 技術(shù)團隊保持合作。賴耶科技通過NVIDIA AI Enterprise平臺打造超級
    的頭像 發(fā)表于 11-19 14:55 ?394次閱讀

    NVIDIA助力xAI打造全球最大AI超級計算

    NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級計算機集群達到了 10 萬顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了
    的頭像 發(fā)表于 10-30 11:38 ?383次閱讀

    NVIDIA助力丹麥發(fā)布首臺AI超級計算

    這臺丹麥最大的超級計算機由該國政府與丹麥 AI 創(chuàng)新中心共同建設(shè),是一臺 NVIDIA DGX SuperPOD 超級計算機。
    的頭像 發(fā)表于 10-27 09:42 ?449次閱讀

    云原生和非云原生哪個好?六大區(qū)別詳細對比

    云原生和非云原生各有優(yōu)劣,具體選擇取決于應(yīng)用場景。云原生利用云計算的優(yōu)勢,通過微服務(wù)、容器化和自動化運維等技術(shù),提高了應(yīng)用的可擴展性、更新速度和成本效益。非
    的頭像 發(fā)表于 09-13 09:53 ?398次閱讀

    京東云原生安全產(chǎn)品重磅發(fā)布

    “安全產(chǎn)品那么多,我怎么知道防住了?”“大家都說自己是云原生的,我看都是換湯不換藥”在與客戶溝通云原生安全方案的時候,經(jīng)常會遇到這樣的吐槽。越來越的客戶已經(jīng)開始了云原生化的技術(shù)架構(gòu)改造,也意識到
    的頭像 發(fā)表于 07-26 10:36 ?484次閱讀
    京東<b class='flag-5'>云原生</b>安全產(chǎn)品重磅發(fā)布

    從積木式到裝配式云原生安全

    云原生安全風(fēng)險 隨著云原生架構(gòu)的快速發(fā)展,核心能力逐漸穩(wěn)定,安全問題日趨緊急。在云原生安全領(lǐng)域不但有新技術(shù)帶來的新風(fēng)險,傳統(tǒng)IT基礎(chǔ)設(shè)施下的安全威脅也依然存在。要想做好云原生安全,就要
    的頭像 發(fā)表于 07-26 10:35 ?311次閱讀
    從積木式到裝配式<b class='flag-5'>云原生</b>安全

    基于DPU與SmartNic的云原生SDN解決方案

    隨著云計算,大數(shù)據(jù)和人工智能等技術(shù)的蓬勃發(fā)展,數(shù)據(jù)中心面臨著前所未有的數(shù)據(jù)洪流和計算壓力,這對SDN提出了更高的性能和效率要求。自云原生概念被提出以來,Kubernetes為云原生應(yīng)用
    的頭像 發(fā)表于 07-22 11:44 ?707次閱讀
    基于DPU與SmartNic的<b class='flag-5'>云原生</b>SDN解決方案

    首批認證!拓維信息梧桐云原生平臺獲鯤鵬原生開發(fā)技術(shù)認證

    7月10日,拓維信息梧桐云原生平臺V3.0獲得華為鯤鵬原生開發(fā)技術(shù)首批認證。作為華為鯤鵬戰(zhàn)略合作伙伴,拓維信息以28年行業(yè)數(shù)字化經(jīng)驗和持續(xù)技術(shù)創(chuàng)新能力,攜手華為共同繁榮鯤鵬原生應(yīng)用生態(tài)
    的頭像 發(fā)表于 07-19 08:15 ?451次閱讀
    首批認證!拓維信息梧桐<b class='flag-5'>云原生平臺</b>獲鯤鵬<b class='flag-5'>原生</b>開發(fā)技術(shù)認證

    Green500全球最節(jié)能超級計算機榜單:采用NVIDIA技術(shù)包攬前三

    NVIDIA 系統(tǒng)在 Green500 榜單上的強勢表現(xiàn)進一步驗證了 NVIDIA 平臺為節(jié)能型計算機所打造。
    的頭像 發(fā)表于 05-24 10:59 ?642次閱讀

    云原生是大模型“降本增效”的解藥嗎?

    云原生AI正當(dāng)時
    的頭像 發(fā)表于 02-20 09:31 ?395次閱讀

    米哈游大數(shù)據(jù)云原生實踐

    近年來,容器、微服務(wù)、Kubernetes 等各項云原生技術(shù)的日漸成熟,越來越多的公司開始選擇擁抱云原生,并開始將 AI、大數(shù)據(jù)等類型的企業(yè)應(yīng)用部署運行在云原生之上。以 Spark 為例,在云上運行
    的頭像 發(fā)表于 01-09 10:41 ?587次閱讀
    米哈游大數(shù)據(jù)<b class='flag-5'>云原生</b>實踐