0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從GPU資源的虛擬化實(shí)現(xiàn)路徑看

SSDFans ? 來源:ssdfans ? 作者:ssdfans ? 2020-12-14 16:27 ? 次閱讀

GPU小常識(shí):

GPU(Graphics Processing Unit),中文名:圖形處理器,曾用名:顯卡。

1999年,Nvidia(英偉達(dá)公司“ZAO”了GPU,這玩意除了極大的推動(dòng)了基于PC的游戲市場(chǎng)發(fā)展,還徹底改變了并行計(jì)算。

沒想到二十年后,Nvidia搖身一變成了高大上的AI計(jì)算公司,還用GPU綁架了整個(gè)人工智能圈子。

我有個(gè)客戶,幾年前新建了一個(gè)數(shù)據(jù)中心,通過P2V技術(shù)淘汰了大量X86物理服務(wù)器,直接在IT基礎(chǔ)設(shè)施上成功完成了服務(wù)器虛擬化轉(zhuǎn)型,之后就馬不停蹄的向云計(jì)算轉(zhuǎn)型,而當(dāng)下,又開始了人工智能轉(zhuǎn)型。

隨著智能商業(yè)時(shí)代的到來,一些大公司對(duì)于AI技術(shù)的關(guān)注和使用也快速增加,這些企業(yè)都非常注重自身科技能力的構(gòu)建。其中,搭建自有AI平臺(tái),賦能業(yè)務(wù)成了這些有實(shí)力企業(yè)的首選。我這個(gè)客戶自然也不能免俗,采購了大量的GPU服務(wù)器進(jìn)行部署。

在落地AI場(chǎng)景的同時(shí),客戶也希望對(duì)建立GPU資源池做一個(gè)評(píng)估。針對(duì)客戶需求,做了一些功課。對(duì)于AI,我依然只是知道一點(diǎn)皮毛,要說什么算法和模型,我是沒戲的,但是可以把交流的學(xué)習(xí)心得分享一下。

GPU當(dāng)前主要應(yīng)用于計(jì)算、圖形和人工智能領(lǐng)域。從GPU資源的虛擬化實(shí)現(xiàn)路徑看,主要有三種技術(shù)方案。

VSGA(Virtual Shared Graphics Acceleration),把物理GPU分享給多個(gè)桌面用戶,每個(gè)VDI通過SVGA驅(qū)動(dòng)調(diào)用虛擬化的GPU驅(qū)動(dòng)程序,再來調(diào)用GPU的運(yùn)算能力,這個(gè)屬于典型的桌面虛擬化場(chǎng)景。

VDGA(Virtual Dedicated Graphics Acceleration),把物理GPU分配給一個(gè)指定的VM,資源專用,這種模式也稱為直通(PassThrough)模式,該方案具有比較高的性能優(yōu)勢(shì),但成本相對(duì)較高。

vGPU(Virtualized GPU),把一塊物理GPU虛擬成多塊vGPU卡,每個(gè)VM都獨(dú)占一塊vGPU,每個(gè)vGPU直接跟物理GPU對(duì)接。

現(xiàn)實(shí)世界的應(yīng)用狀況又是怎樣的呢?通過技術(shù)交流,發(fā)現(xiàn)傳統(tǒng)行業(yè)大多數(shù)的GPU資源池案例都是VDI的桌面虛擬化應(yīng)用場(chǎng)景,針對(duì)后臺(tái)服務(wù)器虛擬化的案例幾乎沒有。在互聯(lián)網(wǎng)行業(yè),像百度這樣在AI領(lǐng)域比較強(qiáng)的,用的都是自研的GPU服務(wù)器和資源調(diào)度平臺(tái)。真正的商業(yè)案例中,大量客戶使用的還是基于X86物理服務(wù)器搭配GPU卡的方式來部署AI應(yīng)用。

之后,對(duì)這個(gè)客戶也有做了相應(yīng)的調(diào)研??蛻衄F(xiàn)狀:針對(duì)AI技術(shù)部署了獨(dú)立的語音分析、OCR和人臉識(shí)別等多個(gè)平臺(tái),支撐整個(gè)公司對(duì)于AI場(chǎng)景的需求。(目前有GPU服務(wù)器:50臺(tái)+,GPU卡:180+,后續(xù)還有200+的GPU卡擴(kuò)容計(jì)劃)。針對(duì)調(diào)研情況,也做個(gè)簡(jiǎn)要分析。

應(yīng)用場(chǎng)景:

目前AI技術(shù)主要為兩種場(chǎng)景,訓(xùn)練(Training)和推理(Inference),從我這個(gè)客戶的使用情況看,幾乎都是推理場(chǎng)景,相對(duì)訓(xùn)練而言,對(duì)于GPU的算力的要求不是很高,這一點(diǎn)從用戶的性能數(shù)據(jù)上也有體現(xiàn)??蛻裟P陀?xùn)練都是在供應(yīng)商端進(jìn)行的。

技術(shù)方案:

GPU資源池只是一種概念,對(duì)于資源的形態(tài)來說,GPU是物理的還是虛擬的不是最重要的。從資源管理角度看,主要是考慮利用效率、訪問性能、安全隔離等因素。

如果是物理服務(wù)器方案,上層最佳的部署形式的直接基于容器,但是現(xiàn)實(shí)情況是大多數(shù)用戶的應(yīng)用部署還是基于PM和VM的。另外,也可以考慮基于服務(wù)器虛擬化+多GPU卡的方案,一個(gè)VM對(duì)應(yīng)一個(gè)GPU卡的直通模式,但是應(yīng)用密度顯然受制于GPU卡的數(shù)量,如果這時(shí)再追加使用vGPU技術(shù),似乎方案在VM技術(shù)平臺(tái)上就更完美了,當(dāng)然容器嵌套VM的方案也是一種好的形式。

商務(wù)成本:

成熟的商業(yè)虛擬化軟件是有軟件許可費(fèi)的,而Nvidia的vGPU技術(shù)也需要支付相應(yīng)的軟件許可費(fèi),這樣每個(gè)GPU卡可以根據(jù)顯存的不同配置,被切分為固定數(shù)量的vGPU,在相同數(shù)據(jù)物理GPU卡配置情況下,提升VM的部署密度。

其他因素:

當(dāng)然,目前的“AI芯片”也不是只有Nvidia一家,國(guó)內(nèi)的寒武紀(jì)和華為也都用相應(yīng)的產(chǎn)品支撐AI應(yīng)用,對(duì)于主流的TensorFlow,Cafee框架可能還可以,但對(duì)于其他框架和模型在支持上略顯不足,還需要加強(qiáng)生態(tài)建設(shè)。畢竟連英偉達(dá)都聲稱自己是一家軟件研發(fā)公司。在這個(gè)Software Define Anything的時(shí)代,軟實(shí)力才是真正貼近用戶的硬實(shí)力。

關(guān)于建立后臺(tái)支撐AI算力的GPU資源池這件事,技術(shù)本身并不存在限制,是個(gè)具有規(guī)模效應(yīng)的事情。如果規(guī)模大了,也許百度的“孔明”平臺(tái)就是一個(gè)需要達(dá)到的高度。至于其他公有云服務(wù)商,現(xiàn)在也都提供了相應(yīng)的GPU服務(wù),等有機(jī)會(huì)再去調(diào)研一下。

啥叫Deep Learning?就是這種不斷學(xué)習(xí)更新,還要用輸出倒逼輸入的方式!

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4744

    瀏覽量

    129017
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9218

    瀏覽量

    85577
  • 虛擬化
    +關(guān)注

    關(guān)注

    1

    文章

    373

    瀏覽量

    29815

原文標(biāo)題:GPU虛擬化,看這一篇就夠了!

文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU加速云服務(wù)器怎么用的

    GPU加速云服務(wù)器是將GPU硬件與云計(jì)算服務(wù)相結(jié)合,通過云服務(wù)提供商的平臺(tái),用戶可以根據(jù)需求靈活租用帶有GPU資源虛擬機(jī)實(shí)例。那么,
    的頭像 發(fā)表于 12-26 11:58 ?76次閱讀

    如何實(shí)現(xiàn)軟件的emulate功能 emulation和虛擬的區(qū)別是什么

    軟件的Emulate功能與虛擬的區(qū)別 在現(xiàn)代計(jì)算機(jī)技術(shù)中,軟件的emulate功能和虛擬是兩個(gè)重要的概念,它們都旨在模擬或復(fù)制硬件環(huán)境,以便在不同的系統(tǒng)上運(yùn)行軟件。盡管它們的目的相
    的頭像 發(fā)表于 12-05 15:35 ?228次閱讀

    GPU虛擬現(xiàn)實(shí)中的表現(xiàn) 低功耗GPU的優(yōu)缺點(diǎn)

    數(shù)據(jù),以實(shí)現(xiàn)沉浸式的體驗(yàn)。以下是GPU虛擬現(xiàn)實(shí)中的幾個(gè)關(guān)鍵表現(xiàn): 圖像渲染能力 :GPU需要快速渲染復(fù)雜的三維場(chǎng)景,以保持高幀率,這對(duì)于減少運(yùn)動(dòng)模糊和暈動(dòng)癥至關(guān)重要。 實(shí)時(shí)光線追蹤
    的頭像 發(fā)表于 11-19 10:58 ?366次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

    本篇閱讀學(xué)習(xí)第七、八章,了解GPU架構(gòu)演進(jìn)及CPGPU存儲(chǔ)體系與線程管理 █圖形到計(jì)算的GPU架構(gòu)演進(jìn) GPU圖像計(jì)算發(fā)展 ●三角形開始
    發(fā)表于 11-03 12:55

    emc虛擬技術(shù)的應(yīng)用場(chǎng)景

    ,實(shí)現(xiàn)資源的動(dòng)態(tài)分配和優(yōu)化,從而幫助企業(yè)提高運(yùn)營(yíng)效率和降低成本。 1. 數(shù)據(jù)中心虛擬 數(shù)據(jù)中心虛擬
    的頭像 發(fā)表于 11-01 15:26 ?368次閱讀

    GPU與VR技術(shù)結(jié)合應(yīng)用

    同時(shí)處理大量數(shù)據(jù),從而實(shí)現(xiàn)高速的圖形渲染。 VR技術(shù)的基本概念 虛擬現(xiàn)實(shí)(VR)技術(shù)是一種通過計(jì)算機(jī)生成的三維環(huán)境,讓用戶能夠沉浸在虛擬世界中的技術(shù)。VR技術(shù)通過頭戴式顯示器、手柄等設(shè)備,實(shí)現(xiàn)
    的頭像 發(fā)表于 10-27 11:23 ?376次閱讀

    數(shù)據(jù)中心虛擬應(yīng)用案例

    數(shù)據(jù)中心虛擬應(yīng)用案例展示了虛擬技術(shù)在提高資源利用率、降低成本、增強(qiáng)系統(tǒng)靈活性和快速響應(yīng)等方面的顯著優(yōu)勢(shì)。以下是一些具體的數(shù)據(jù)中心
    的頭像 發(fā)表于 10-24 15:18 ?560次閱讀

    云計(jì)算中的虛擬技術(shù)應(yīng)用

    : 一、虛擬技術(shù)的核心原理 虛擬技術(shù)通過引入一個(gè)虛擬層(
    的頭像 發(fā)表于 10-24 09:22 ?792次閱讀

    基于DPU的輕量虛擬化解決方案

    1.? 背景、挑戰(zhàn)與業(yè)界進(jìn)展 1.1. 虛擬技術(shù)背景 在云計(jì)算的浪潮中,虛擬技術(shù)扮演著舉足輕重的角色。它通過將物理機(jī)集群的資源進(jìn)行抽象整
    的頭像 發(fā)表于 10-14 14:57 ?919次閱讀
    基于DPU的輕量<b class='flag-5'>虛擬</b>化解決方案

    華納云:OpenStack是虛擬管理平臺(tái)嗎?其工作原理是什么?

    OpenStack 就是一個(gè)虛擬管理平臺(tái)嗎?這樣說并不準(zhǔn)確。它們存在很多相似性,但并非完全相同。的確,OpenStack 和虛擬管理平臺(tái)都位于
    的頭像 發(fā)表于 09-23 14:20 ?330次閱讀

    存儲(chǔ)虛擬有哪些常見類型?有什么優(yōu)點(diǎn)?

    存儲(chǔ)虛擬是一種將多個(gè)存儲(chǔ)設(shè)備的物理存儲(chǔ)資源抽象出來、將它們集中在一起并將它們呈現(xiàn)為單個(gè)邏輯存儲(chǔ)單元的技術(shù)。此過程簡(jiǎn)化了存儲(chǔ)管理,提高了資源利用率,并
    的頭像 發(fā)表于 03-07 16:47 ?1209次閱讀

    虛擬軟件棧有哪些防御措施

    虛擬軟件棧是一種在物理服務(wù)器上運(yùn)行多個(gè)虛擬機(jī)的技術(shù),可以提高服務(wù)器資源的利用率和靈活性。然而,虛擬
    的頭像 發(fā)表于 01-25 11:27 ?776次閱讀

    RDMA RNIC虛擬方案

    主要包括Inifiband、RoCE以及iWARP。實(shí)現(xiàn)RDMA協(xié)議的I/O設(shè)備被稱為RNIC。主流云服務(wù)提供商已經(jīng)開始廣泛部署RNIC,例如亞馬遜云推出的彈性網(wǎng)絡(luò)適配器(Elastic Network Adapter,ENA)[1]。同時(shí),云服務(wù)提供商通過硬件虛擬
    的頭像 發(fā)表于 01-23 17:23 ?2031次閱讀
    RDMA RNIC<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>方案

    超融合和虛擬的區(qū)別

    超融合和虛擬是當(dāng)今IT領(lǐng)域非常熱門的兩個(gè)概念,它們都是為了提高數(shù)據(jù)中心的效能和靈活性,但在實(shí)現(xiàn)方式和功能上存在一些區(qū)別。本文將詳細(xì)討論超融合和虛擬
    的頭像 發(fā)表于 01-15 10:36 ?4305次閱讀

    如何選擇NVIDIA GPU虛擬軟件的組合方案呢?

    NVIDIA vGPU 解決方案能夠?qū)?NVIDIA GPU 的強(qiáng)大功能帶入虛擬桌面、應(yīng)用程序和工作站,加速圖形和計(jì)算,使在家辦公或在任何地方工作的創(chuàng)意和技術(shù)專業(yè)人員能夠訪問虛擬化工作空間。
    的頭像 發(fā)表于 01-12 09:26 ?1155次閱讀
    如何選擇NVIDIA <b class='flag-5'>GPU</b>和<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>軟件的組合方案呢?