GPU小常識(shí):
GPU(Graphics Processing Unit),中文名:圖形處理器,曾用名:顯卡。
1999年,Nvidia(英偉達(dá))公司“ZAO”了GPU,這玩意除了極大的推動(dòng)了基于PC的游戲市場(chǎng)發(fā)展,還徹底改變了并行計(jì)算。
沒想到二十年后,Nvidia搖身一變成了高大上的AI計(jì)算公司,還用GPU綁架了整個(gè)人工智能圈子。
我有個(gè)客戶,幾年前新建了一個(gè)數(shù)據(jù)中心,通過P2V技術(shù)淘汰了大量X86物理服務(wù)器,直接在IT基礎(chǔ)設(shè)施上成功完成了服務(wù)器虛擬化轉(zhuǎn)型,之后就馬不停蹄的向云計(jì)算轉(zhuǎn)型,而當(dāng)下,又開始了人工智能轉(zhuǎn)型。
隨著智能商業(yè)時(shí)代的到來,一些大公司對(duì)于AI技術(shù)的關(guān)注和使用也快速增加,這些企業(yè)都非常注重自身科技能力的構(gòu)建。其中,搭建自有AI平臺(tái),賦能業(yè)務(wù)成了這些有實(shí)力企業(yè)的首選。我這個(gè)客戶自然也不能免俗,采購了大量的GPU服務(wù)器進(jìn)行部署。
在落地AI場(chǎng)景的同時(shí),客戶也希望對(duì)建立GPU資源池做一個(gè)評(píng)估。針對(duì)客戶需求,做了一些功課。對(duì)于AI,我依然只是知道一點(diǎn)皮毛,要說什么算法和模型,我是沒戲的,但是可以把交流的學(xué)習(xí)心得分享一下。
GPU當(dāng)前主要應(yīng)用于計(jì)算、圖形和人工智能領(lǐng)域。從GPU資源的虛擬化實(shí)現(xiàn)路徑看,主要有三種技術(shù)方案。
VSGA(Virtual Shared Graphics Acceleration),把物理GPU分享給多個(gè)桌面用戶,每個(gè)VDI通過SVGA驅(qū)動(dòng)調(diào)用虛擬化的GPU驅(qū)動(dòng)程序,再來調(diào)用GPU的運(yùn)算能力,這個(gè)屬于典型的桌面虛擬化場(chǎng)景。
VDGA(Virtual Dedicated Graphics Acceleration),把物理GPU分配給一個(gè)指定的VM,資源專用,這種模式也稱為直通(PassThrough)模式,該方案具有比較高的性能優(yōu)勢(shì),但成本相對(duì)較高。
vGPU(Virtualized GPU),把一塊物理GPU虛擬成多塊vGPU卡,每個(gè)VM都獨(dú)占一塊vGPU,每個(gè)vGPU直接跟物理GPU對(duì)接。
現(xiàn)實(shí)世界的應(yīng)用狀況又是怎樣的呢?通過技術(shù)交流,發(fā)現(xiàn)傳統(tǒng)行業(yè)大多數(shù)的GPU資源池案例都是VDI的桌面虛擬化應(yīng)用場(chǎng)景,針對(duì)后臺(tái)服務(wù)器虛擬化的案例幾乎沒有。在互聯(lián)網(wǎng)行業(yè),像百度這樣在AI領(lǐng)域比較強(qiáng)的,用的都是自研的GPU服務(wù)器和資源調(diào)度平臺(tái)。真正的商業(yè)案例中,大量客戶使用的還是基于X86物理服務(wù)器搭配GPU卡的方式來部署AI應(yīng)用。
之后,對(duì)這個(gè)客戶也有做了相應(yīng)的調(diào)研??蛻衄F(xiàn)狀:針對(duì)AI技術(shù)部署了獨(dú)立的語音分析、OCR和人臉識(shí)別等多個(gè)平臺(tái),支撐整個(gè)公司對(duì)于AI場(chǎng)景的需求。(目前有GPU服務(wù)器:50臺(tái)+,GPU卡:180+,后續(xù)還有200+的GPU卡擴(kuò)容計(jì)劃)。針對(duì)調(diào)研情況,也做個(gè)簡(jiǎn)要分析。
應(yīng)用場(chǎng)景:
目前AI技術(shù)主要為兩種場(chǎng)景,訓(xùn)練(Training)和推理(Inference),從我這個(gè)客戶的使用情況看,幾乎都是推理場(chǎng)景,相對(duì)訓(xùn)練而言,對(duì)于GPU的算力的要求不是很高,這一點(diǎn)從用戶的性能數(shù)據(jù)上也有體現(xiàn)??蛻裟P陀?xùn)練都是在供應(yīng)商端進(jìn)行的。
技術(shù)方案:
GPU資源池只是一種概念,對(duì)于資源的形態(tài)來說,GPU是物理的還是虛擬的不是最重要的。從資源管理角度看,主要是考慮利用效率、訪問性能、安全隔離等因素。
如果是物理服務(wù)器方案,上層最佳的部署形式的直接基于容器,但是現(xiàn)實(shí)情況是大多數(shù)用戶的應(yīng)用部署還是基于PM和VM的。另外,也可以考慮基于服務(wù)器虛擬化+多GPU卡的方案,一個(gè)VM對(duì)應(yīng)一個(gè)GPU卡的直通模式,但是應(yīng)用密度顯然受制于GPU卡的數(shù)量,如果這時(shí)再追加使用vGPU技術(shù),似乎方案在VM技術(shù)平臺(tái)上就更完美了,當(dāng)然容器嵌套VM的方案也是一種好的形式。
商務(wù)成本:
成熟的商業(yè)虛擬化軟件是有軟件許可費(fèi)的,而Nvidia的vGPU技術(shù)也需要支付相應(yīng)的軟件許可費(fèi),這樣每個(gè)GPU卡可以根據(jù)顯存的不同配置,被切分為固定數(shù)量的vGPU,在相同數(shù)據(jù)物理GPU卡配置情況下,提升VM的部署密度。
其他因素:
當(dāng)然,目前的“AI芯片”也不是只有Nvidia一家,國(guó)內(nèi)的寒武紀(jì)和華為也都用相應(yīng)的產(chǎn)品支撐AI應(yīng)用,對(duì)于主流的TensorFlow,Cafee框架可能還可以,但對(duì)于其他框架和模型在支持上略顯不足,還需要加強(qiáng)生態(tài)建設(shè)。畢竟連英偉達(dá)都聲稱自己是一家軟件研發(fā)公司。在這個(gè)Software Define Anything的時(shí)代,軟實(shí)力才是真正貼近用戶的硬實(shí)力。
關(guān)于建立后臺(tái)支撐AI算力的GPU資源池這件事,技術(shù)本身并不存在限制,是個(gè)具有規(guī)模效應(yīng)的事情。如果規(guī)模大了,也許百度的“孔明”平臺(tái)就是一個(gè)需要達(dá)到的高度。至于其他公有云服務(wù)商,現(xiàn)在也都提供了相應(yīng)的GPU服務(wù),等有機(jī)會(huì)再去調(diào)研一下。
啥叫Deep Learning?就是這種不斷學(xué)習(xí)更新,還要用輸出倒逼輸入的方式!
責(zé)任編輯:lq
-
gpu
+關(guān)注
關(guān)注
28文章
4744瀏覽量
129017 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9218瀏覽量
85577 -
虛擬化
+關(guān)注
關(guān)注
1文章
373瀏覽量
29815
原文標(biāo)題:GPU虛擬化,看這一篇就夠了!
文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論