今年都在說AI技術(shù)落地。AI到底有沒有真正落地?可能得真實數(shù)字說了才算。
IDC今年7月發(fā)布的一份報告顯示,2018至2024年,中國AI云服務(wù)市場年復(fù)合增長率將達(dá)到93.6%。
當(dāng)然,高增速也不一定是真正的行業(yè)繁榮,行業(yè)的結(jié)構(gòu)變化更能說明天平傾斜的方向。
阿里云最近有一組數(shù)字值得玩味:四年前,云上的訓(xùn)練任務(wù)占比超過80%;而如今,推理任務(wù)所占算力比重已經(jīng)基本過半。
阿里云透露,這背后主要是因為4年以來,AI行業(yè)悄然發(fā)生的變化:云端進(jìn)行推理的需求,比訓(xùn)練需求的增長要快得多。占比過半標(biāo)志推理將是未來更為主流的云上AI計算需求,也說明AI行業(yè)已經(jīng)從創(chuàng)業(yè)和從研發(fā)和創(chuàng)業(yè)為主,真正走向落地。
為什么這么說?
阿里云異構(gòu)計算研發(fā)總監(jiān)龍欣解釋, 訓(xùn)練是更偏后端研發(fā)的階段。而推理更多是把成熟的產(chǎn)品推廣到市場上規(guī)?;瘧?yīng)用,從這個角度來看,算力是處于訓(xùn)練還是處于推理,其實就能判斷這個產(chǎn)品在AI上的技術(shù)是否開始了大規(guī)模落地。
而阿里云還透露了一組數(shù)字,最初云端GPU上線時,只有少數(shù)幾家互聯(lián)網(wǎng)企業(yè)和人工智能技術(shù)創(chuàng)業(yè)公司,租用算力來驗證自己的商業(yè)模式和業(yè)務(wù)探索;現(xiàn)在AI用戶已覆蓋智能智造、醫(yī)療、教育等數(shù)十個行業(yè)。
例如,今年的疫情讓在線教育等行業(yè)迅速增長。阿里云透露,在線教育是過去一年里對異構(gòu)計算需求增長最迅速的行業(yè),已經(jīng)增長了近200%。這也側(cè)面反映了這個行業(yè)AI應(yīng)用的快速落地。
“實際上,AI已經(jīng)進(jìn)入到了下半場。推理業(yè)務(wù)的多樣化也帶來了異構(gòu)場景和器件的多樣化,云游戲、5G都是現(xiàn)在非常受關(guān)注的賽道。”龍欣表示,云上異構(gòu)計算也在支撐更多的新興賽道。
AI技術(shù)已經(jīng)到了不是少數(shù)人少數(shù)企業(yè)的“自嗨”,開始走向傳統(tǒng)行業(yè),全面開花。
總而言之,AI已經(jīng)從重訓(xùn)練的研發(fā)階段,進(jìn)入訓(xùn)練推理并重的落地階段,而且應(yīng)用面越來越廣。
從算法到“算法+算力”
以深度學(xué)習(xí)為代表的AI技術(shù)飛速發(fā)展,對于算力的需求也在暴增。OpenAI的年度報告顯示,從AlexNet到AlphaGo Zero,短短6年時間里,最先進(jìn)AI模型算力需求增長了30萬倍。
算法固然是提升AI技術(shù)的核心,但是想要AI快速落地,最“簡單粗暴”的辦法就是疊加算力。今年出現(xiàn)的超大自然語言模型GPT-3就是典型的例子。
另一方面,更偏研發(fā)行為的訓(xùn)練階段,對算力的需求是有天花板的,與具體業(yè)務(wù)規(guī)模不直接關(guān)聯(lián)。而如今AI產(chǎn)品的落地,意味著隨著前端用戶規(guī)模的擴(kuò)大,對應(yīng)推理業(yè)務(wù)模型對算力的需求是會呈現(xiàn)線性甚至爆發(fā)式增長的。比如,阿里云曾經(jīng)在數(shù)天內(nèi)為一款爆款A(yù)I產(chǎn)品“彈出”了數(shù)萬片云上GPU,抓住了涌入的用戶。
“巧婦難為無米之炊”,掌握算力資源的AI基礎(chǔ)設(shè)施成為AI從概念到落地的重要支撐。
AI已經(jīng)從以單一的算法為核心逐漸演變?yōu)樗惴?、算力雙核心。
云,無疑是獲取算力最便捷與靈活的方式。通過云,企業(yè)可以隨時獲得充足的云端AI算力。
作為基礎(chǔ)設(shè)施提供商的云計算,為滿足行業(yè)發(fā)展,堆硬件是必經(jīng)之路,但提供AI算力并不等同于單純堆硬件,如果沒有全面的軟硬件技術(shù),只會得到1+1<2的效果。
如何調(diào)度這些資源,解決用戶在使用時的性能損失,是云計算廠商必須考慮的問題。
云異構(gòu)計算的三個階段
這就要從云上AI基礎(chǔ)設(shè)施的發(fā)展階段說起。
云上異構(gòu)計算作為最能發(fā)揮AI效率的計算方式,其發(fā)展可以分為三個階段:
第一個階段,是異構(gòu)計算需求的從0到1。
在2013年AlexNet依靠GPU達(dá)到80%準(zhǔn)確率,展現(xiàn)了GPU在AI算力提供上的能力這給業(yè)界開辟了一條新路。淘寶拍立淘、新浪微博等等,就開始嘗試?yán)肎PU來開發(fā)機(jī)器學(xué)習(xí)產(chǎn)品。2016年,阿里云邁出了第一步:啟動異構(gòu)計算業(yè)務(wù),主要是服務(wù)了第一批尋求AI創(chuàng)新的客戶的需求。在這個階段,主要解決了企業(yè)對異構(gòu)算力的從有到無。
第二個階段,是規(guī)?;?。
在2016年AlphaGo大放異彩之后,深度學(xué)習(xí)等AI技術(shù)開始從實驗室走向工業(yè)界。隨著大量互聯(lián)網(wǎng)企業(yè)開始對人工智能算法研發(fā)進(jìn)行重點投入,AI算力的瓶頸也日益凸顯。
大量模型訓(xùn)練的需求,以及對大算力需求的不斷增長,推動了規(guī)?;?、強(qiáng)彈性、高性能的云上計算基礎(chǔ)設(shè)施的落地。阿里云也開始規(guī)模化部署云上異構(gòu)算力。
短短3年時間,阿里云已經(jīng)擁有超大規(guī)模的云上異構(gòu)計算集群,每秒能支撐100億億次的異構(gòu)運算,相當(dāng)于在1秒內(nèi)看懂超過5.3億張圖片、翻譯4千萬句話、識別9.2萬小時長的語音。
而正如前文所說,2020年,人工智能行業(yè)的拐點已經(jīng)到來,AI真正從研發(fā)和創(chuàng)業(yè),走向了落地實踐。這也就驅(qū)動著異構(gòu)計算產(chǎn)品進(jìn)入了第三階段。
第三階段的特征,是精細(xì)化和多樣化。
當(dāng)AI從研發(fā)走向落地,訓(xùn)練場景就將面臨更為復(fù)雜多樣的業(yè)務(wù),對于企業(yè)客戶而言,上云的需求也就從大算力,聚焦到了降低推理成本和極速部署等方面,同時場景也更為多樣。
不難看出,這三個階段的變化,是技術(shù)進(jìn)步和行業(yè)發(fā)展共同促進(jìn)的結(jié)果。
而第二階段構(gòu)建面向大計算的基礎(chǔ)設(shè)施,可以說是所有云廠商的必經(jīng)之路,也仍然是目前許多廠商的競爭重點。
但在基礎(chǔ)設(shè)施之上,如何讓客戶能進(jìn)一步快速調(diào)用資源,在AI落地的過程中進(jìn)一步降本增效?
作為中國云計算市場份額最高的云服務(wù)商,阿里云已經(jīng)率先邁出了這一步,給出的答案是——
軟硬一體
軟硬一體,在2017年就已成為頭部云服務(wù)廠商的共識。
為了云計算的一大頑疾——通過虛擬機(jī)搭建云的過程中,虛擬化帶來的性能損耗問題,2017年9月,阿里云推出第一代神龍架構(gòu),在整個行業(yè)中首次以軟硬結(jié)合的設(shè)計方式實現(xiàn)了性能的0損耗。而大洋彼岸的AWS也同樣在2017年底推出了類似產(chǎn)品AWS Nitro架構(gòu)。
在此基礎(chǔ)之上,現(xiàn)在,阿里云異構(gòu)計算針對垂直行業(yè),進(jìn)一步提供了讓云上資源變得更高效、更易用的軟件工具。
比如針對人工智能行業(yè)的神龍AI加速引擎(AIACC)。
在大規(guī)模深度學(xué)習(xí)場景中,大規(guī)模GPU資源不僅導(dǎo)致了高運維成本,隨著機(jī)器數(shù)的增加,不同機(jī)器GPU之間的配合難度也會變大,導(dǎo)致單張GPU卡的利用率反而下降。AIACC則可以通過對通訊、帶寬等進(jìn)行深度優(yōu)化,提升資源協(xié)作效率和利用率
在AIACC的加持之下,今年3月,阿里云獲得了斯坦福大學(xué)DAWNBench ImageNet四個榜單的世界第一。
根據(jù)已經(jīng)落地的實際案例,AIACC可以幫助客戶在云上訓(xùn)練場景下,提升2倍到14倍的性能;在推理場景下,提升2倍到6倍的性能。
AI芯片領(lǐng)域的獨角獸地平線,與阿里云AIACC團(tuán)隊緊密合作,將基于阿里云異構(gòu)計算的分布式訓(xùn)練性能提升4倍,讓地平線算法研發(fā)效率得以顯著的提升,成本得以大幅下降。
阿里內(nèi)部,以阿里云IoT的圖像分類業(yè)務(wù)為例。AIACC團(tuán)隊和IoT智能業(yè)務(wù)研發(fā)團(tuán)隊合作,將大規(guī)模圖像分類分布式訓(xùn)練性能提升5倍。
另一阿里異構(gòu)獨有的軟件產(chǎn)品,便是分片cGPU容器技術(shù),能讓客戶通過容器來調(diào)度底層GPU資源,以更細(xì)顆粒度調(diào)度使用GPU,提高GPU資源利用率,達(dá)到降本增效的目的。
阿里云異構(gòu)計算產(chǎn)品負(fù)責(zé)人潘岳也進(jìn)一步對量子位解釋了“軟硬一體”的必要性:
單純從算力的角度來說,硬件相當(dāng)修路時用到的水泥、石塊這樣的基礎(chǔ)。但僅僅是基礎(chǔ)的堆疊顯然是不足以解決問題的。
硬件資源為底層的基礎(chǔ)設(shè)施之上,需要將虛擬化這樣的技術(shù)通過軟件產(chǎn)品的形式迭代出來,去充分發(fā)揮底層硬件的能力,把相應(yīng)的技術(shù)紅利釋放給客戶。
算力池化
除了軟硬一體,阿里云異構(gòu)計算產(chǎn)品展現(xiàn)出來的另一個發(fā)展趨勢,是算力池化,帶來了對算力更加靈活的調(diào)度能力。
一直以來,用戶在云上選擇GPU算力的時候,都是受規(guī)格配比限制的,比如內(nèi)存和GPU之間只有特定幾個比例??墒敲總€AI推理模型之間需要的資源配比是千差萬別的。
阿里云異構(gòu)計算今年推出彈性加速計算實例EAIS,通過軟件池化的方式,在國內(nèi)云廠商中首次實現(xiàn)GPU、FPGA、NPU等異構(gòu)加速器與CPU/內(nèi)存的解耦。
EAIS為客戶提供了一個異構(gòu)算力池,用戶可以將需要的GPU資源量搭配到任何一款阿里云ECS服務(wù)器中,根據(jù)不同應(yīng)用需求靈活優(yōu)化CPU/內(nèi)存與GPU之間的比例,匹配適合的資源組合,在提升AI推理效率的同時大幅降低成本。
全面布局
AI下半場,它的基礎(chǔ)設(shè)施需要更豐富和多樣。
龍欣表示,推理面臨的是非常復(fù)雜的業(yè)務(wù)場景,涉及到的技術(shù)很可能不只有AI。C端用戶用到的一個功能,可能融合了音視頻編解碼和深度學(xué)習(xí)等多種技術(shù)。異構(gòu)計算作為底層的基礎(chǔ)設(shè)施,也需要覆蓋多樣化的需求。
阿里云異構(gòu)計算雖然發(fā)軔于AI,但它面對的,早已不只AI。
阿里云異構(gòu)計算產(chǎn)品加持的經(jīng)典案例,早已不僅僅局限于AI領(lǐng)域。
阿里云異構(gòu)GPU/FPGA服務(wù)器就重點支持了天貓雙11晚會直播的實時視頻轉(zhuǎn)碼,服務(wù)了4k、1080p、720p等各個分辨率的轉(zhuǎn)碼。
業(yè)內(nèi)規(guī)模最大的單業(yè)務(wù)FPGA計算集群,為淘寶提供超過數(shù)百萬QPS的圖片轉(zhuǎn)碼處理能力。FPGA云服務(wù)器今年首次100%承擔(dān)雙十一淘寶圖片流量,預(yù)計節(jié)省計算成本數(shù)億元。
……
云異構(gòu)計算的下一步
回顧國內(nèi)云異構(gòu)計算產(chǎn)品的發(fā)展歷程,阿里云無疑是最早布局的云服務(wù)商。
據(jù)阿里巴巴集團(tuán)研究員、阿里云彈性計算負(fù)責(zé)人張獻(xiàn)濤介紹,阿里巴巴內(nèi)部有豐富的業(yè)務(wù),這些內(nèi)部業(yè)務(wù)為阿里云的技術(shù)輸出提供了最直觀的行業(yè)洞察。而反過來,阿里云的技術(shù)積累又反哺了集團(tuán)業(yè)務(wù)。
這就形成了一個良性的閉環(huán),使得阿里云能夠堅定地在云計算業(yè)務(wù)上進(jìn)行前瞻性的布局。
那么,在第三階段之后,云異構(gòu)計算將向何處去,阿里云又是如何判斷的呢?
阿里云異構(gòu)計算產(chǎn)品負(fù)責(zé)人潘岳談到,從產(chǎn)品的角度而言,未來云異構(gòu)計算的發(fā)展,一定是一個生態(tài)化的過程。
一方面,是阿里云這樣的底層基礎(chǔ)設(shè)施,被行業(yè)ISV(獨立軟件開發(fā)商)、解決方案公司集成,賦能AI等領(lǐng)域的創(chuàng)新實踐。
另一方面,是與英偉達(dá)這樣的加速器廠商加強(qiáng)合作,進(jìn)一步豐富加速器的硬件生態(tài)。
而站在技術(shù)角度,阿里云異構(gòu)計算研發(fā)總監(jiān)龍欣表示,接下來,單一加速器將不再能滿足AI、視頻編解碼等諸多領(lǐng)域的業(yè)務(wù)需求,加速器硬件融合的趨勢已經(jīng)顯現(xiàn)。
未來,異構(gòu)計算在技術(shù)上有可能出現(xiàn)這樣一次新的變革:通過軟件池化解耦和硬件池化解耦,把多種加速器融合在一起,去滿足AI等行業(yè)中業(yè)務(wù)落地階段更廣泛的加速需求。
這也將是阿里云下一階段的重點探索方向。
并且,隨著5G的布局,隨著視頻等可視化計算需求的增長,云異構(gòu)計算不僅僅是在AI領(lǐng)域,也將在視頻、云游戲等更多行業(yè)中扮演更加重要的角色。
編輯:hfy
-
云計算
+關(guān)注
關(guān)注
39文章
7835瀏覽量
137518 -
人工智能
+關(guān)注
關(guān)注
1792文章
47373瀏覽量
238867 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5506瀏覽量
121255
發(fā)布評論請先 登錄
相關(guān)推薦
評論