從短期來講,大模型革新每個行業(yè)、每個應(yīng)用,編程范式發(fā)生了前所未有的變化,而就長期而言,大模型驅(qū)動的計算架構(gòu)正在發(fā)生演化。未來究竟將如何演進?微軟亞洲研究院副院長楊懋博士特此撰文,深入計算機系統(tǒng)為我們帶來了更大規(guī)模、更分布式、更智能化的方向。
“大模型的不斷涌現(xiàn)和下一代人工智能需求的迅速增長,促使我們加速對傳統(tǒng)計算機系統(tǒng)的革新。同時,構(gòu)建于大規(guī)模高性能計算機系統(tǒng)之上的現(xiàn)代人工智能技術(shù)也為未來計算機系統(tǒng)的研究帶來了無限的機遇。創(chuàng)新超級計算機系統(tǒng)、重塑云計算、重構(gòu)分布式系統(tǒng),將是實現(xiàn)計算機系統(tǒng)自我革新的三個重要方向?!?? ——楊懋,微軟亞洲研究院副院長
在計算機科學(xué)的諸多細分研究領(lǐng)域之中,計算機系統(tǒng)研究可能是最兼具“古典”與“摩登”特質(zhì)的研究方向。說它古典,是因為計算機系統(tǒng)的雛形可以追溯到古代的算盤、算籌、數(shù)據(jù)表等計算工具,其發(fā)展遠遠早于軟硬件、云計算、人工智能等技術(shù)的研究;至于摩登的一面,大數(shù)據(jù)、云計算等現(xiàn)代技術(shù)又促進了計算機系統(tǒng)的不斷進化。傳統(tǒng)計算機系統(tǒng)研究領(lǐng)域,如分布式系統(tǒng)理論和實踐、編譯優(yōu)化、異構(gòu)計算等成果,已在當(dāng)今的大模型時代大放異彩。同時,以大規(guī)模 GPU 集群為代表的高性能計算機系統(tǒng)也推動人工智能實現(xiàn)了質(zhì)的飛躍。
然而,隨著人工智能技術(shù)更新迭代速度的加快,我們也愈發(fā)清晰地看到傳統(tǒng)計算機系統(tǒng)面臨著新的挑戰(zhàn):當(dāng)前的 GPU 集群在規(guī)模和效率上,已經(jīng)難以滿足新一代人工智能模型的訓(xùn)練和服務(wù)的需求,而現(xiàn)有的云計算和移動計算系統(tǒng)平臺,也需要從服務(wù)傳統(tǒng)的計算任務(wù)向服務(wù)智能應(yīng)用轉(zhuǎn)變。
面對這一系列挑戰(zhàn),我們意識到構(gòu)建于大規(guī)模高性能計算機系統(tǒng)之上的現(xiàn)代人工智能技術(shù),將為計算機系統(tǒng)的研究帶來無限的機遇。因此,計算機系統(tǒng)的革新也勢必要從這三個方向展開:
創(chuàng)新超大規(guī)模計算機系統(tǒng)以支持未來人工智能的發(fā)展;
重構(gòu)云計算這一重要的 IT 基礎(chǔ)平臺;
設(shè)計前沿的分布式系統(tǒng),以適應(yīng)更廣泛的分布式智能需求。
01.?大規(guī)模和更高效的計算機系統(tǒng)是下一代人工智能發(fā)展的基石
強化學(xué)習(xí)領(lǐng)域的創(chuàng)始人之一 Rich Sutton 曾說過,“從 70 年的人工智能研究中可以總結(jié)出的最重要的經(jīng)驗是,最大化利用計算能力是最有效,也是最有優(yōu)勢的方法。從長遠來看,唯一重要的事情就是利用好算力。” 超級計算機系統(tǒng)作為當(dāng)前最有效的計算力“源力”,是現(xiàn)代人工智能成功的重要基石。然而,在基于超級計算機系統(tǒng)構(gòu)建大規(guī)模 GPU 集群的過程中,系統(tǒng)的可靠性、通信效率和總體性能優(yōu)化成為制約大模型訓(xùn)練性能上限的關(guān)鍵問題。因此,我們需要創(chuàng)造一個更高性能、更高效率的基礎(chǔ)架構(gòu)和系統(tǒng),以推動下一代人工智能的發(fā)展。
過去五年中,我們從體系結(jié)構(gòu)、網(wǎng)絡(luò)通信、編譯優(yōu)化和上層系統(tǒng)軟件等多個角度,開展了計算機系統(tǒng)的創(chuàng)新研究,為人工智能基礎(chǔ)架構(gòu)的演化提供了有力支持。例如,我們推出了能夠跨多個加速器執(zhí)行集體通信算法的微軟集體通信庫 MSCCL[1],以及有助于開發(fā)大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型的高性能 MoE(Mixture of Experts,混合專家)庫 Tutel[2]。這些研究成果為包括大語言模型訓(xùn)練及推理在內(nèi)的各種人工智能任務(wù)提供了高效的支持。
超級計算機系統(tǒng)不能僅依靠傳統(tǒng)系統(tǒng)方法來實現(xiàn)革新,而是要利用人工智能實現(xiàn)創(chuàng)新和演進。這也是微軟亞洲研究院正在探索的研究方向,我們認為人工智能的新能力將為解決傳統(tǒng)計算機系統(tǒng)問題提供新視角,包括更智能和高效地優(yōu)化復(fù)雜系統(tǒng)的性能,更快速和智能的問題診斷,以及更便捷的部署和管理。 人工智能與系統(tǒng)結(jié)合將為計算系統(tǒng)設(shè)計帶來新的范式。從芯片設(shè)計、體系結(jié)構(gòu)創(chuàng)新、編譯優(yōu)化到分布式系統(tǒng)設(shè)計,人工智能可以成為系統(tǒng)研究者的智能助手,甚至承擔(dān)大部分工作。
在人工智能的協(xié)助下,系統(tǒng)研究者可以將更多精力用于更大規(guī)模系統(tǒng)的整體設(shè)計,關(guān)鍵模塊和接口的抽象,以及系統(tǒng)整體的演進路線。比如,對于人工智能編譯系統(tǒng)的設(shè)計,我們推出了 Welder、Grinder 等編譯器[3],可以更專注于模型結(jié)構(gòu)、編譯系統(tǒng)和底層硬件之間的關(guān)系和抽象,而更多具體的編譯優(yōu)化搜索算法和實現(xiàn)可以由人工智能輔助完成。這些新的系統(tǒng)研究范式將成為構(gòu)建更大規(guī)模和更高效的人工智能基礎(chǔ)架構(gòu)的真正基石。
基于統(tǒng)一切塊(tile)抽象的四個核心 AI 編譯技術(shù)
02.?以智能化為內(nèi)核,重塑云計算系統(tǒng)
“操作系統(tǒng)管理著計算機的資源和進程,以及所有的硬件和軟件。計算機的操作系統(tǒng)讓用戶在不需要了解計算機語言的情況下與計算機進行交互?!边@是我們對計算機系統(tǒng)的最初理解。 但是,隨著以 GPU、HBM(高帶寬存儲器)、高速互聯(lián)網(wǎng)絡(luò)為代表的分離式(Disaggregation)服務(wù)器架構(gòu)逐漸取代傳統(tǒng)以 CPU 為中心的服務(wù)器,人工智能智能體(AI Agent)和大模型成為云計算平臺的主流服務(wù),深度學(xué)習(xí)算法逐漸替代傳統(tǒng)服務(wù)核心算法,云計算這個始于本世紀初的最重要的 IT 基礎(chǔ)系統(tǒng)也需要重塑自身。 傳統(tǒng)云計算領(lǐng)域的研究方向,如虛擬機(VM)、微服務(wù)(Microservices)、計算存儲分離、彈性計算等,在人工智能時代下需要被重新定義和發(fā)展。
虛擬化技術(shù)需要在分離式架構(gòu)的背景下進行重新設(shè)計;
微服務(wù)及其相關(guān)云計算模塊需要為 AI Agent 和大語言模型構(gòu)建高效且可靠的服務(wù)平臺;
數(shù)據(jù)隱私和安全需要成為云計算系統(tǒng)創(chuàng)新的核心要素。
所有這些變革創(chuàng)新都要服務(wù)于云計算系統(tǒng)的智能化(Cloud + AI)。
一方面,大規(guī)模異構(gòu)計算系統(tǒng)在云端的普及為傳統(tǒng)大規(guī)模系統(tǒng)提供了新的計算平臺;
另一方面,深度學(xué)習(xí)特別是大模型的發(fā)展為傳統(tǒng)大規(guī)模系統(tǒng)的內(nèi)在算法設(shè)計和實現(xiàn)提供了嶄新的思路。
以搜索系統(tǒng)為例,我們基于異構(gòu)計算系統(tǒng)和深度學(xué)習(xí)方法對搜索系統(tǒng)進行了創(chuàng)新,從 Web Scale 的矢量搜索系統(tǒng) SPANN[4]到最新的 Neural Index 索引系統(tǒng) MEVI[5]的設(shè)計,這些創(chuàng)新不僅極大提升了搜索和廣告系統(tǒng)的性能,也為未來信息檢索系統(tǒng)提供了新的范式。類似的創(chuàng)新也發(fā)生在數(shù)據(jù)庫系統(tǒng)、科學(xué)計算系統(tǒng)等領(lǐng)域。 云計算系統(tǒng)不僅為人工智能的發(fā)展提供了保障,其自身和構(gòu)建其上的大規(guī)模系統(tǒng)服務(wù)也將受益于人工智能技術(shù),從而實現(xiàn)持續(xù)演進。未來的云計算平臺也將成為新一代人工智能基礎(chǔ)架構(gòu)的關(guān)鍵組成部分。
03.?分布式系統(tǒng)將是分布式智能的關(guān)鍵基礎(chǔ)設(shè)施
“人類的智能不單存在于人類的頭腦中,還廣泛分布在整個物理世界、社會活動和符號體系中——這就是‘分布式智能’?!泵绹J知科學(xué)家 Roy Pea 在 1993 年發(fā)表的一篇論文“Distributed Cognition: Toward a New Foundation for the Study of Learning”中提出了分布式智能(Distributed cognition)的概念,為我們提供了一種新的視角來理解人工智能系統(tǒng)與社會以及環(huán)境之間的相互作用。
目前,大模型的技術(shù)鏈條,從訓(xùn)練到推理都依賴于云計算中心。但我們相信,智能廣泛存在于分布式環(huán)境中,未來的智能計算也必然存在于任意的分布式環(huán)境中。 人類和物理世界的交互、基于符號系統(tǒng)的交流,都是智力活動的體現(xiàn)。在未來,這些智力活動應(yīng)該能被大模型更好地感知和學(xué)習(xí),人們也可以在任意終端更實時地獲取人工智能模型的能力。這種泛在的相互感知和不斷演進的能力,將是未來分布式系統(tǒng)研究的重點之一。 那么,如何支持智能技術(shù)在更分布式的場景下發(fā)展?我們需要考慮在由云端、邊緣端和設(shè)備組成的廣泛計算平臺中,如何更好地進行人工智能計算。除了傳統(tǒng)的模型稀疏化、壓縮等優(yōu)化模型推理性能的技術(shù)外,更為關(guān)鍵的是要克服大模型等算法在邊緣端運行時遇到的挑戰(zhàn),如實時性和可靠性等基礎(chǔ)問題。為此,我們推出了 PIT[6]、MoFQ[7]等多種移動端模型量化、稀疏化以及運行時優(yōu)化的技術(shù)。
另外,對于邊緣計算平臺和設(shè)備,硬件和推理算法的創(chuàng)新也至關(guān)重要,這將從根本上革新端側(cè)的推理方式,比如利用基于查找表(Lookup Table)等全新的計算范式來提升端側(cè)推理效率, 包括 LUT-NN[8]等技術(shù)。 我們還與多個不同的機器學(xué)習(xí)團隊緊密合作,使學(xué)習(xí)算法可以更好地從任意信號(Signals)中捕捉智能。除了傳統(tǒng)的多模態(tài)模型,我們也在尋找更簡潔和內(nèi)在一致的模型結(jié)構(gòu)和學(xué)習(xí)算法,可以從任意信號中進行學(xué)習(xí)。我們也在探索更優(yōu)的模型結(jié)構(gòu)和算法,這些模型應(yīng)當(dāng)更稀疏、更高效,且具有良好的可擴展性,能夠有效地支持自學(xué)習(xí)和實時更新。 未來,智能將融入廣泛的分布式環(huán)境中,而創(chuàng)新的分布式系統(tǒng)將是分布式智能的關(guān)鍵基礎(chǔ)設(shè)施,也是人類社會獲得更實時、更可靠的人工智能交互能力的前提。
04.?未來的計算機系統(tǒng)將自我進化
未來的計算機系統(tǒng)研究將是一個持續(xù)自我革新的過程。這不僅意味著計算機系統(tǒng)需要不斷進化來滿足未來人工智能發(fā)展的需求,也意味著計算機系統(tǒng)本身將更加智能化,并具備自我演化的能力。
過去幾年的變革創(chuàng)新讓我們窺見了些許未來的樣貌。然而,從基礎(chǔ)架構(gòu)、云計算平臺到分布式智能化,人工智能時代的計算機系統(tǒng)研究領(lǐng)域,還有很多新的可能性等待我們?nèi)ヌ剿鳌.?dāng)然,我堅信那些更加智能、更強大的助手和工具,一定會在未來的研究道路上給我們帶來尚未被發(fā)現(xiàn),但又足以令人興奮的驚喜。
作者簡介
楊懋博士現(xiàn)任微軟亞洲研究院副院長,領(lǐng)導(dǎo)微軟亞洲研究院在計算機系統(tǒng)和網(wǎng)絡(luò)領(lǐng)域的研究工作。于 2006 年加入微軟亞洲研究院,主要從事分布式系統(tǒng)、搜索引擎系統(tǒng)和深度學(xué)習(xí)系統(tǒng)的研究、設(shè)計與實現(xiàn)。同時領(lǐng)導(dǎo)團隊在計算機系統(tǒng)、計算機安全、計算機網(wǎng)絡(luò)、異構(gòu)計算、邊緣計算和系統(tǒng)算法等方向進行關(guān)鍵技術(shù)研究。團隊及個人在 OSDI、SOSP、NSDI、SIGCOMM、ATC 等計算機系統(tǒng)和網(wǎng)絡(luò)的頂級會議上持續(xù)發(fā)表多篇論文。團隊在研究的同時還注重與實際計算機和網(wǎng)絡(luò)系統(tǒng)的演進結(jié)合,與 Azure 云計算、Bing 搜索引擎系統(tǒng)、Windows 操作系統(tǒng)、SQL Server 數(shù)據(jù)庫系統(tǒng)以及多個開源社區(qū)密切合作。楊博士同時還是中國科學(xué)技術(shù)大學(xué)博士生導(dǎo)師,擁有北京大學(xué)計算機體系結(jié)構(gòu)專業(yè)博士學(xué)位以及哈爾濱工業(yè)大學(xué)碩士和學(xué)士學(xué)位。
審核編輯:黃飛
?
評論
查看更多