操作系統(tǒng)是計(jì)算機(jī)系統(tǒng)中的核心組成部分,也是架設(shè)在計(jì)算機(jī)硬件和軟件之間的橋梁,它對(duì)計(jì)算機(jī)系統(tǒng)的性能和穩(wěn)定性產(chǎn)生直接影響,是開(kāi)發(fā)者和企業(yè)關(guān)注的關(guān)鍵根技術(shù)之一。在ChatGPT浪潮下,促進(jìn)了各項(xiàng)技術(shù)創(chuàng)新發(fā)展,操作系統(tǒng)也不例外,那么在智能化時(shí)代,操作系統(tǒng)將迎來(lái)哪些挑戰(zhàn)和機(jī)遇?
openEuler社區(qū)TC委員熊偉在“長(zhǎng)沙·中國(guó) 1024 程序員節(jié)的“2023 技術(shù)英雄會(huì)”上帶來(lái)《智能化操作系統(tǒng)的機(jī)遇和挑戰(zhàn)》的主題演講,帶來(lái)了他對(duì)智能化操作系統(tǒng)的前沿思考與探索實(shí)踐。
1024大模型與OS協(xié)同優(yōu)化已成趨勢(shì)
操作系統(tǒng)將現(xiàn)大變局
據(jù)埃森哲在《技術(shù)展望2023》中顯示,技術(shù)正朝著通用智能、數(shù)字身份、數(shù)據(jù)透明和前沿探索方向演進(jìn)。其中特別指出:基礎(chǔ)模型的問(wèn)世,堪稱人工智能歷史上的最大變革之一。熊偉表示,大模型擴(kuò)展了智能邊界,而且智能邊界將持續(xù)拓展,因此數(shù)據(jù)共享和數(shù)據(jù)安全將越來(lái)越重要。
面向大規(guī)模復(fù)雜系統(tǒng)的調(diào)優(yōu)和運(yùn)維等,傳統(tǒng)的人工手段已難以為繼,大模型與操作系統(tǒng)協(xié)同優(yōu)化已成必然趨勢(shì)。熊偉具體從以下兩方面闡述,一是在運(yùn)維上,由于數(shù)據(jù)中心和云的復(fù)雜性,造成定位效率低,修復(fù)時(shí)間長(zhǎng)。例如大規(guī)模集群系統(tǒng)涉及器件的數(shù)量達(dá)百萬(wàn)甚至千萬(wàn)級(jí),而平均穩(wěn)定運(yùn)行時(shí)間僅為天級(jí)。而且跨越故障的流程長(zhǎng),單器件故障,業(yè)界的處理時(shí)間為1-30天,這將嚴(yán)重影響系統(tǒng)的效率。針對(duì)此問(wèn)題,微軟嘗試用大模型對(duì)40000個(gè)生產(chǎn)事故做微調(diào),據(jù)數(shù)據(jù)顯示,處理故障大約得到了70%的改善。此外,在社區(qū)和開(kāi)源領(lǐng)域,K8sGPT通過(guò)將SRE經(jīng)驗(yàn)編入大模型來(lái)診斷和分類集群?jiǎn)栴}。
其次是在調(diào)優(yōu)上,由于應(yīng)用負(fù)載膨脹,軟件棧厚重,參數(shù)眾多且關(guān)聯(lián),人工調(diào)優(yōu)已很難獲得最佳性能。另外在硬件上,芯片工藝持續(xù)落后,負(fù)載協(xié)同復(fù)雜,硬芯微架構(gòu)優(yōu)化難,也造成硬件系統(tǒng)性能無(wú)法得到最佳釋放。針對(duì)這個(gè)問(wèn)題,在業(yè)界,Granulate通過(guò)AI對(duì)負(fù)載或者0代碼修改獲得5倍性能提升,降低了45%的成本;在學(xué)術(shù)界,紐約州立大學(xué)使用大模型應(yīng)用參數(shù)自動(dòng)調(diào)優(yōu),Google使用可學(xué)習(xí)AI數(shù)據(jù)結(jié)構(gòu)代替hash算法。
因此熊偉表示,大模型在運(yùn)維等領(lǐng)域的加速應(yīng)用,AI協(xié)同復(fù)雜、多場(chǎng)景的覆蓋,打造操作系統(tǒng)智能化平臺(tái),實(shí)現(xiàn)大模型與操作系統(tǒng)的協(xié)同優(yōu)化已成為必然趨勢(shì)。
譬如前不久,微軟宣布將GPT-4大模型嵌入到操作系統(tǒng)里,利用GPT知識(shí)構(gòu)建自主AI能力,改變了傳統(tǒng)三十年的交互方式,實(shí)現(xiàn)了機(jī)器人流程自動(dòng)化。
1024算力效率與泛在智能應(yīng)用
OS走向異構(gòu)融合
在人工智能迅速發(fā)展下,未來(lái)人類向智能社會(huì)過(guò)渡。在這種大趨勢(shì)下,人工智能的變化對(duì)操作系統(tǒng)造成的影響將主要體現(xiàn)在兩個(gè)方面。一個(gè)是日愈復(fù)雜的算力系統(tǒng),一個(gè)是泛在智能應(yīng)用。
智能應(yīng)用對(duì)操作系統(tǒng)的訴求是人機(jī)實(shí)時(shí)智能交互,性能和資源利用與服務(wù)質(zhì)量同等重要,也就是“魚和熊掌兼得”。熊偉表示,
AI應(yīng)用服務(wù)對(duì)系統(tǒng)低時(shí)延、高性能、高可用的綜合訴求高,因此需構(gòu)建低熵高效的操作系統(tǒng)。
因?yàn)樵趥鹘y(tǒng)的計(jì)算機(jī)體系中,如果吞吐量上升,其可靠性就會(huì)稍微下降一些,時(shí)延也會(huì)增加。但是AI時(shí)代以來(lái),既要吞吐量更高,同時(shí)要求時(shí)延小,可靠性要求也高。所以可想而知,其難度有多大。
此外,數(shù)據(jù)模型集增長(zhǎng)迅速,但是開(kāi)發(fā)效率低下。HuggingFace每天新增1000多個(gè)模型、300多個(gè)數(shù)據(jù)集,且仍在加速增長(zhǎng)。但是在真正訓(xùn)練過(guò)程中,超80%的開(kāi)發(fā)周期都在8天以上,模型開(kāi)發(fā)的等待時(shí)間超60%,無(wú)效算力非常多。因此,AI工程化訴求強(qiáng)烈。AI技術(shù)發(fā)展?fàn)恳浖こ逃蓚鹘y(tǒng)敏捷開(kāi)發(fā)工具鏈DevOps,向人工智能開(kāi)發(fā)工具鏈DataOps、AIOps、DevOps演進(jìn)。
對(duì)于硬件來(lái)講,傳統(tǒng)處理器越來(lái)越多,如何調(diào)度?多樣性計(jì)算時(shí)代,軟硬件的發(fā)展給了操作系統(tǒng)調(diào)度重新設(shè)計(jì)的空間。但隨著高速緩存造成的影響更適合硬件任務(wù)切換,任務(wù)的切換隨著SMT/warp的增加會(huì)日漸復(fù)雜,硬件的調(diào)度和OS會(huì)形成互補(bǔ)。計(jì)算理論表明,計(jì)算模式最終趨向收斂,多種計(jì)算模式融合是應(yīng)用發(fā)展的必然結(jié)果,系統(tǒng)層異構(gòu)融合是趨勢(shì)。
異構(gòu)融合的趨勢(shì)下,多樣性算力產(chǎn)品與生態(tài)不再孤立,正如NVIDIA DGX往全棧協(xié)同與融合方向發(fā)展,芯片硬件也會(huì)發(fā)生非常劇烈的變革,從單芯片發(fā)展為超級(jí)芯片,軟件棧也會(huì)從傳統(tǒng)的CUDA生態(tài)演進(jìn)到集群融合完整棧。
1024openEuler的未來(lái):
打造AI原生的異構(gòu)融合OS
面向未來(lái)多樣性計(jì)算的智能時(shí)代,openEuler秉持“以AI賦能openEuler更智能,以openEuler使能AI更高效”的理念,嘗試通過(guò)自然語(yǔ)言和操作系統(tǒng)進(jìn)行交互溝通,打通領(lǐng)域知識(shí),不僅支持GLM、LlaMA、Baichuan等大模型,還支持輔助運(yùn)維、輔助編程等,通過(guò)AI賦能開(kāi)發(fā)者,即“AI for openEuler”。下一步openEuler的設(shè)想是實(shí)現(xiàn)“openEuler for AI”,即通過(guò)異構(gòu)算力協(xié)同,實(shí)現(xiàn)超大容量和高效算力。通過(guò)PB級(jí)異構(gòu)內(nèi)存管理,使訓(xùn)練效率提升20%以上,通過(guò)異構(gòu)算力多維調(diào)度,使推理并發(fā)提升50%以上。
展望openEuler的未來(lái),其定位為 “面向未來(lái)多樣性計(jì)算的智能時(shí)代,打造AI原生的異構(gòu)融合OS”。熊偉表示,大模型和AI時(shí)代來(lái)臨后,基礎(chǔ)設(shè)施還將產(chǎn)生哪些變化,華為與各界仍在不斷探索中,而華為將持續(xù)提供優(yōu)質(zhì)服務(wù),為開(kāi)發(fā)者和企業(yè)提供堅(jiān)實(shí) “裝備”。
編輯:黃飛
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7525瀏覽量
88379 -
操作系統(tǒng)
+關(guān)注
關(guān)注
37文章
6863瀏覽量
123541 -
AI
+關(guān)注
關(guān)注
87文章
31338瀏覽量
269740 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15452 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1566瀏覽量
7884
原文標(biāo)題:大模型時(shí)代,智能化操作系統(tǒng)面臨的機(jī)遇與挑戰(zhàn)
文章出處:【微信號(hào):openEulercommunity,微信公眾號(hào):openEuler】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論