作者簡(jiǎn)介:黃玉棟,北郵博士,研究方向時(shí)敏確定性網(wǎng)絡(luò)與網(wǎng)絡(luò)智能
當(dāng)前,生成式人工智能被認(rèn)為是21世紀(jì)最重要的技術(shù)突破之一,其為人類(lèi)社會(huì)帶來(lái)了工作范式的轉(zhuǎn)變,極大地提高了人類(lèi)生產(chǎn)力。比如,2022年12月ChatGPT橫空出世,以火箭般的流行速度短短五天吸引了超過(guò)100萬(wàn)用戶(hù),兩個(gè)月后月活用戶(hù)達(dá)到1億,其為代表的對(duì)話(huà)系統(tǒng)達(dá)到接近人類(lèi)水平,不僅能幫助人類(lèi)完成寫(xiě)郵件、寫(xiě)代碼、撰寫(xiě)報(bào)告、生成圖像、生成視頻等工作,甚至在AlphaCode程序設(shè)計(jì)競(jìng)賽中擊敗了45.7%的程序員,通用人工智能被認(rèn)為有望重塑或取代當(dāng)前80%的人類(lèi)工作。
2023年1月,生物界首次實(shí)現(xiàn)從零合成全新蛋白,2023年2月,Meta開(kāi)源LlaMA模型,2023年3月,谷歌打造出PaLM-E具身智能機(jī)器人,此外,生成式人工智能已被全面用于分子結(jié)構(gòu)預(yù)測(cè)、芯片設(shè)計(jì)、蛋白質(zhì)生成、通信信道預(yù)測(cè)等生物、醫(yī)療、材料、機(jī)器人、信息科學(xué)領(lǐng)域。
那么,生成式人工智能可否用于網(wǎng)絡(luò)領(lǐng)域?有哪些場(chǎng)景和關(guān)鍵技術(shù)?跟以前的智能有什么區(qū)別?前沿進(jìn)展如何?怎么實(shí)現(xiàn)?這是大家關(guān)心和熱議的話(huà)題。本文作為科普入門(mén)資料,將以通俗易懂的方式,以基于Transformer架構(gòu)的大模型技術(shù)為主線(xiàn),分析“網(wǎng)絡(luò)大模型”的核心原理、關(guān)鍵技術(shù)、場(chǎng)景應(yīng)用和發(fā)展趨勢(shì)。
什么是網(wǎng)絡(luò)大模型技術(shù)?
本文將適配網(wǎng)絡(luò)領(lǐng)域的大模型技術(shù)稱(chēng)為“網(wǎng)絡(luò)大模型“技術(shù),即“Large Foundation Models for Networking”。其中,基礎(chǔ)模型有很多種,比如Transformer,Diffusion Models, GAN,以及它們的衍生改進(jìn)版本,不同基礎(chǔ)模型服務(wù)于不同的模態(tài)(即輸入數(shù)據(jù))和任務(wù)場(chǎng)景??v然模型千變?nèi)f化,其本質(zhì)卻始終如一。本文將網(wǎng)絡(luò)大模型的主要能力分為兩種,第一種是基于世界知識(shí)的“預(yù)測(cè)”能力,第二種是泛化的序列“決策”能力。接下來(lái)首先介紹第一種能力。
基于世界知識(shí)的預(yù)測(cè)能力
什么是預(yù)測(cè)?
回顧一個(gè)經(jīng)典的例子,給你三組數(shù)據(jù),第一組x=1,y=1.05,第二組x=2,y=4.17, 第三組x=4,y=15.99,請(qǐng)猜一下x=3時(shí),y應(yīng)該等于多少。
人們通過(guò)分析,可以得出數(shù)據(jù)滿(mǎn)足y=x*x的規(guī)律,因此x=3時(shí),y大約等于9。這就是一個(gè)最簡(jiǎn)單的預(yù)測(cè)的過(guò)程,可以被描述為y=F(x),其中F是一個(gè)函數(shù)。但真實(shí)問(wèn)題中很多輸入輸出關(guān)系是非線(xiàn)性的復(fù)雜映射,需要用海量數(shù)據(jù)來(lái)擬合,因此有了神經(jīng)網(wǎng)絡(luò)的概念,并用一個(gè)損失函數(shù)來(lái)最小化預(yù)測(cè)的誤差。
比如例子中實(shí)際采集的數(shù)據(jù)是x=3時(shí),y=9.01,那么輸出9就存在一定的誤差。一個(gè)神經(jīng)網(wǎng)絡(luò)模型包含輸入層、隱藏層和輸出層,訓(xùn)練的過(guò)程就是不斷的輸入x=3,讓模型調(diào)整隱藏層計(jì)算權(quán)重去猜y=9.8,y=9.5,直到猜到了y=9,就認(rèn)為模型學(xué)會(huì)了映射關(guān)系,訓(xùn)練停止。然后推理的過(guò)程就是輸入x=3,模型直接輸出y=9。
總結(jié)一下,本質(zhì)上模型是用來(lái)預(yù)測(cè)輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的非線(xiàn)性關(guān)系的,包括訓(xùn)練和推理兩個(gè)步驟,有效數(shù)據(jù)量越多,模型的預(yù)測(cè)精度通常越高。其次,模型并不能脫離數(shù)據(jù)集“憑空產(chǎn)生結(jié)果”,要先在訓(xùn)練過(guò)程中通過(guò)已知的輸入-輸出對(duì)來(lái)學(xué)習(xí),即監(jiān)督學(xué)習(xí)。
此外,模型學(xué)習(xí)的是產(chǎn)生結(jié)果的概率,而非結(jié)果本身。雖然在示例中輸入和輸出只是簡(jiǎn)單的數(shù)字,但在實(shí)際應(yīng)用中,輸入輸出可能是文本、圖像、拓?fù)?、視頻等。針對(duì)不同的輸入數(shù)據(jù)結(jié)構(gòu)和特征,神經(jīng)網(wǎng)絡(luò)模型被不斷改進(jìn),例如,用于圖像處理的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和用于處理拓?fù)涞膱D神經(jīng)網(wǎng)絡(luò)(GNN)等,在此按下不表。
Transformer的基本原理
Transformer是一種在2017年被提出的廣泛用于自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即用來(lái)預(yù)測(cè)詞與詞之間的映射關(guān)系。舉個(gè)問(wèn)答的例子,如下圖所示,輸入問(wèn)題是“五月一日是什么節(jié)日?”我們希望輸出回答是“五月一日是勞動(dòng)節(jié)”。
那怎么讓計(jì)算機(jī)理解語(yǔ)言和文字?首先,需要將每個(gè)詞作為一個(gè)最小處理單元,即token,然后把這些token轉(zhuǎn)換為向量,即embeddings。比如假設(shè)“月”字用向量[1,0,0,0]表示,“日”字用向量[0,1,0,0]表示。有了向量以后就可以進(jìn)行矩陣運(yùn)算,就可以被計(jì)算機(jī)所“理解”了。然后,Transformer里提出了一個(gè)attention注意力機(jī)制,用來(lái)計(jì)算一個(gè)輸入文本序列中每個(gè)詞與其他詞的相關(guān)性,并通過(guò)位置編碼來(lái)表明序列中詞的位置信息,也就是先看一下前面幾個(gè)詞是“五月一日是”,然后開(kāi)始猜下一個(gè)詞概率最大可能是“勞”,再下一個(gè)詞是“動(dòng)”,再下一個(gè)詞是“節(jié)”。
Transformer的結(jié)構(gòu)優(yōu)勢(shì)在于具有特別好的可擴(kuò)展性,比如以前的自然語(yǔ)言處理模型很難捕捉長(zhǎng)距離依賴(lài),也就是句子長(zhǎng)了就丟失了上下文關(guān)系信息,再比如attention能夠并行計(jì)算,大大提高了訓(xùn)練的速度。
此外,以前是每個(gè)任務(wù)都需要單獨(dú)訓(xùn)練一個(gè)模型,而Transformer架構(gòu)非常通用,能很好地適應(yīng)機(jī)器翻譯、文本生成、問(wèn)答系統(tǒng)等各種任務(wù),這使得模型可以輕松地?cái)U(kuò)展到更大規(guī)模,并實(shí)現(xiàn)“one model for all”的效果。
基于世界知識(shí)的“大”模型
如果故事到這里結(jié)束,Transformer僅僅只會(huì)停留在自然語(yǔ)言處理領(lǐng)域。然而接下來(lái),OpenAI大力出奇跡,開(kāi)啟了大模型新紀(jì)元。試想一下,如果把所有已知的詞都作為token,那世界知識(shí)能否被編碼成能被計(jì)算機(jī)“理解”的詞典?神經(jīng)網(wǎng)絡(luò)模型能否誕生出類(lèi)似人腦的理解能力甚至超越人類(lèi)的智能?2018年OpenAI發(fā)布了首個(gè)GPT(Generative Pre-trained Transformer)模型,并提出了無(wú)監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)的訓(xùn)練方法。
最開(kāi)始GPT-1具有1.17億個(gè)模型參數(shù),預(yù)訓(xùn)練數(shù)據(jù)量約為5GB,到2020年,GPT-3的模型參數(shù)量達(dá)到了驚人的1750億,預(yù)訓(xùn)練數(shù)據(jù)量增長(zhǎng)到了45TB。在“大”模型背后,Scaling Law縮放法則指出,通過(guò)在更多數(shù)據(jù)上訓(xùn)練更大的模型,模型性能將不斷提升。且模型達(dá)到一定的臨界規(guī)模后,表現(xiàn)出了一些開(kāi)發(fā)者最開(kāi)始未能預(yù)測(cè)的、更復(fù)雜的能力特性,即“涌現(xiàn)”的能力。另外,GPT背后還有大量的工程考慮,比如基于任務(wù)的模型微調(diào)、提示詞工程、人類(lèi)意圖對(duì)齊等等。
網(wǎng)絡(luò)大模型
網(wǎng)絡(luò)大模型的主要應(yīng)用
現(xiàn)今,開(kāi)源和閉源的基礎(chǔ)大模型已經(jīng)觸手可及,將大模型適配網(wǎng)絡(luò)應(yīng)用的研究更是如火如荼。接下來(lái),本文將從網(wǎng)絡(luò)領(lǐng)域已有數(shù)據(jù)的角度把大模型應(yīng)用分為六類(lèi),并簡(jiǎn)要分析前沿研究進(jìn)展。
網(wǎng)絡(luò)知識(shí)問(wèn)答:網(wǎng)絡(luò)知識(shí)也屬于世界知識(shí),網(wǎng)絡(luò)知識(shí)題庫(kù)是很好的已有的高質(zhì)量任務(wù)數(shù)據(jù)集,因此,一個(gè)直白的做法是,用多選題等方法對(duì)各種基礎(chǔ)模型進(jìn)行測(cè)評(píng),查看其是否掌握、掌握了多少的網(wǎng)絡(luò)領(lǐng)域知識(shí),以及探討如何通過(guò)微調(diào)、提示詞等方法釋放基礎(chǔ)模型在網(wǎng)絡(luò)領(lǐng)域的能力。
比如文獻(xiàn) ^[1]^ 中構(gòu)建了包含一萬(wàn)條問(wèn)答題的TeleQnA數(shù)據(jù)集來(lái)評(píng)估大語(yǔ)言模型對(duì)電信領(lǐng)域知識(shí)的掌握程度,文獻(xiàn) ^[2]^ 中,包含5732個(gè)多選題的NetEval數(shù)據(jù)集被用來(lái)評(píng)估比較了26種開(kāi)源的大語(yǔ)言模型。此外,問(wèn)答的能力還可被廣泛用于運(yùn)營(yíng)商智能客服、以及網(wǎng)絡(luò)從業(yè)人員的教育培訓(xùn)。
網(wǎng)絡(luò)代碼生成:另一個(gè)直白的做法是用大模型來(lái)生成網(wǎng)絡(luò)領(lǐng)域的工程代碼,比如Python腳本以及linux命令行。此外,通過(guò)調(diào)用各種代碼庫(kù),還能直接生成用于網(wǎng)絡(luò)拓?fù)洹⒕W(wǎng)絡(luò)算法等的基礎(chǔ)代碼。圖是網(wǎng)絡(luò)中十分標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),文獻(xiàn) ^[3]^ 中提出用大語(yǔ)言模型生成的代碼分析和管理網(wǎng)絡(luò)拓?fù)鋱D,比如添加鏈路或者節(jié)點(diǎn)地址分類(lèi)。文獻(xiàn) ^[4]^ 還提出了利用大語(yǔ)言模型來(lái)復(fù)現(xiàn)網(wǎng)絡(luò)研究論文的代碼的想法,并在小規(guī)模的實(shí)驗(yàn)中證明了可行性。
網(wǎng)絡(luò)協(xié)議分析:網(wǎng)絡(luò)協(xié)議是網(wǎng)絡(luò)設(shè)備研發(fā)和網(wǎng)絡(luò)系統(tǒng)運(yùn)行的基礎(chǔ),面對(duì)海量的錯(cuò)綜復(fù)雜的RFC文檔,亟需自動(dòng)化的協(xié)議理解能力。然而,不同于普通的文本,協(xié)議中包含了規(guī)則、狀態(tài)、通信流、數(shù)據(jù)流圖、消息結(jié)構(gòu)等協(xié)議實(shí)體,給模型推理的準(zhǔn)確度帶來(lái)很大的挑戰(zhàn)。文獻(xiàn) ^[5]^ 利用zero-shot和few-shot等方法評(píng)估了GPT-3.5-turbo從RFC文檔中提取有限狀態(tài)機(jī)的能力。
此外,當(dāng)前的協(xié)議設(shè)計(jì)流程極其緩慢,且涉及復(fù)雜的交互過(guò)程和配置參數(shù),比如MAC協(xié)議,必須針對(duì)具體目的和場(chǎng)景進(jìn)行定制,例如提高吞吐量、降低功耗、保證公平性等。特別是在異構(gòu)網(wǎng)絡(luò)部署場(chǎng)景下,每個(gè)無(wú)線(xiàn)接入網(wǎng),例如5G-NR、Wi-Fi、藍(lán)牙、Zigbee,甚至衛(wèi)星接入網(wǎng),都有自己的協(xié)議和屬性,例如考慮容量、延遲、覆蓋程度、安全性、功耗和成本等屬性??紤]到未來(lái)網(wǎng)絡(luò)更加復(fù)雜和多樣化的設(shè)置,每個(gè)設(shè)備上也許能部署一個(gè)網(wǎng)絡(luò)協(xié)議大模型,通過(guò)自適應(yīng)環(huán)境來(lái)自動(dòng)生成合適的協(xié)議,并將人類(lèi)從繁重的協(xié)議設(shè)計(jì)工作中解放出來(lái)。
網(wǎng)絡(luò)配置生成:網(wǎng)絡(luò)中有大量異構(gòu)設(shè)備,例如交換機(jī)、路由器和中間件。由于廠(chǎng)商和設(shè)備型號(hào)各有不同,需要大量專(zhuān)業(yè)人員來(lái)學(xué)習(xí)設(shè)備手冊(cè)和用戶(hù)手冊(cè)、收集合適的命令、驗(yàn)證配置模板、以及將模板參數(shù)映射到控制器數(shù)據(jù)庫(kù)。在此過(guò)程中,即使是單個(gè)ACL配置錯(cuò)誤也可能導(dǎo)致網(wǎng)絡(luò)中斷。
考慮到不斷增長(zhǎng)的異構(gòu)云網(wǎng)絡(luò)以及大量需要管理的計(jì)算和存儲(chǔ)設(shè)備,統(tǒng)一的自然語(yǔ)言配置界面對(duì)于簡(jiǎn)化配置過(guò)程和實(shí)現(xiàn)自配置網(wǎng)絡(luò)至關(guān)重要。異構(gòu)的網(wǎng)絡(luò)配置數(shù)據(jù)包括低級(jí)別的ACL規(guī)則、CLI命令行,以及封裝的YANG Model、XML、JSON等數(shù)據(jù)格式規(guī)范,文獻(xiàn) ^[6]^ 中基于BERT模型實(shí)現(xiàn)了異構(gòu)廠(chǎng)商設(shè)備的自動(dòng)化管理,即直接從各類(lèi)設(shè)備手冊(cè)中學(xué)習(xí)并生成統(tǒng)一的網(wǎng)絡(luò)配置數(shù)據(jù)模型。
網(wǎng)絡(luò)流量生成:網(wǎng)絡(luò)流量集對(duì)于網(wǎng)絡(luò)仿真、網(wǎng)絡(luò)測(cè)量、攻擊探測(cè)、異常流量檢測(cè)、逆向協(xié)議解析等任務(wù)至關(guān)重要,然而常常真實(shí)的流量因?yàn)殡[私問(wèn)題無(wú)法獲得,而手動(dòng)構(gòu)造的流量集(比如泊松分布)又在保真度和多樣化方面有很大的欠缺。生成式AI具有很好的“泛化”能力,即能夠?qū)W到已有數(shù)據(jù)分布并生成相似分布的數(shù)據(jù),可以被用來(lái)生成具有不同特征(比如特定IP地址段、端口分布、不同協(xié)議類(lèi)型、包大小分布、到達(dá)間隔、持續(xù)時(shí)間、流分布)的網(wǎng)絡(luò)流量集,文獻(xiàn) ^[7],[8],[9]^ 分別基于Transformer,GAN,和Diffusion Models架構(gòu)實(shí)現(xiàn)了上述目標(biāo)。
網(wǎng)絡(luò)診斷報(bào)告:故障排查對(duì)于網(wǎng)絡(luò)運(yùn)營(yíng)商來(lái)說(shuō)是一項(xiàng)繁瑣而繁重的工作。特別是在大規(guī)模廣域網(wǎng)絡(luò)中,需要跨地域的不同部門(mén)之間的協(xié)調(diào),而網(wǎng)絡(luò)用戶(hù)仍會(huì)遭受突然的網(wǎng)絡(luò)故障或性能下降,并面臨數(shù)億美元的經(jīng)濟(jì)損失。通過(guò)將大語(yǔ)言模型集成到網(wǎng)絡(luò)診斷系統(tǒng)中,大語(yǔ)言模型能夠根據(jù)網(wǎng)絡(luò)狀態(tài)信息生成故障報(bào)告,加速故障定位,并根據(jù)報(bào)告分析和歷史運(yùn)行數(shù)據(jù)給出合理的處理建議。
雖然網(wǎng)絡(luò)系統(tǒng)中有大量的Log日志、操作記錄和告警報(bào)錯(cuò)信息,但這些非結(jié)構(gòu)化的數(shù)據(jù)很難被直接用于訓(xùn)練。最近,文獻(xiàn) ^[10]^ 設(shè)計(jì)了從用戶(hù)到工作流(workflow)到數(shù)據(jù)的對(duì)話(huà)式網(wǎng)絡(luò)診斷系統(tǒng),能夠?qū)⒂脩?hù)意圖映射到工作模板,并從網(wǎng)絡(luò)底層獲取網(wǎng)絡(luò)狀態(tài)信息來(lái)填充模板作為診斷反饋答案。此外,產(chǎn)業(yè)界中也有比如Juniper提出了Marvis虛擬網(wǎng)絡(luò)助手 ^[11]^ 來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)自動(dòng)化運(yùn)維管理。
網(wǎng)絡(luò)大模型的關(guān)鍵技術(shù)
實(shí)現(xiàn)以上應(yīng)用并非易事,從相關(guān)文獻(xiàn)可以看到,由于網(wǎng)絡(luò)領(lǐng)域存在區(qū)別于純文本的規(guī)則、公式、協(xié)議、約束、數(shù)學(xué)、符號(hào),直接使用基礎(chǔ)模型效果往往差強(qiáng)人意,需要很多額外的工程工作。
首先,部分網(wǎng)絡(luò)領(lǐng)域知識(shí)可能未被基礎(chǔ)模型學(xué)到,容易導(dǎo)致模型產(chǎn)生“幻覺(jué)”,比如某些網(wǎng)絡(luò)領(lǐng)域?qū)S忻~和協(xié)議規(guī)則,需要通過(guò)微調(diào)的方式,比如參數(shù)高效的部分微調(diào)方式和LoRA低秩矩陣,來(lái)增強(qiáng)模型對(duì)網(wǎng)絡(luò)知識(shí)的理解。微調(diào)的哲學(xué)在于既要為模型引入網(wǎng)絡(luò)領(lǐng)域知識(shí),又要保留模型原本學(xué)到的世界知識(shí)。
其次,用戶(hù)意圖模糊會(huì)導(dǎo)致輸入不準(zhǔn)確,且許多網(wǎng)絡(luò)任務(wù)很難用簡(jiǎn)單的語(yǔ)言進(jìn)行表述,因此,需要基于提示詞工程,比如zero-shot, few-shot, 思維鏈,以及RAG檢索增強(qiáng)技術(shù),來(lái)構(gòu)合適的prompt和網(wǎng)絡(luò)任務(wù)基準(zhǔn)測(cè)試集;比如思維鏈可以鼓勵(lì)大模型采用逐步的推理過(guò)程來(lái)將復(fù)雜的問(wèn)題拆解為多個(gè)簡(jiǎn)單子問(wèn)題,以及通過(guò)上傳相關(guān)技術(shù)文檔供模型檢索來(lái)縮小任務(wù)范圍并提高推理精度。除了推理精度和推理速度,為了量化網(wǎng)絡(luò)大模型的能力,相關(guān)的網(wǎng)絡(luò)任務(wù)層面的屬性和指標(biāo),比如回答正確率,任務(wù)完成度,生成結(jié)果與最優(yōu)結(jié)果之間的數(shù)學(xué)距離,也待被提出和研究。
另外,考慮到網(wǎng)絡(luò)領(lǐng)域存在大量難以被直接用于訓(xùn)練的非結(jié)構(gòu)化數(shù)據(jù),引入Agent技術(shù)是一個(gè)當(dāng)前的熱門(mén)方向,即通過(guò)API等方式,將大語(yǔ)言模型與網(wǎng)絡(luò)工具(仿真軟件、監(jiān)測(cè)系統(tǒng)、安全工具、控制器、求解器、搜索引擎)做集成,讓網(wǎng)絡(luò)大模型學(xué)會(huì)使用網(wǎng)絡(luò)工具,彌補(bǔ)模型在規(guī)劃、計(jì)算、求解等方面的短板,最終實(shí)現(xiàn)“網(wǎng)絡(luò)具身智能”。更多技術(shù)細(xì)節(jié)可參考文獻(xiàn) ^[12]^ 。下一篇將介紹網(wǎng)絡(luò)大模型的第二種能力,即泛化的序列“決策”能力。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28553瀏覽量
207656 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7586瀏覽量
89001 -
人工智能
+關(guān)注
關(guān)注
1792文章
47477瀏覽量
239160 -
大模型
+關(guān)注
關(guān)注
2文章
2499瀏覽量
2914
原文標(biāo)題:秒懂網(wǎng)絡(luò)大模型之基于世界知識(shí)的預(yù)測(cè)能力
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論