作者:張宏江 ?
繼ChatGPT之后,Sora模型的出現(xiàn)再次激發(fā)了各行各業(yè)對(duì)AI的熱情。面對(duì)術(shù)語(yǔ)的日新月異,個(gè)人和企業(yè)應(yīng)用的紛繁涌現(xiàn),以及商業(yè)模式的持續(xù)重構(gòu),大模型能夠展現(xiàn)出驚人的能力并迅速影響社會(huì),這背后有著更深刻的原因。在近日舉辦的“亞布力中國(guó)企業(yè)家論壇年會(huì)”上,智源研究院學(xué)術(shù)顧問(wèn)委員會(huì)主任張宏江發(fā)表了閉幕式演講,分享了他對(duì)大模型技術(shù)發(fā)展的八點(diǎn)觀察。
第一,大模型取得突破的核心是Scaling Law
2017年問(wèn)世的Transformer架構(gòu),是大模型取得突破的技術(shù)基礎(chǔ),以此為代表的一系列技術(shù)創(chuàng)新,奠定了人工智能“算力+數(shù)據(jù)+算法”結(jié)合的發(fā)展路線,引領(lǐng)人工智能從1.0時(shí)代,跨入了 2.0時(shí)代。未來(lái)我們還將見(jiàn)證,人工智能將繼續(xù)沿續(xù)這一路徑發(fā)展,走向通用人工智能的宏偉目標(biāo)。而大模型的成功,不單是算法創(chuàng)新的勝利,更是系統(tǒng)研究的偉大進(jìn)步。
在大模型的發(fā)展史上,Scaling Law(規(guī)模律)發(fā)揮了核心作用,它是推動(dòng)模型性能持續(xù)提升的主要?jiǎng)恿?。Scaling Law揭示了這樣一個(gè)現(xiàn)象:較小的語(yǔ)言模型只能解決自然語(yǔ)言處理(NLP)中的部分問(wèn)題,但隨著模型規(guī)模擴(kuò)大——參數(shù)數(shù)量增加至數(shù)十億甚至數(shù)百億,曾經(jīng)在NLP領(lǐng)域中的棘手難題往往能得到有效解決。這一規(guī)律不僅已被現(xiàn)實(shí)證實(shí),而且預(yù)計(jì)將在未來(lái)繼續(xù)引領(lǐng)技術(shù)突破。
圖1 Scaling Law——規(guī)模的魔力,以PaLM為例,規(guī)模擴(kuò)大至5400億參數(shù),模型性能突飛猛進(jìn)
當(dāng)模型規(guī)模較小時(shí),各方面性能隨參數(shù)的提升趨勢(shì)較為平緩;隨著模型規(guī)模不斷擴(kuò)大并超過(guò)某個(gè)拐點(diǎn),其性能隨參數(shù)增加而陡然上升。這就是模型規(guī)模擴(kuò)大帶來(lái)的能力涌現(xiàn),也是過(guò)去數(shù)年間研究人員不懈追求擴(kuò)大模型規(guī)模的重要原因。此外,數(shù)據(jù)規(guī)模和質(zhì)量也至關(guān)重要——研究者要重視數(shù)據(jù)的規(guī)模,而同樣規(guī)模的數(shù)據(jù),高質(zhì)量的數(shù)據(jù)會(huì)訓(xùn)練出更好的模型。
圖2 a. 當(dāng)模型參數(shù)規(guī)模增大時(shí)精度預(yù)期也會(huì)改善。b. 參數(shù)規(guī)模增速:2018年以來(lái),每4.2個(gè)月實(shí)現(xiàn)翻番
第二,大模型是新的操作系統(tǒng)和計(jì)算體系
在傳統(tǒng)的計(jì)算機(jī)使用中,人輸入數(shù)據(jù),計(jì)算機(jī)進(jìn)行運(yùn)算并輸出結(jié)果,這構(gòu)成了計(jì)算機(jī)與人交互的本質(zhì)。今天的大模型以更簡(jiǎn)易、更便捷的方式實(shí)現(xiàn)了上述功能——人們不再需要編程或打字,只需與GPT進(jìn)行交流,它就能按照人們的想法執(zhí)行命令,這表明大模型已經(jīng)起到了“操作系統(tǒng)”的作用。
作為操作系統(tǒng),模型簡(jiǎn)化了人們調(diào)用應(yīng)用程序的過(guò)程。正如微信小程序幫助人們減省了在App Store下載應(yīng)用的過(guò)程,大模型甚至省去了搜索小程序的過(guò)程。例如,人們只需告訴大模型,畫(huà)一個(gè)亞布力的美景,它就可以畫(huà)出亞布力各種角度的美景,甚至生成視頻。因此隨著大模型的應(yīng)用日益廣泛,App這種形態(tài)可能會(huì)消失,甚至連小程序也會(huì)被淘汰。
從另一個(gè)角度看,大模型作為一種新的操作系統(tǒng),也給計(jì)算體系帶來(lái)了巨大的轉(zhuǎn)變,即從原來(lái)的以CPU為核心轉(zhuǎn)變?yōu)橐?a href="http://wenjunhu.com/tags/gpu/" target="_blank">GPU并行處理為核心。這種體系轉(zhuǎn)變會(huì)帶來(lái)新的核心技術(shù)和新的玩家。近日英偉達(dá)發(fā)布財(cái)報(bào)后,股票上漲了15%,也印證了過(guò)去CPU時(shí)代的Wintel體系會(huì)被當(dāng)今的大模型和GPU體系所取代。
圖3 大模型是新的操作系統(tǒng),計(jì)算體系從CPU為核心轉(zhuǎn)變?yōu)镚PU為核心
第三,大模型作為新的平臺(tái),會(huì)帶來(lái)新的生態(tài)
大模型正在重塑計(jì)算生態(tài)。傳統(tǒng)計(jì)算生態(tài)的基礎(chǔ)設(shè)施層是芯片,模型則建立在云平臺(tái)之上。如今,AI領(lǐng)域的許多玩家通過(guò)云服務(wù)調(diào)用大模型的API,這種做法昭示著大模型作為一種平臺(tái)、一種服務(wù)的特性。
這就是為什么OpenAI每發(fā)布一個(gè)新功能,上線一組新代理,做大模型應(yīng)用的廠家就會(huì)擔(dān)心自己的業(yè)務(wù)被它“吸進(jìn)去”,正如當(dāng)初微軟Windows對(duì)軟件廠商業(yè)務(wù)帶來(lái)的威脅和挑戰(zhàn)。這種擔(dān)心印證了模型即平臺(tái)、模型即應(yīng)用、模型即產(chǎn)品。
圖4 大模型:新平臺(tái),新生態(tài)
未來(lái),大模型作為一個(gè)平臺(tái)必將重新賦能所有應(yīng)用,迫使人們重寫(xiě)過(guò)去的軟件。這就是今天的互聯(lián)網(wǎng)公司紛紛投入大量資源開(kāi)發(fā)自己的大模型的原因,因?yàn)樵谖磥?lái),沒(méi)有大模型的互聯(lián)網(wǎng)公司將不再被視為平臺(tái)公司。這也是亞馬遜顯示出落伍跡象,市值被后起之秀超越的原因所在。
第四,大模型性能是大規(guī)模商業(yè)落地的關(guān)鍵
隨著大模型熱度日益高漲,許多人嘗試從應(yīng)用出發(fā)做一個(gè)垂直小模型,但這種做法行不通。如果模型的能力不足以支撐大規(guī)模應(yīng)用場(chǎng)景,其流行可能僅是曇花一現(xiàn),之后便會(huì)面臨用戶(hù)數(shù)量的急劇下降。就像30年前蘋(píng)果公司推出一個(gè)名為“牛頓”的小型Pad產(chǎn)品,彼時(shí)被認(rèn)為具有革命性,但很快人們就發(fā)現(xiàn),它的手寫(xiě)和語(yǔ)音識(shí)別兩個(gè)關(guān)鍵技術(shù)都都無(wú)法支撐新設(shè)備,因此該產(chǎn)品很快被撤掉了。
圖5 大模型性能是大規(guī)模商業(yè)落地的關(guān)鍵
今天的大模型在智能客服、文本生產(chǎn)、辦公Copilot等場(chǎng)景均呈現(xiàn)出廣泛的應(yīng)用潛力,但是如果大模型在執(zhí)行任務(wù)時(shí)錯(cuò)誤率過(guò)高,或者幻覺(jué)(hallucination)問(wèn)題始終難以解決,很快就會(huì)走向用戶(hù)大量流失帶來(lái)的波谷,基于大模型的應(yīng)用層也會(huì)變得差強(qiáng)人意,由此衍生的商業(yè)模式終將難以為繼。因此,持續(xù)改善大模型性能是實(shí)現(xiàn)大規(guī)模商業(yè)落地的關(guān)鍵。
第五,大模型將同時(shí)推動(dòng)存量和新增應(yīng)用
隨著大模型能力的迅猛發(fā)展和持續(xù)突破,許多此前計(jì)算機(jī)僅能勉強(qiáng)輔助的工作,如今大模型已經(jīng)可以勝任。ChatGPT發(fā)布一年多以來(lái),大模型在辦公、視頻生成、醫(yī)療等各類(lèi)應(yīng)用場(chǎng)景下的生產(chǎn)效率已經(jīng)得到了大幅提升,進(jìn)展速度遠(yuǎn)超AI 1.0時(shí)代。未來(lái),我們將見(jiàn)證大模型推動(dòng)一系列原生應(yīng)用快速落地并創(chuàng)造價(jià)值。
這些原生應(yīng)用何時(shí)會(huì)產(chǎn)生,能否抓住投資機(jī)會(huì),是讓投資者和從業(yè)者倍感焦慮的問(wèn)題?;仡櫄v史,無(wú)論P(yáng)C時(shí)代還是移動(dòng)互聯(lián)網(wǎng)時(shí)代,在技術(shù)快速迭代和平緩發(fā)展的時(shí)期,都曾涌現(xiàn)出極具潛力的產(chǎn)品。大模型時(shí)代的情況也會(huì)與此類(lèi)似,因而不必過(guò)分焦慮,市場(chǎng)參與者一方面要快速消化大模型所帶來(lái)的種種沖擊;另一方面,應(yīng)該專(zhuān)注于自己現(xiàn)有的業(yè)務(wù),看一看當(dāng)大模型性能成熟時(shí),這些業(yè)務(wù)會(huì)發(fā)生多么大的改變。
圖6 大模型將同時(shí)推動(dòng)存量和新增應(yīng)用
大模型不僅會(huì)催生一系列原生應(yīng)用和AI創(chuàng)業(yè)公司,同時(shí)也將推動(dòng)存量市場(chǎng)的增值和發(fā)展。正如從PC互聯(lián)網(wǎng)轉(zhuǎn)移到移動(dòng)互聯(lián)網(wǎng)的過(guò)程中,存量巨頭的市值增長(zhǎng),遠(yuǎn)大于新生公司的市值總和。
放眼未來(lái),我們有理由相信,大模型帶來(lái)的效率提升必將賦能新的應(yīng)用場(chǎng)景,同時(shí)推動(dòng)存量市場(chǎng)的增長(zhǎng)與原生應(yīng)用的創(chuàng)收,從而帶來(lái)整體市值的增長(zhǎng)。此外,AI時(shí)代原生應(yīng)用的核心特征,是人與機(jī)器的自然交互,因此大模型本身即是AI時(shí)代最大的原生應(yīng)用,我們可以期待這一超級(jí)應(yīng)用的出現(xiàn)。
第六,多模態(tài)大模型是AGI的終極模型
隨著Sora模型的出圈,多模態(tài)模型開(kāi)始引燃各行各業(yè)。不同于傳統(tǒng)語(yǔ)言模型僅將語(yǔ)料作為token,多模態(tài)模型的訓(xùn)練方式是將視頻、語(yǔ)音和圖像等多模態(tài)數(shù)據(jù)作為token,訓(xùn)練出能夠理解物理世界的大模型。
請(qǐng)Sora根據(jù)描述生成一段SUV在山路上行進(jìn)的畫(huà)面,結(jié)果令人震撼,車(chē)在山路上的奔馳能夠完全遵守交通規(guī)則,拐彎也輕松自如,在沒(méi)有路徑圖和3D建模的情況下,模型完全靠“自學(xué)”模擬了這一影像。這需要模型對(duì)于物理世界的理解,可以說(shuō)Sora的出現(xiàn),意味著能夠理解、描述和模擬現(xiàn)實(shí)世界的“世界模型”取得了突破,也讓我們對(duì)于走向AGI更有信心。
文生視頻是Sora最令人驚嘆和備受矚目的功能,但事實(shí)上多模態(tài)模型的能力范疇不止于文生圖、文生視頻,更包括對(duì)圖片或視頻的理解和闡釋——多模態(tài)模型應(yīng)同時(shí)具備正向的生成與反向的理解能力。誠(chéng)如美國(guó)物理學(xué)家理查德·費(fèi)曼的箴言所揭示:“What I cannot create, I do not understand”。只有大模型真正理解物理世界,才能更好地創(chuàng)造和模擬。
如何訓(xùn)練這樣的模型?打個(gè)比方,飛行員學(xué)習(xí)駕駛飛機(jī)需要先在模擬駕駛艙中訓(xùn)練很長(zhǎng)的時(shí)間,模擬駕駛艙是由空間模型和飛機(jī)動(dòng)力學(xué)模擬形成,飛行員先從模擬的數(shù)據(jù)中學(xué)習(xí)一切操作再應(yīng)用到現(xiàn)實(shí)駕駛當(dāng)中。同樣的道理,我們可以通過(guò)觀察和描述物理世界產(chǎn)生新的訓(xùn)練數(shù)據(jù),從而訓(xùn)練出能夠理解和模擬物理世界的大模型。
按照這個(gè)邏輯,談及未來(lái)應(yīng)用,多模態(tài)大模型很可能重新改寫(xiě)自動(dòng)駕駛系統(tǒng)。過(guò)去,所有自動(dòng)駕駛公司每到一個(gè)新的城市,必須花費(fèi)3到6個(gè)月時(shí)間重新掃描這個(gè)城市的所有街道,未來(lái)這項(xiàng)工作可以由多模態(tài)大模型代勞。
第七,多模態(tài)大模型驅(qū)動(dòng)通用機(jī)器——從簡(jiǎn)單指令到自我規(guī)劃
除了語(yǔ)言模型和多模態(tài)大模型,以機(jī)器人為核心的具身模型也是當(dāng)今研究的重點(diǎn)方向。通過(guò)多模態(tài)模型和機(jī)器人的結(jié)合,能夠增強(qiáng)機(jī)器人理解和描述周邊世界的能力,從而使其能夠自主地做出行動(dòng),這就是通用機(jī)器人的未來(lái)。
例如,在訓(xùn)練機(jī)械手打開(kāi)微波爐的任務(wù)中,傳統(tǒng)機(jī)械手可能難以應(yīng)對(duì)微波爐門(mén)鎖的操作。而引入多模態(tài)大模型后,機(jī)械手可以通過(guò)與模型的交互,學(xué)習(xí)操作手冊(cè),從而掌握打開(kāi)微波爐前需要先按下解鎖按鈕的步驟。從這個(gè)角度講,未來(lái)的機(jī)器人不僅能夠執(zhí)行已經(jīng)被訓(xùn)練的任務(wù),還可以通過(guò)大模型的加持,完成之前沒(méi)有經(jīng)過(guò)訓(xùn)練,但是能夠通過(guò)自主學(xué)習(xí)理解的任務(wù)。在大模型的帶動(dòng)下,機(jī)器人將完成從簡(jiǎn)單指令到自我規(guī)劃的能力躍遷,這個(gè)過(guò)程讓研究者看到了實(shí)現(xiàn)通用機(jī)器人的可能性。
圖9 ?多模態(tài)大模型驅(qū)動(dòng)通用機(jī)器: 從簡(jiǎn)單指令到自我規(guī)劃
第八,“奇點(diǎn)”來(lái)臨,未來(lái)將是自主智能的世界
隨著語(yǔ)言模型、視覺(jué)模型和機(jī)器人具身模型的日臻成熟,人們對(duì)實(shí)現(xiàn)通用機(jī)器人的預(yù)期時(shí)間,已經(jīng)由超過(guò)十年縮減至五年以?xún)?nèi),我們不久后將見(jiàn)證下一代自主行動(dòng)系統(tǒng)的誕生。
三十年前,當(dāng)“深藍(lán)”擊敗俄羅斯棋王卡斯帕羅夫,他意識(shí)到計(jì)算機(jī)能夠幫助人類(lèi)提升棋藝——這是人工智能的Copilot階段。當(dāng)技術(shù)進(jìn)化到AlphaZero,計(jì)算機(jī)不再使用人類(lèi)的棋譜,而是按照自己的算法、規(guī)則和目標(biāo)函數(shù)來(lái)下棋,能夠使用人類(lèi)大師無(wú)法理解的招數(shù)出奇制勝。在AI面前,人類(lèi)兩千年的智慧積淀已經(jīng)顯得微不足道。人類(lèi)很難再在棋類(lèi)贏AlphaZero,這表明Copilot會(huì)隨著AI技術(shù)的發(fā)展而被取代。
圖10 歷史來(lái)看,Copilot將會(huì)被迅速替代
AlphaZero的出現(xiàn)還表明,在部分應(yīng)用場(chǎng)景中,機(jī)器已經(jīng)有了上帝視角——人類(lèi)只看到一個(gè)小山丘或山谷,而“上帝”則看到了整個(gè)地貌。
在《奇點(diǎn)來(lái)臨》一書(shū)中,“奇點(diǎn)”(Singularity)一詞是指當(dāng)技術(shù)發(fā)展的速度超過(guò)了人類(lèi)的平均學(xué)習(xí)能力時(shí),機(jī)器能夠比人類(lèi)更好地完成新任務(wù),任何需要平均IQ、平均技能的任務(wù)會(huì)被機(jī)器所取代。如今大模型所具備的極強(qiáng)的學(xué)習(xí)與推理能力,昭示著“奇點(diǎn)”即將到來(lái)。
圖11 奇點(diǎn)即將來(lái)臨?
展望未來(lái),企業(yè)提高生產(chǎn)力和實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)可能將不再依賴(lài)雇傭更多或更強(qiáng)能力的員工,而是購(gòu)買(mǎi)更多算力和使用更強(qiáng)大的自主智能體。這可能是我們即將迎接的未來(lái),一個(gè)我們必須去想象的未來(lái)。正如《未來(lái)簡(jiǎn)史》作者所說(shuō),未來(lái)的世界可能只有3%的神人,而剩下的97%將是閑人。今天,大模型已經(jīng)讓我們看到了這個(gè)未來(lái)的可能性。
審核編輯:黃飛
評(píng)論
查看更多