本文根據(jù)瀾舟科技創(chuàng)始人兼 CEO 周明、瀾舟大模型技術(shù)負(fù)責(zé)人王宇龍在「瀾舟NLP分享會」演講整理,帶領(lǐng)大家回顧過去 12 個月以來,國內(nèi)外大模型的發(fā)展趨勢,包括百花齊放的國產(chǎn)大模型、新秀不斷涌現(xiàn)的多模態(tài)模型、萌芽中的通用能力模型等等,并對大模型新應(yīng)用、預(yù)訓(xùn)練框架等方面的進展進行了總結(jié)。
大模型技術(shù)發(fā)展背景
此前十余年,人工智能在“感知智能”方面進展非常迅速,涌現(xiàn)了“CV 四小龍”等公司。在 2017 年,谷歌提出了 Transformer 架構(gòu),隨后 BERT 、GPT 等預(yù)訓(xùn)練模型相繼提出,2019 年基于預(yù)訓(xùn)練模型的算法在閱讀理解方面超過了人類的水平,此后 NLP 技術(shù)在各項任務(wù)中都有了大幅度的提升。
AI 從感知智能向認(rèn)知智能邁進
我們今天看到了一個明顯的趨勢就是 AI 正從感知智能快速向認(rèn)知智能邁進。AI 正從“能聽、會說、會看”的感知智能,走向“能思考、能回答問題、能總結(jié)、做翻譯、做創(chuàng)作”的認(rèn)知智能,甚至走到“決策、推理”層面了。
圖 1
如圖 1 右側(cè)所示,認(rèn)知智能的例子比比皆是。比如,達到了接近人類水準(zhǔn)的機器翻譯已經(jīng)在手機和桌面普遍使用;聊天機器人幾乎可以通過圖靈測試;搜索引擎得益于閱讀理解以及預(yù)訓(xùn)練模型,搜索相關(guān)度大幅度提升;自動客服系統(tǒng)已經(jīng)普及;知識圖譜在金融等領(lǐng)域得到快速應(yīng)用。這些認(rèn)知智能的能力在加速推動產(chǎn)業(yè)發(fā)展,從大數(shù)據(jù)出發(fā)到建立信息檢索,再到建立知識圖譜并實現(xiàn)知識推理,再到發(fā)現(xiàn)趨勢形成觀點和洞見,認(rèn)知智能在大數(shù)據(jù)支持下,推動著企業(yè)的業(yè)務(wù)數(shù)智化,正深刻地影響產(chǎn)業(yè)的發(fā)展??梢哉f NLP 和認(rèn)知智能代表了人工智能的未來發(fā)展。
預(yù)訓(xùn)練成為了認(rèn)知智能的核心技術(shù)
剛才說到 2017 年推出的 Transformer,催生了 BERT、GPT、T5 等預(yù)訓(xùn)練模型。這些模型基于自監(jiān)督學(xué)習(xí),利用大規(guī)模文本學(xué)習(xí)一個語言模型。在此基礎(chǔ)上,針對每一個NLP 任務(wù),用有限的標(biāo)注數(shù)據(jù)進行微調(diào)。這種遷移學(xué)習(xí)技術(shù)推動了 NLP 發(fā)展,各項任務(wù)都上了一個大臺階。更為重要的是,產(chǎn)生的“預(yù)訓(xùn)練+微調(diào)”技術(shù),可用一套技術(shù)解決不同語言和不同的 NLP 任務(wù),有效地提升了開發(fā)效率。這標(biāo)志著 NLP 進入到工業(yè)化實施階段。
圖2
當(dāng)前在預(yù)訓(xùn)練模型領(lǐng)域較為關(guān)注的研究重點包括:如何訓(xùn)練超大規(guī)模參數(shù)的模型、對已有模型架構(gòu)的創(chuàng)新性研究、更加有效的訓(xùn)練方法和訓(xùn)練加速的方法。還有簡化微調(diào)的步驟,比如像 GPT-3 那樣用一套提示機制來統(tǒng)一所有下游任務(wù)的微調(diào),推動零樣本學(xué)習(xí)和小樣本學(xué)習(xí)。除此之外,多模態(tài)預(yù)訓(xùn)練模型和推理加速方法也是目前的研究焦點。
NLP領(lǐng)域需要挑戰(zhàn)產(chǎn)品創(chuàng)新和商業(yè)模式創(chuàng)新
人們常說創(chuàng)新有三個層次,一個是科研的創(chuàng)新,第二個是產(chǎn)品的創(chuàng)新,第三是商業(yè)模式的創(chuàng)新。
我個人認(rèn)為預(yù)訓(xùn)練模型是目前最具顛覆性的科技創(chuàng)新??墒窃賯ゴ蟮目萍紕?chuàng)新也要考慮如何推動產(chǎn)品的創(chuàng)新和商業(yè)模式的創(chuàng)新。如何從工業(yè)界觀點來看,把科技創(chuàng)新貫穿到產(chǎn)品創(chuàng)新,貫穿到商業(yè)模式的創(chuàng)新呢?也就是說如何實現(xiàn)認(rèn)知智能的落地?
圖 3
這里我跟大家分享如下四個觀點。
模型訓(xùn)練。首先需要積累各類互聯(lián)網(wǎng)數(shù)據(jù)、包括單語和雙語數(shù)據(jù)、行業(yè)數(shù)據(jù)。通過實體、關(guān)系和時間序列抽取建立知識圖譜。與此同時,建立大規(guī)模的預(yù)訓(xùn)練模型支持單語、多語、多模態(tài)等各項任務(wù),并進而支持搜索、文本理解、生成、翻譯、語音、圖像、視頻等各項應(yīng)用。
模型快速適配。要有能力針對某一個行業(yè)需求,快速訓(xùn)練所需的模型。鑒于大模型在落地的時候部署代價大,需要考慮模型壓縮和輕量化。為了解決 NLP 開發(fā)碎片化問題,建立一套基于預(yù)訓(xùn)練和微調(diào)機制的技術(shù)平臺支撐所有語言、所有領(lǐng)域和任務(wù)的研發(fā)和維護。
柔性AI智能云服務(wù)。需要開發(fā)柔性AI智能云技術(shù),使得用戶以傻瓜型“拖拉拽”操作方式,“所見即所得”地實現(xiàn)自己的功能,并提供隨著用戶用量靈活調(diào)度云資源的彈性服務(wù)。
多樣化的服務(wù)。通過開源方式提供普惠服務(wù),并建立起品牌和口碑;通過SaaS提供付費服務(wù);通過深度訂制對重要客戶提供優(yōu)質(zhì)服務(wù)。
這里特別提一下瀾舟科技在預(yù)訓(xùn)練模型方面的研究。2021 年 7月,瀾舟自研的孟子預(yù)訓(xùn)練模型以十億級的規(guī)模,榮獲了中文 NLP 比賽 CLUE 第一名。超過了許多大公司的大模型。它具備如下特色:
?。禾峁?100M 至 1B 參數(shù)量的多級別模型,實現(xiàn)低硬件需求和低研發(fā)成本。
精:模型結(jié)構(gòu)上引入更多知識,同樣模型體積下可有更好的表現(xiàn)。
快:可用 8 張 3090 卡約 3 天完成一個領(lǐng)域遷移(base 級),8 張 3090 卡半天完成一個任務(wù)適應(yīng)。
專:可對每個領(lǐng)域或者每個任務(wù)定制預(yù)訓(xùn)練模型。由于是專用模型,其水平可超過通用的大模型。
目前,我們開源了四個模型(孟子Mengzi-BERT 模型、孟子Mengzi-T5 模型、孟子Mengzi-金融模型、孟子Mengzi-圖文模型),并跟同花順、華夏基金等公司展開緊密合作,此外還通過剛才所說的柔性智能云——“瀾舟認(rèn)知智能平臺”來釋放我們的能力,并通過SaaS服務(wù)廣大客戶,以實現(xiàn)科技創(chuàng)新到產(chǎn)品創(chuàng)新到商業(yè)模式的創(chuàng)新全貫通。
國內(nèi)外預(yù)訓(xùn)練模型近一年的新進展
下面我就快速講一下過去 12 個月以來,預(yù)訓(xùn)練模型國內(nèi)外發(fā)展的一些新的狀況。
我試圖用一張圖按照時間順序來概括過去一年多大模型的進展。雖然我盡量概括全部,但是由于時間有限,或者水平和眼界所限,可能會漏掉某些重要的工作。
國內(nèi)大模型百花齊放
圖 4
首先我想介紹國內(nèi)的一些進展,國內(nèi)有關(guān)公司和學(xué)校的預(yù)訓(xùn)練模型研究非常令人關(guān)注(圖 4 高亮的部分)。
今年4月,華為云發(fā)布了盤古系列超大預(yù)訓(xùn)練模型,包括中文語言(NLP)、視覺(CV)大模型,多模態(tài)大模型、科學(xué)計算大模型。華為云盤古大模型旨在建立一套通用、易用的人工智能開發(fā)工作流,以賦能更多的行業(yè)和開發(fā)者,實現(xiàn)人工智能工業(yè)化開發(fā)。
清華和騰訊推出的 CokeBert,雖然模型小,但是根據(jù)上下文動態(tài)選擇適配的知識圖譜的子圖,在利用知識增強預(yù)訓(xùn)練方面(簡稱知識增強)有一定特色。
孟子是瀾舟自研的模型,走輕量化路線,覆蓋多語言和多模態(tài),理解和生成,去年 7 月在 CLUE 登頂。
中科院自動化所推出紫東太初,它是融圖、文、音三模態(tài)于一體(視覺-文本-語音)的三模態(tài)預(yù)訓(xùn)練模型,具備跨模態(tài)理解與跨模態(tài)生成能力。
智源研究院也在不斷推出新模型,覆蓋文本和多模態(tài)。
沈向洋博士領(lǐng)導(dǎo)的大灣區(qū) IDEA 研究院推出了二郎神模型,其中“二郎神-1.3B”模型在 FewCLUE 和 ZeroCLUE 上都取得榜一成績。
當(dāng)然,其他大公司也都推出了他們自己的新模型,比如阿里的 M6 采用相對低碳方式突破 10萬億,有多模態(tài)、多任務(wù);百度的 ERNIE 3.0 是融合了大量知識的預(yù)訓(xùn)練模型,既用了自回歸,也用了自編碼,使得一個模型兼具理解和生成。這里不再贅述細節(jié)。
多模態(tài)模型新秀涌現(xiàn)
圖5
圖 5 highlight 了一些新的多模態(tài)模型,比如微軟亞洲研究院提出的一個可以同時覆蓋語言、圖像和視頻的統(tǒng)一多模態(tài)預(yù)訓(xùn)練模型——NüWA(女媧),直接包攬 8 項 SOTA,還有其文檔理解的 LayoutLM 也有了新的進展。當(dāng)然谷歌的 ImageN 和 OpenAI 的 DALL-E 2,實現(xiàn)了更強大的“文一圖”生成能力,也引起廣泛關(guān)注。
通用能力模型萌芽
我也注意到,把大模型拓展可以構(gòu)建某種意義上的通用能力模型。比如,OpenAI 的 VPT 模型:在人類 Minecraft 游戲的大規(guī)模未標(biāo)記視頻數(shù)據(jù)集訓(xùn)練一個視頻預(yù)訓(xùn)練模型,來玩 Minecraft。
而 Deepmind 用預(yù)訓(xùn)練構(gòu)建了一個 AGI 智能體 Gato,它具有多模態(tài)、多任務(wù)、多具身(embodiment)特點,可以玩雅達利游戲、給圖片輸出字幕、和別人聊天、用機械臂堆疊積木等等。Gato 使用相同的訓(xùn)練模型就能玩許多游戲,而不用為每個游戲單獨訓(xùn)練。DeepMind 這項最新工作將強化學(xué)習(xí)、計算機視覺和自然語言處理這三個領(lǐng)域合到一起。
它們都試圖把大模型的概念推廣到一個相對通用的人工智能領(lǐng)域。像 Gato,它具備多模態(tài)、多任務(wù)、多具身的特點,可以玩多種游戲,用一個模型來覆蓋多個游戲,而不是說為每個游戲單獨訓(xùn)練一個模型。實際上把強化學(xué)習(xí)、計算機視覺和自然語言處理這三個領(lǐng)域試圖合在一起。
小結(jié)
總的來講,小樣本,零樣本取得了新的進展,SOTA模型的尺寸在降低,檢索增強的預(yù)訓(xùn)練模型逐漸成為主流技術(shù)。多模態(tài)模型能力提高很快,從圖、視頻、聲音、code、甚至擴展到AGI。我們也看到了很多新的應(yīng)用。
以上只是非常 high level 地概括最近預(yù)訓(xùn)練的發(fā)展,下面我們會更詳細地說明。
預(yù)訓(xùn)練之“不可能的三角”
下面具體介紹近期有亮眼進展的預(yù)訓(xùn)練模型。
大家可能都知道在分布式系統(tǒng)里有 CAP 定理,該定理指出,對于一個分布式計算系統(tǒng)來說,不可能同時滿足“一致性”、“可用性”、“分區(qū)容錯性”。類似的,去年有一篇論文提出了預(yù)訓(xùn)練模型“不可能三角”理論(圖6) ,三角形頂端分別是“合理的模型尺寸”、“先進的小樣本能力”以及“先進的微調(diào)能力”,一個模型很難兼顧這三點,大多數(shù)模型只能做到其中一點或者兼顧兩點。
圖6
比如 GPT-3 小樣本表現(xiàn)較好,但是模型較大,finetune 效果表現(xiàn)并不是那么好;BERT 和 DistillBERT 就是另外一個典型,那它們的模型尺寸可能沒有那么大,然后微調(diào)能力也很好。但是它們在小樣本和零樣本上的表現(xiàn)就是會比較差。
但是最近半年我們也看到一些改進:在保證和 GPT-3 效果相當(dāng)?shù)那疤嵯?,去減小模型參數(shù)量。下面我們分開來講。
FLAN (Google)
圖 7
Google 去年提出了 FLAN,一個基于 finetune 的 GPT 模型。它的模型結(jié)構(gòu)和 GPT 相似。但是不同于 GPT-3 的是,它基于 62 個數(shù)據(jù)集,每個數(shù)據(jù)集構(gòu)造了 10 個 Prompt 模板,也就是總共拿到 620 個模板的數(shù)據(jù)之后再進行 finetune。
我們可以看到圖 7 右側(cè),F(xiàn)LAN 的這個模型參數(shù)只有 137B,相比于 GPT-3 的 175B 有大幅降低,但是 FLAN 在一些下游任務(wù) few-shot 和 zero-shot 上表現(xiàn)卻變得更好。這給我們帶來一個啟示:我們不是必須去用像 GPT-3 級別超大規(guī)模的語言模型,而是通過更多的監(jiān)督數(shù)據(jù)(而不是純粹做無監(jiān)督的訓(xùn)練),去降低模型規(guī)模,同時拿到更好的模型效果。
當(dāng)然 FLAN 也會有些約束條件。如圖 7 左下角所示,finetune 所帶來的效果在 8B 以上的參數(shù)量才能夠?qū)崿F(xiàn)。
T0 (BigScience)
下圖是 Huggingface 發(fā)起的“BigScience” workshop 中的一項工作,該模型取名為 T0。T0 選擇的是 T5 的架構(gòu),但是它的數(shù)據(jù)量更多。T0 總共構(gòu)造了 171 個數(shù)據(jù)集,最終構(gòu)造了 2000 個多樣的 Prompt 模板,最終用 11B 參數(shù)量(GPT-3 的 1/16)達到了和 GPT-3 相似的效果。
圖 8
如圖 8 右下角所示,我們可以看到隨著 Prompt 的數(shù)量增加,下游任務(wù)表現(xiàn)也會逐漸地變好。這也啟發(fā)我們,是不是可以通過不斷增加任務(wù)數(shù)量以及構(gòu)造更多樣化的 Prompt 模板,不停地把這個超大規(guī)模語言模型的參數(shù)量壓縮得更?。勘热?,上面 FLAN 是 137B,T0 現(xiàn)在是 11B,那如果我們再去增加數(shù)據(jù)量,或者再增加 Prompt 數(shù)量,參數(shù)是不是還有更高的壓縮空間?這個也是值得探索。
CoT
這個是最近挺有話題性的一篇文章。邏輯比較簡單,主要在探索“在 GPT-3 上,我們選擇不同的 Prompt 是不是還有更好的表現(xiàn)”。
圖 9
如圖 9 左下角的表格所示,在一個任務(wù)上,它的 zero-shot 大概是 17.7 分,但是選擇“Let's think step by step” 這個 Prompt,分?jǐn)?shù)直接漲到 78 分。
這說明一些問題,一方面是超大規(guī)模的預(yù)訓(xùn)練語言模型其實還有很多挖掘的空間,另一方面,Prompt 魯棒是一個很大的問題。如果我們要落地這樣的模型會增加工程難度。就像我們之前做語言或者視覺方向上的特征工程一樣,不同的特征工程對下游任務(wù)的最終表現(xiàn)影響是特別大的。
RETRO (DeepMind)
除了多任務(wù)之外,還有一個新趨勢是檢索增強。早一些在做檢索生成的時候,我們用到 REALM 和 RAG 等模型。而 RETRO 模型是 DeepMind 去年 12 月份左右提出的,它的主要思路是,除了使用這一個大規(guī)模預(yù)訓(xùn)練語言模型掌握語料知識之外,還可以把知識從這個模型中解耦,獨立成一個單獨的檢索模塊,把這些知識放到一個數(shù)據(jù)庫里面。
圖 10
RETRO 只用了 7B 參數(shù)(相當(dāng)于 GPT-3 的 1/25),就可以達到和 GPT-3 可比的效果。這也證明了提高模型效果并不只有增加參數(shù)量一條路。同時還能通過數(shù)據(jù)庫更新的方式實時加入新的知識(OpenAI 的 GPT-3 API 只有 2020 年 8 月前的知識)。
當(dāng)然 RETRO 也會有一些要求限制。如圖 10 左上角所示,它對檢索庫的數(shù)據(jù)量有很高要求,在 1T Tokens 左右才能達到相似效果,這也是后續(xù)要解決的問題。
WebGPT (OpenAI)
WebGPT 其實跟 RETRO 很相似,我們可以從兩個角度來看:
1. WebGPT 引入了外部知識,讓 GPT-3 學(xué)會像人類一樣去學(xué)會使用瀏覽器獲取知識;
2. WebGPT 不僅僅是像 RETRO 一樣直接引入一個外部的檢索模塊,它還會利用強化學(xué)習(xí)的方法,通過 6k 條人類的搜索行為數(shù)據(jù)讓 GPT-3 模仿人類的搜索方式
圖11
小結(jié)一下,從上面 FLAN、T0、CoT、RETRO、WebGPT 的工作來看,在 GPT-3 模型的基礎(chǔ)上,我們可以通過增加多任務(wù)、Prompt 和增加檢索模塊,在更小的參數(shù)量級上達到 GPT-3 175B 相同水平的效果。之前只能在 GPT-3 中看到的小樣本、零樣本能力,未來通過更小參數(shù)量的模型在工業(yè)界中落地的可能性會越來越大,大量場景中的標(biāo)注成本將會繼續(xù)降低。未來,這一能力這將為我們帶來全新的商業(yè)場景,讓沒有 NLP 算法團隊的公司也能更容易、低成本的獲得定制化的 NLP 能力。
多模態(tài)模型
DALL·E 2(Open AI)和 Imagen(Google)
多模態(tài)方面近期有很多進展,今年,OpenAI 發(fā)布了 DALL·E 2,Google 發(fā)布了 Imagen。雖然兩個模型權(quán)重都未公開,但從釋放出的大量示例來看,圖片的真實度、分辨率都有較為明顯的進步。我們已經(jīng)到了需要討論這項技術(shù)商業(yè)化落地的時間點了。當(dāng)然,目前模型還存在的各種?險和限制也是我們要考慮的問題,比如暴恐、低俗的文字輸入、版權(quán)?險、來自數(shù)據(jù)的偏?等。
以往關(guān)于文本生成圖像的研究,除了最早出現(xiàn)的 GAN,大體可以分成兩種思路:
一種是基于自回歸模型,將文本特征和圖像特征映射到同一空間,再使用類似于 Transformer 的模型架構(gòu),來學(xué)習(xí)語言輸入和圖像輸出之間的關(guān)系。比如 DALL-E 和 CogView,就采用了這一思路。
另一種則是基于擴散模型的方式,DALL·E 2 和 Imagen 就屬于這一類??梢钥吹降氖?,這些模型產(chǎn)生的圖像分辨率更高,效果更好。
圖 12
圖13
LayoutLM v3
LayoutLM 在文檔理解和智能文檔領(lǐng)域有非常重要作用,這方面的工作已經(jīng)推出了第三代。相比前一代,它用 patch embedding 來代替之前 CNN 的 backbone,使用統(tǒng)一的文本和圖像的 mask 任務(wù)。
圖 14
在 NLP 領(lǐng)域,我們不僅僅要面對文字,還有更多復(fù)雜的、未經(jīng)處理的 PDF、Word 文檔等,所以 LayoutLM 是一個非常值得關(guān)注的工作。
VPT
視頻領(lǐng)域的預(yù)訓(xùn)練模型 VPT 應(yīng)該算得上是一個里程碑式的工作。
圖 15
這里要先簡單介紹一下 Minecraft,它是一個開放式的游戲,玩家可以在一個三維世界里采集資源,然后按照一個技能樹去創(chuàng)造不同的工具和物品。一般人類玩家會先采集木頭(如圖 15 下半部分所示),然后制造一些工具,再采集石頭、鐵,最后采集鉆石。整個游戲流程中需要進行不同類型的決策,除了要在三維世界里采集這些東西,玩家還要決定怎么制造道具。普通人類玩家——以我個人經(jīng)驗——差不多半個小時才能完成整個流程。這是首次有 AI 算法能使用和人類一樣的交互(視頻+鍵鼠)完成這個任務(wù)。
VPT 里大量使用了預(yù)訓(xùn)練。除了用大量無標(biāo)注的視頻數(shù)據(jù)做了預(yù)訓(xùn)練,還加入了少量的人工標(biāo)記去學(xué)習(xí)人類行為。如圖 15 右側(cè)所示,我們可以看到,沒有使用預(yù)訓(xùn)練的方法是很難完成這個工作的。所以,這給我們帶來一些想象空間——預(yù)訓(xùn)練和強化練習(xí),或者和機器人進行結(jié)合,能夠像人類一樣解決一些很通用的任務(wù),可能會產(chǎn)生新的落地場景。
Gato (DeepMind)
圖 16
DeepMind 提出的 Gato 是用一個單一的預(yù)訓(xùn)練模型完成很多不同的任務(wù)。模型結(jié)構(gòu)簡單,只有一個 Transformer 架構(gòu),只有約 12億參數(shù)。Gato 能夠執(zhí)行 600 多種不同的任務(wù),可以使用相同的權(quán)重來完成注釋圖像、聊天、玩小游戲、bu關(guān)節(jié)力矩控制、在現(xiàn)實中使用機械臂對疊積木、在模擬 3D 環(huán)境中導(dǎo)航等等任務(wù)。
這啟發(fā)我們,Transformer 架構(gòu)實際上是有一定通用性的。不僅是能夠完成文字類理解工作,甚至打游戲、視頻相關(guān)的任務(wù),它都能做。這意味著我們將來也許可以用一套更統(tǒng)一的框架來做更多事情。在工業(yè)界來說,就是用更低的成本來做預(yù)訓(xùn)練微調(diào)、解決不同場景的問題。
新應(yīng)用 —— Copilot
圖 17
Copilot 已經(jīng)是非常落地的一個應(yīng)用了,很多開發(fā)者的體驗反饋都是“非常驚艷”。傳統(tǒng)的代碼補全,通常用語法樹解析去做預(yù)測。由于這個原因,對于解釋性的語言的補全做得并不是很好,比如大家常用的 Python。當(dāng)然,我們也知道有一些廠商做得可能稍微好一點,但相比于 Copilot 這種基于預(yù)訓(xùn)練的工具,屬于不同“代次”。
Copilot 可能會對傳統(tǒng)的 IDE 行業(yè)產(chǎn)生非常大沖擊。
舉一些具體的例子,我們一般寫代碼可能會輸入一個符號,然后按一下鍵盤上的 “.” 來進行補全出 class 、function、symbol 等等。但是 Copilot 用法往往是這樣:先寫一個函數(shù)名稱,再寫幾行注釋,它就能夠把函數(shù)的 5 到 10 行代碼直接補全出來,當(dāng)然也不是非常完美,有時候需要我們手動做二次修改,但相對于傳統(tǒng) IDE 是完全不同的體驗。
除了可以把 Copilot 當(dāng)做代碼補全工具之外,也能把它當(dāng)做替代 stackoverflow 的檢索工具。以往寫一些簡單、重復(fù)性的代碼片段,我們可能要去搜 stackoverflow,看看其他人分享的代碼。但是有了 Copilot 之后,stackoverflow 的使用率會變得很低。因為基本只要寫注釋就能讓 Copilot 幫你完成一些簡單的工作。
預(yù)訓(xùn)練框架進展
JAX
除了模型之外,底層的預(yù)訓(xùn)練框架也是非常重要的。最近一年,我們可以看到預(yù)訓(xùn)練框架領(lǐng)域有了新的進展。
JAX 不是一個新的框架,它在 2018 年就已經(jīng)問世了。2020 年 DeepMind 表示他們在用 JAX 去做他們的研究工作。相比 PyTorch,JAX 引入了 XLA 帶來了速度提升、顯存消耗下降,同時 API 形式是非常像NumPy,大家用起來會非常輕松。
圖 18
我們更關(guān)注的是基于這套框架之上的預(yù)訓(xùn)練領(lǐng)域框架,如 T5X,最近 Google的工作很多用 T5X 實現(xiàn)。T5X 跟 Pathway 的思路會很接近,即通過一套框架讓研究員很輕松地去調(diào)整設(shè)置,用不同架構(gòu)完成預(yù)訓(xùn)練。目前在 Huggingface 上大多數(shù)模型也都已經(jīng)有對應(yīng)的 JAX 版本了。但是這個框架也有一些問題,由于它設(shè)計的思路,要求大家用函數(shù)式編程的思路寫純函數(shù),那么對大多數(shù)沒有接觸過函數(shù)式編程語言(如 Lisp,Haskell 等)的人來說會有一定的上手門檻。
Megatron-DeepSpeed
圖 19
Megatron 和 DeepSpeed 是兩個很重要的預(yù)訓(xùn)練框架。Megatron 是英偉達做的超大規(guī)模預(yù)訓(xùn)練模型框架,主要是利用 tensor parallel 做性能優(yōu)化以及 mode parallel。DeepSpeed 是微軟團隊做的深度學(xué)習(xí)加速框架。這兩個團隊去年合作構(gòu)造出 Megatron-DeepSpeed 框架,相當(dāng)于是把兩個框架的特點結(jié)合在一起,并用它訓(xùn)練一個 530B 的模型。后面會講到的 BLOOM 模型也是基于這個框架的一個 fork 去做的。
ColossalAI
圖 20
ColossalAI 是潞晨科技的開源項目,是 Megatron-DeepSpeed 有力的競品,社區(qū)也非常活躍。它給大家?guī)硪粋€非常直觀的結(jié)果就是預(yù)訓(xùn)練成本降低了,在消費級的顯卡上也可以做一些訓(xùn)練,相比 MegatronLM 更省力。
大教堂到集市:大模型研究的平民化
圖 21
最近大家可能關(guān)注到 BLOOM 模型,這是來自 BigScience 的一項工作。這其實是近半年以來的一個新趨勢——大模型平民化。BLOOM 模型在 7月中旬剛完成了最大規(guī)模 176B 的模型訓(xùn)練,Benchmark 過兩天應(yīng)該會出來,大家感興趣可以去 Slack 圍觀進度。除了 BLOOM,最近 Meta 也開源了 OPT, EleutherAI 也開源了 GPT-Neo。
除了關(guān)注 BLOOM 模型本身,我們還要關(guān)注到它的項目組織形式。與 GPT-3 純閉源的、頂級大廠內(nèi)部研究不同,這個項目從立項開始就是開放的。其開源內(nèi)容不僅是模型本身,還包含了數(shù)據(jù)治理、模型結(jié)構(gòu)探索、實驗數(shù)據(jù)、訓(xùn)練日志、線上會議錄像等資料。大家可以去看一下他們中間經(jīng)過了幾次波折、訓(xùn)練中止這些問題怎么解決的。這是一個非常寶貴的資源,預(yù)計在后續(xù)半年內(nèi),BLOOM 模型還有很多迭代工作。
總結(jié)
最后總結(jié)一下本次演講的內(nèi)容。
繼感知智能之后,認(rèn)知智能已經(jīng)崛起,最重要一個因素是“預(yù)訓(xùn)練+微調(diào)”技術(shù)的發(fā)展,相比于之前的特征工程,“預(yù)訓(xùn)練+微調(diào)”可以大大提升開發(fā)效率,也意味著我們可能用更統(tǒng)一的方式,讓 NLP 能力在工業(yè)界落地。
最近一年,小樣本和零樣本技術(shù)也取得不錯進展,通過這種多任務(wù)或多 Prompt 的形式,訓(xùn)練出的模型規(guī)模越來越小,讓大家可以開始關(guān)注零樣本商業(yè)化落地的可能性。
通過檢索增強,能夠把模型和知識解耦,讓模型變得更加輕量化。
近期在多模態(tài)領(lǐng)域涌現(xiàn)出非常多的新工作,模型能力提升非常迅速,也到了考慮商業(yè)化可能性的時間節(jié)點;多模態(tài)預(yù)訓(xùn)練和強化學(xué)習(xí)的結(jié)合也是一個新的趨勢。
多個預(yù)訓(xùn)練框架齊頭并進,這些框架的改進將幫助研究員和工業(yè)界更輕松地去解決預(yù)訓(xùn)練的諸多問題。
開源訓(xùn)練框架的出現(xiàn),未來或許會使得超大規(guī)模預(yù)訓(xùn)練模型技術(shù)壁壘逐漸消失。
審核編輯 :李倩
-
人工智能
+關(guān)注
關(guān)注
1792文章
47373瀏覽量
238861 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22052 -
大模型
+關(guān)注
關(guān)注
2文章
2477瀏覽量
2830
原文標(biāo)題:一文看懂預(yù)訓(xùn)練模型最新進展
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論