來源:新智元編輯:Aeneas 昕朋
【導(dǎo)讀】2022年有哪些人工智能的突破?今天,李飛飛高徒Jim Fan盤點(diǎn)了年度十大AI亮點(diǎn)。
人工智能的爆炸正在扭曲我們的時(shí)間感。
你能相信Stable Diffusion只有4個(gè)月大,而ChatGPT的出現(xiàn)還不到一個(gè)月嗎?
打個(gè)形象的比喻,只要眨一下眼,你就會(huì)錯(cuò)過一個(gè)全新的行業(yè)。
2022年的AI領(lǐng)域,大規(guī)模的生成模型像雨后春筍一樣地冒出,改變了整個(gè)AI界的格局。
而且,這些模型正在迅速走出實(shí)驗(yàn)室,在現(xiàn)實(shí)中被應(yīng)用。
比如,LLM技術(shù)就啟發(fā)了兩個(gè)新興的領(lǐng)域——決策代理(游戲、機(jī)器人等等)和 AI4Science。
李飛飛高徒Jim Fan為我們總結(jié)了2022年的十大AI高光時(shí)刻。讓我們把時(shí)間倒轉(zhuǎn),看看2022年都有哪些令人驚嘆的AI突破。
一、文字-圖像生成
DALLE-2是第一個(gè)可以從任意標(biāo)題生成逼真的高分辨率圖像的大規(guī)模擴(kuò)散模型。
它啟動(dòng)了AI的藝術(shù)革命,催生了許多新的應(yīng)用程序、初創(chuàng)公司和思維方式。
但 DALLE-2被保護(hù)在OpenAI的圍墻后面,并沒有開源。
在OpenAI之后,LMU的StabilityAI和runwayml邁出了英勇的一步,基于「潛在擴(kuò)散」算法訓(xùn)練了他們自己的互聯(lián)網(wǎng)規(guī)模的text2image模型。他們稱該模型為「穩(wěn)定擴(kuò)散」,并開源了代碼和權(quán)值(weighs)。
事實(shí)證明,Stable Diffusion的開放性,讓它給游戲帶來了巨變?,F(xiàn)在,許多初創(chuàng)公司和研究實(shí)驗(yàn)室都在Stable Diffusion的基礎(chǔ)上創(chuàng)建新的應(yīng)用程序,Stable Diffusion本身也被開源社區(qū)不斷改進(jìn)。最近,Stable Diffusion已經(jīng)達(dá)到了v2.1版本,可以在單個(gè)GPU上運(yùn)行了。
另外,今年還有來自GoogleAI的兩個(gè)image2text模型。GoogleAI既沒有發(fā)布模型也沒有發(fā)布API,但從論文中,我們?nèi)匀豢梢钥吹讲簧儆腥さ囊娊狻?/p>
Imagen
Parti
它是一個(gè)沒有diffusion的Transformer模型。
二、文字-文字生成大家都知道,我說的是ChatGPT!
這是歷史上唯一一個(gè)在5天內(nèi)就獲得了100萬用戶的應(yīng)用程序。ChatGPT也大大啟發(fā)了我們?nèi)祟惖膭?chuàng)造力。
ChatGPT和GPT-3.5都使用了一種叫做RLHF(「從人類反饋中強(qiáng)化學(xué)習(xí)」)的新技術(shù)。
這也就意味著,提示工程或許很快就會(huì)消失了。
ChatGPT的流行,已經(jīng)催生了一波新的創(chuàng)業(yè)公司和競(jìng)爭(zhēng)者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。
這些競(jìng)爭(zhēng)者提供了如此直觀的搜索方式,連谷歌的高管們都開始出汗了!
三、文本- 機(jī)器人模型如何給GPT提供胳膊和腿,讓它們能打掃你混亂的廚房?
與NLP不同,機(jī)器人模型需要與物理世界互動(dòng)。
在今年,大的預(yù)訓(xùn)練Transformer終于開始解決機(jī)器人領(lǐng)域最難的問題了!
VIMA
10月,我和同事創(chuàng)建了一個(gè) 「機(jī)器人GPT 」——名為VIMA的tranformer。它可以接收任何混合的文本、圖像和視頻作為prompt,并輸出機(jī)器人手臂的控制。我們的模型被稱為VIMA(「VisuoMotor Attention」),已經(jīng)完全開源了?,F(xiàn)在,單個(gè)智能體已經(jīng)能夠解決視覺目標(biāo)、視頻的一次性模仿、新概念基礎(chǔ)、視覺約束等,具有了模型容量和數(shù)據(jù)的強(qiáng)大擴(kuò)展性。
RT-1
沿著與VIMA類似的路徑,來自GoogleAI的研究人員發(fā)布了RT-1,這是一種在700項(xiàng)任務(wù)和130K的人類演示上訓(xùn)練的機(jī)器人transformer。
這些數(shù)據(jù)是由13個(gè)機(jī)器人在17個(gè)月內(nèi)收集的,是字面意義上的鋼鐵部隊(duì)!
四、文本 - 視頻本質(zhì)上說,視頻就是隨著時(shí)間的推移捆綁在一起的一系列圖像,給我們創(chuàng)造了運(yùn)動(dòng)的錯(cuò)覺。
如果我們可以做text2image,那為什么不在里面加上時(shí)間軸,來獲得額外的樂趣呢?
目前,文本 - 視頻領(lǐng)域有3個(gè)重大的工作,但沒有一個(gè)是開源的。
Make-A-Video
首先是Meta AI的Make-A-Video:不需要成對(duì)的文本-視頻數(shù)據(jù),就可以得到文本-視頻的生成。
您可以在此處注冊(cè)試用訪問權(quán)限:https://makeavevideo.studio
論文鏈接:https://arxiv.org/abs/2209.14792
Imagen Video
Google AI的Imagen Video:它能使用擴(kuò)散模型生成高清視頻,基于Imagen靜態(tài)圖像生成器。
Phenaki
來自谷歌AI的Phenaki: 從開放領(lǐng)域的文本描述中生成可變長(zhǎng)度的視頻。
五、文本-3D建模從設(shè)計(jì)創(chuàng)新產(chǎn)品到在電影和游戲中創(chuàng)造奇妙的視覺效果,3D建模正成為文本-X生成模型的下一片藍(lán)海。令人驚喜的是,2022年出現(xiàn)了許多卓有前途的3D生成模型。在此,F(xiàn)an列舉了3個(gè)模型。
DreamFusion
首先登場(chǎng)的,是Google AI研究團(tuán)隊(duì)與UC Berkeley聯(lián)合開發(fā)的DreamFusion。
該模型使用二維文本到圖像的擴(kuò)散模型來執(zhí)行文本到三維的合成。
基于NeRF算法,DreamFusion可以通過給定文本生成3D模型。
該模型可以從任何角度查看,在任意照明下可以重新點(diǎn)亮,還可以合成到任何三維環(huán)境當(dāng)中。
Magic3D
第二項(xiàng)成果,是英偉達(dá)AI團(tuán)隊(duì)的兩個(gè)項(xiàng)目,名為GET3D和Magic3D。
GET3D論文鏈接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Magic3D論文鏈接:https://arxiv.org/pdf/2211.10440.pdf
GET3D僅使用二維圖像進(jìn)行訓(xùn)練,可生成具有高保真紋理和復(fù)雜幾何細(xì)節(jié)的三維圖形。
該模型允許用戶立即將其形體導(dǎo)入3D渲染器和游戲引擎,以便進(jìn)行后續(xù)編輯。
Magic3D與DreamFusion類似,使用文本到圖像模型生成2D圖像,然后優(yōu)化為體積NeRF(神經(jīng)輻射場(chǎng))數(shù)據(jù),將低分辨率生成的粗略模型優(yōu)化為高分辨率的精細(xì)模型。
根據(jù)英偉達(dá)AI團(tuán)隊(duì),由此產(chǎn)生的Magic3D方法,可以比DreamFusion更快地生成3D目標(biāo)。
Point-E
繼年初推出的DALL-E 2用天才畫筆驚艷所有人之后,周二OpenAI發(fā)布了最新的圖像生成模型「POINT-E」,它可通過文本直接生成3D模型。
相比競(jìng)爭(zhēng)對(duì)手們(如谷歌的DreamFusion)需要幾個(gè)GPU工作數(shù)個(gè)小時(shí),POINT-E只需單個(gè)GPU便可在幾分鐘內(nèi)生成3D圖像。
根據(jù)測(cè)試,Prompt輸入后POINT-E基本可以秒出3D圖像,此外輸出圖像還支持自定義編輯、保存等功能。
六、會(huì)玩《我的世界》的AI
《我的世界》是一款測(cè)試AI通用智能的絕佳游戲。首先,它是一款無限開放的沙盒游戲,極度體現(xiàn)玩家的創(chuàng)造力。
其次,該游戲有1.4億的玩家群體,是英國(guó)總?cè)丝诘膬杀?。用戶基礎(chǔ)如此龐大,供AI學(xué)習(xí)的游戲數(shù)據(jù)可謂是源源不絕。
那么,AI能否和人類一樣盡情揮灑想象力呢?
Jim Fan和同事合作開發(fā)了第一個(gè)玩《我的世界》的AI「MineDojo」,它可以在自然語言提示下解決許多任務(wù)。
Fan的最終目標(biāo)是建立一個(gè)「具身的ChatGPT」。目前,MineDojo平臺(tái)已經(jīng)完全開源。
與此同時(shí),Jeff Clune的團(tuán)隊(duì)宣布了一個(gè)名為視頻預(yù)訓(xùn)練(VPT)的模型,該模型可以直接輸出鍵盤和鼠標(biāo)的動(dòng)作。
VPT擁有更廣闊的視野,但不受語言條件的限制。在這點(diǎn)上,MineDojo和VPT恰好相輔相成。
七、AI外交官Meta AI推出的CICERO是第一個(gè)在《外交》游戲中實(shí)現(xiàn)人類水平表現(xiàn)的人工智能智能體。
《外交》是一款七人制經(jīng)典策略游戲,可以說是棋盤游戲Risk、紙牌游戲撲克和電視節(jié)目Survivor的結(jié)合。該游戲需要廣泛的自然語言協(xié)商才能與人類合作和競(jìng)爭(zhēng)。然而,CICERO的出現(xiàn)表明,人工智能現(xiàn)在已經(jīng)有說服他人和虛張聲勢(shì)的能力。
目前,DeepMind也宣布開發(fā)自己的外交官AI智能體。那么,如果CICERO使用這個(gè)AI模型,又會(huì)發(fā)生什么呢?
八、音頻-文本模型Whisper是OpenAI發(fā)布的一個(gè)大型開源語音識(shí)別模型,在英語語音識(shí)別方面有接近人類水平的魯棒性和準(zhǔn)確性。
Whisper經(jīng)過了來自網(wǎng)絡(luò)的680,000小時(shí)音頻數(shù)據(jù)的訓(xùn)練。Open AI強(qiáng)調(diào),Whisper的語音識(shí)別能力已達(dá)到人類水準(zhǔn)。
Open AI將Whisper開源,是否是為了解鎖更多文本token,用以訓(xùn)練萬眾矚目的GPT-4呢?
九、核聚變DeepMind與瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)聯(lián)合開發(fā)了第一個(gè)核聚變相關(guān)的深度強(qiáng)化學(xué)習(xí)系統(tǒng),可以保持核聚變等離子體在托卡馬克內(nèi)的穩(wěn)定。
論文鏈接:https://www.nature.com/articles/s41586-021-04301-9
同樣在本月,美國(guó)能源部宣布了一項(xiàng)巨大的突破:人類首次實(shí)現(xiàn)了核聚變反應(yīng)的凈能量增益!
這是人類首次實(shí)現(xiàn)這一里程碑。這一生,我們或許會(huì)成為聚變文明!
十、應(yīng)用于生物學(xué)的Transformer2021年,AlphaFold開啟了語言模型預(yù)測(cè)蛋白質(zhì)3D結(jié)構(gòu)的序幕。
7月,DeepMind宣布了「蛋白質(zhì)宇宙」——將AlphaFold的蛋白質(zhì)數(shù)據(jù)庫(kù)擴(kuò)展到2億個(gè)結(jié)構(gòu)!
此外,英偉達(dá)AI研究團(tuán)隊(duì)還拓展了BioNeMo大型語言模型的框架,以幫助生物技術(shù)公司和研究人員生成、預(yù)測(cè)和理解生物分子數(shù)據(jù)。
以上便是Jim Fan對(duì)2022年十大AI亮點(diǎn)的盤點(diǎn)。當(dāng)然,F(xiàn)an也表示,還有無數(shù)令人興奮的作品為人工智能的進(jìn)步做出了貢獻(xiàn)。
每篇論文都是AI大廈里的一磚一瓦,所有的努力都應(yīng)該慶祝。
不過,F(xiàn)an在最后也強(qiáng)調(diào),隨著人工智能系統(tǒng)變得越來越強(qiáng)大,我們必須意識(shí)到潛在的危險(xiǎn)和風(fēng)險(xiǎn),并采取措施減輕它們。
無論是通過仔細(xì)的培訓(xùn)設(shè)計(jì)、適當(dāng)?shù)谋O(jiān)督還是全新的保障方法,人工智能的安全與倫理成為越來越的AI專家所討論的議程。
毫無疑問,2022年是充滿奇跡的一年,也是令人驚嘆的一年。未來一年又會(huì)有什么震驚世界的突破?我們與你一起關(guān)注。
-
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269305 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238774
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論