對(duì)于怎么實(shí)現(xiàn)AGI這個(gè)玄學(xué)的目標(biāo),感覺大家都是差不多的狀態(tài):咱也不知道怎么做,但就是覺得現(xiàn)在的LLM技術(shù)還遠(yuǎn)遠(yuǎn)不夠。
所以之前看到OpenAI說要用模型去做對(duì)齊研究[1],以及最近發(fā)話要4年內(nèi)做出SuperAlignment[2]時(shí),我都是一臉問號(hào),覺得沒什么新東西,get不到他們的思路。
為什么要做AI研究器
直到最近斷斷續(xù)續(xù)刷了兩遍Jan Leike的訪談,我突然有種悟了的感覺,原來核心思想就這么簡(jiǎn)單。而且回過頭看,OpenAI近幾年其實(shí)就是在遵循這個(gè)思想,卻做出了看似「暴力」的一個(gè)個(gè)突破。
OpenAI所選擇的路徑就是:「Turn compute into alignment」,通過計(jì)算的量變產(chǎn)生智能的質(zhì)變。計(jì)算需要數(shù)據(jù)、算力、模型框架的共同作用,拆解成具體的步驟,則是自動(dòng)化->規(guī)模化->迭代。
以前我們總以「范式」這個(gè)詞來劃分NLP的發(fā)展,比如監(jiān)督學(xué)習(xí)->預(yù)訓(xùn)練+精調(diào)->預(yù)訓(xùn)練+RLHF。其實(shí)這些范式只是增加有效計(jì)算量的方法:
自動(dòng)化:有監(jiān)督 -> 自監(jiān)督,擺脫人的依賴,更高效地獲取監(jiān)督信號(hào)
規(guī)?;涸诟嗟臄?shù)據(jù)、更大的模型上進(jìn)行更多的計(jì)算
迭代:不斷基于新的case迭代模型,形成數(shù)據(jù)飛輪
自動(dòng)化和規(guī)?;鶐淼馁|(zhì)變不用多說,GPT系列足以證明。但最后一步的「迭代」卻經(jīng)常被忽視,而這可能是通向Superalignment重要的一步,Alpha GO就是最好的栗子。它從最開始模仿人類棋手落子,到具備基本能力后不斷自我博弈,最終超越人類棋手。
那么問題來了:目前我們所做的「迭代」,不管是RLHF還是純SFT,仍舊需要人工提供監(jiān)督信號(hào),無法做到自動(dòng)化和規(guī)?;俣染蜁?huì)很慢。同時(shí)人類也無法監(jiān)督超越自身水平的任務(wù),不可能訓(xùn)出超智能的模型。這就是為什么OpenAI從22年就開始說,要用AI來輔助人類進(jìn)行評(píng)估[3]。
繼續(xù)思考,如果有個(gè)模型可以給出等同人類水平的監(jiān)督信號(hào),我們除了評(píng)估還可以用它干什么?當(dāng)然是順著量變產(chǎn)生質(zhì)變的思想,讓它自動(dòng)化、規(guī)?;貛兔Φ鯝GI呀!
自動(dòng)化:讓AI研究器自動(dòng)規(guī)劃實(shí)驗(yàn)、提供監(jiān)督信號(hào)訓(xùn)練模型
規(guī)?;喊焉鲜鲎詣?dòng)流程擴(kuò)展
迭代:AI研究器本身也是一個(gè)模型,讓它們雞生蛋蛋生雞,不斷互相訓(xùn)練
想到這里,OpenAI為什么要構(gòu)建「a roughly human-level automated alignment researcher」的思路就水到渠成了。不知道Jan Leike大佬的思考邏輯是怎樣的,反正我自己這么捋下來還挺順,歡迎討論。
如何做AI研究器
找到「AI研究器」這個(gè)啟動(dòng)點(diǎn)之后,接下來就是怎么實(shí)現(xiàn)的問題了。相比于如何訓(xùn)練出這個(gè)模型,Jan大佬把主要的中心都放在了如何構(gòu)建自動(dòng)化、全面化的評(píng)估上,其實(shí)跟上面的道理一樣,好的評(píng)估可以提供監(jiān)督反饋,從而指導(dǎo)模型的迭代方向。
首先,需要能驗(yàn)證模型可以達(dá)到人類水平。其實(shí)要真正評(píng)估出這個(gè)還是很難的,就像現(xiàn)在業(yè)內(nèi)這么多模型,沒人能給出一個(gè)真的排行榜一樣。而且最好是自動(dòng)化的,避免人來提供ground truth,才能進(jìn)行更全面的評(píng)估。這里大佬提供了一個(gè)discriminator-critique gap的測(cè)量方法,比如我們做了一個(gè)編程模型,想利用ChatGPT自動(dòng)評(píng)估他的效果,最簡(jiǎn)單的做法是直接命令ChatGPT判斷某道編程題做的對(duì)不對(duì)。那問題就來了,我們?cè)趺创_定ChatGPT評(píng)估結(jié)果是否置信?都人工看一遍太浪費(fèi)時(shí)間了。自動(dòng)化的做法是直接基于ChatGPT訓(xùn)練一個(gè)判斷變成結(jié)果是否正確的判別模型,然后我們專門用一些有l(wèi)abel的難樣本,去看判別模型的準(zhǔn)確率和ChatGPT的準(zhǔn)確率,如果差的不多,就說明不用訓(xùn)練也可以用它直接評(píng)估編程結(jié)果的好壞。
其次,自動(dòng)化地進(jìn)行魯棒性檢測(cè)、可解釋性分析。為啥非要做可解釋性呢?
可以為我們指出解決問題的途徑
現(xiàn)有很多研究是在做知識(shí)和神經(jīng)元的關(guān)聯(lián)性,大佬認(rèn)為更有意義的是自動(dòng)化、規(guī)?;厝プ觯瑥亩骄扛呔S度(模型整體)的可解釋性
最后,故意訓(xùn)練不對(duì)齊的模型進(jìn)行對(duì)抗測(cè)試,驗(yàn)證評(píng)估方法的有效性。從而避免出現(xiàn)假對(duì)齊的情況。最極端的就是真訓(xùn)出了一個(gè)超級(jí)智能,他可能會(huì)想辦法備份自己的權(quán)重,逃脫人類控制,需要專門通過其他代理任務(wù)(比如讓模型去hack某臺(tái)機(jī)器)看一下這個(gè)程度有多難,評(píng)估系統(tǒng)能否檢測(cè)出來。
投入成本的考量
OpenAI未來4年內(nèi)將會(huì)在Superalignment上組建30-100人規(guī)模的團(tuán)隊(duì),投入20%的算力。其實(shí)20%個(gè)人感覺主要是先表個(gè)決心,這個(gè)數(shù)量Jan大佬說已經(jīng)是對(duì)齊方向上最大的單筆投入了,做得好以后還會(huì)再加。
倒是4年這個(gè)規(guī)劃,說近不近說遠(yuǎn)不遠(yuǎn),還關(guān)乎于其他從業(yè)者要經(jīng)歷多久的紅利衰退期(狗頭),Jan給出了如下規(guī)劃:
2年內(nèi)搞清楚用什么技術(shù)實(shí)現(xiàn)AI對(duì)齊研究器,把問題拆的足夠細(xì),剩下就是工程問題了
3年內(nèi)實(shí)現(xiàn)AI對(duì)齊研究器
剩下一年探索超級(jí)對(duì)齊
這么一看時(shí)間還是挺緊的,后面兩個(gè)計(jì)劃略顯樂觀,Jan給出的信心是85%,而且表示有很多實(shí)驗(yàn)已經(jīng)在實(shí)驗(yàn)中了(至少?gòu)?2年8月那個(gè)博文發(fā)出前就開始研究了)。他的信心主要來自于5方面:
語言模型的成功:LLM可以理解自然語言,讓我們可以向模型表達(dá)我們希望他們?cè)趺醋?,操控起來更加容?/p>
RLHF的效果超出預(yù)期:只用了很少的計(jì)算,甚至還沒嘗試收集數(shù)據(jù),就可以在小模型上得到比大模型更好的效果
在評(píng)估度量方面已經(jīng)取得了很多進(jìn)展,可以提供改進(jìn)的方向
評(píng)估比生成更簡(jiǎn)單:如果人類只做評(píng)估,而不做生成,那么開發(fā)速度就會(huì)加快,還是自動(dòng)化監(jiān)督信號(hào)的思想
對(duì)語言模型的信念:語言模型很適合做超級(jí)對(duì)齊,任何任務(wù)都可以表述為文本的輸入輸出,不管是做實(shí)驗(yàn)和理解結(jié)果都可以做
目前的技術(shù)還有用嗎
對(duì)于預(yù)訓(xùn)練,Jan Leike認(rèn)為預(yù)測(cè)下一個(gè)token這種方式并不一個(gè)長(zhǎng)期目標(biāo),可能需要更好的任務(wù)。個(gè)人認(rèn)為互聯(lián)網(wǎng)上視頻、圖像、文字?jǐn)?shù)據(jù)遲早會(huì)被消耗殆盡,所以目前的預(yù)訓(xùn)練主要是提供一個(gè)較好的基模型,后續(xù)高質(zhì)量的監(jiān)督信號(hào)應(yīng)該會(huì)來源于模型本身,就像前文一直說的「自動(dòng)化」。但這樣是否還能稱作「預(yù)訓(xùn)練」就不一定了。
對(duì)于RLHF,Jan Leike也持懷疑態(tài)度,因?yàn)槟壳暗谋O(jiān)督信號(hào)來源于人工評(píng)判,但人工并不擅長(zhǎng)區(qū)分看起來都很好的答案,各種論文顯示人類之間的一致率有70%就不錯(cuò)了,這個(gè)監(jiān)督信號(hào)本身自己都不一定對(duì)的齊。同時(shí),需要人工就導(dǎo)致無法規(guī)?;瘮U(kuò)展,也不符合我們?cè)黾佑?jì)算量的需求。
目前預(yù)訓(xùn)練+RLHF的范式大概率也只是AI發(fā)展中的一個(gè)版本,按照OpenAI的AI研究器思路,后續(xù)模型訓(xùn)練的系統(tǒng)復(fù)雜度可能會(huì)提升很多,估計(jì)會(huì)有N多個(gè)擅長(zhǎng)不同任務(wù)的AI研究器來訓(xùn)一個(gè)模型,人工只需要提供少量監(jiān)督信號(hào),告訴系統(tǒng)要做什么,就可以讓他們自動(dòng)運(yùn)轉(zhuǎn),訓(xùn)完了自動(dòng)同步權(quán)重,不斷升級(jí)。
總結(jié)
整個(gè)Jan Leike的采訪看下來,真的收獲頗豐,不知道有沒有清晰地表達(dá)出來,其實(shí)就是:
計(jì)算是核心,計(jì)算的量變產(chǎn)生智能的質(zhì)變
加速有效計(jì)算量的方法是:自動(dòng)化->規(guī)?;?>迭代
就像人類百萬年來,從石器時(shí)代進(jìn)化到現(xiàn)在的信息時(shí)代,科技的進(jìn)步不是一蹴而就,而是螺旋上升,由幾代人的智慧凝結(jié)而成。
-
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269301 -
模型
+關(guān)注
關(guān)注
1文章
3254瀏覽量
48879 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22049 -
OpenAI
+關(guān)注
關(guān)注
9文章
1096瀏覽量
6557
原文標(biāo)題:總結(jié)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論