1. 1800億參數(shù),世界頂級(jí)開源大模型Falcon官宣!碾壓LLaMA 2,性能直逼GPT-4
原文:https://mp.weixin.qq.com/s/B3KycAYJ2bLWctvoWOAxHQ
一夜之間,世界最強(qiáng)開源大模型Falcon 180B引爆全網(wǎng)!
1800億參數(shù),F(xiàn)alcon在3.5萬億token完成訓(xùn)練,直接登頂Hugging Face排行榜。
基準(zhǔn)測(cè)試中,F(xiàn)alcon 180B在推理、編碼、熟練度和知識(shí)測(cè)試各種任務(wù)中,一舉擊敗Llama 2。
甚至,F(xiàn)alcon 180B能夠與谷歌PaLM 2不差上下,性能直逼GPT-4。不過,英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)此表示質(zhì)疑,- Falcon-180B的訓(xùn)練數(shù)據(jù)中,代碼只占5%。而代碼是迄今為止對(duì)提高推理能力、掌握工具使用和增強(qiáng)AI智能體最有用的數(shù)據(jù)。事實(shí)上,GPT-3.5是在Codex的基礎(chǔ)上進(jìn)行微調(diào)的。- 沒有編碼基準(zhǔn)數(shù)據(jù)。沒有代碼能力,就不能聲稱「優(yōu)于GPT-3.5」或「接近GPT-4」。它本應(yīng)是預(yù)訓(xùn)練配方中不可或缺的一部分,而不是事后的微調(diào)。- 對(duì)于參數(shù)大于30B的語言模型,是時(shí)候采用混合專家系統(tǒng)(MoE)了。到目前為止,我們只看到OSS MoE LLM < 10B。
一起來看看,F(xiàn)alcon 180B究竟是什么來頭?世界最強(qiáng)開源大模型此前,F(xiàn)alcon已經(jīng)推出了三種模型大小,分別是1.3B、7.5B、40B。官方介紹,F(xiàn)alcon 180B是40B的升級(jí)版本,由阿布扎比的全球領(lǐng)先技術(shù)研究中心TII推出,可免費(fèi)商用。
這次,研究人員在基底模型上技術(shù)上進(jìn)行了創(chuàng)新,比如利用Multi-Query Attention等來提高模型的可擴(kuò)展性。對(duì)于訓(xùn)練過程,F(xiàn)alcon 180B基于亞馬遜云機(jī)器學(xué)習(xí)平臺(tái)Amazon SageMaker,在多達(dá)4096個(gè)GPU上完成了對(duì)3.5萬億token的訓(xùn)練??侴PU計(jì)算時(shí),大約7,000,000個(gè)。Falcon 180B的參數(shù)規(guī)模是Llama 2(70B)的2.5倍,而訓(xùn)練所需的計(jì)算量是Llama 2的4倍。具體訓(xùn)練數(shù)據(jù)中,F(xiàn)alcon 180B主要是RefinedWe數(shù)據(jù)集(大約占85%) 。此外,它還在對(duì)話、技術(shù)論文,以及一小部分代碼等經(jīng)過整理的混合數(shù)據(jù)的基礎(chǔ)上進(jìn)行了訓(xùn)練。這個(gè)預(yù)訓(xùn)練數(shù)據(jù)集足夠大,即使是3.5萬億個(gè)token也只占不到一個(gè)epoch。官方自稱,F(xiàn)alcon 180B是當(dāng)前「最好」的開源大模型,具體表現(xiàn)如下:在MMLU基準(zhǔn)上,F(xiàn)alcon 180B的性能超過了Llama 2 70B和GPT-3.5。在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及ReCoRD上,與谷歌的PaLM 2-Large不相上下。另外,它在Hugging Face開源大模型榜單上,是當(dāng)前評(píng)分最高(68.74分)的開放式大模型,超越了LlaMA 2(67.35)。
2. Meta的Flamera頭顯對(duì)增強(qiáng)現(xiàn)實(shí)有了新的愿景
原文:https://mp.weixin.qq.com/s/UepWwW7D03_jISTsSmjwnAMeta的最新原型頭顯Flamera像是直接從科幻動(dòng)作片中來的一樣,它在Siggraph 2023上引起了人們的注意 —— Flamera在那里獲得了令人垂涎的Best in Show獎(jiǎng)。據(jù)悉,F(xiàn)lamera原型頭顯展示了接近人眼分辨率和全新的"透視"真實(shí)世界的技術(shù)。該原型或許為VR、MR和AR的未來鋪平了道路。頭顯原型展示的技術(shù)突破引發(fā)了人們的興趣和關(guān)注。Moor Insights&Strategy副總裁兼首席分析師Ansel Sag表示:“這絕對(duì)是我見過的質(zhì)量最好的(增強(qiáng)現(xiàn)實(shí))實(shí)現(xiàn)透視真實(shí)世界的全新方法。”
Giving Reality the Bug Eye出于顯而易見的原因,在物理上不可能將頭顯的攝像頭與用戶的眼睛完全放置在同一位置。這種位移導(dǎo)致了我(作者,以下簡(jiǎn)稱我)個(gè)人經(jīng)歷的視角的轉(zhuǎn)變:我在使用AR/VR頭顯時(shí)撞到了墻上,或者被被椅子絆倒了。像Meta Quest Pro這樣的尖端頭顯,通過從正確的角度重新投射周圍環(huán)境的視圖,跨越了這一障礙,但解決方案可能會(huì)導(dǎo)致視覺失真。Meta的蟲眼Flamera提出了一個(gè)新穎的解決方案。它摒棄了當(dāng)前頭顯青睞的外部攝像頭陣列,采用了獨(dú)特的“光場(chǎng)穿透”設(shè)計(jì),將圖像傳感器與物理控制到達(dá)傳感器的光的孔徑配對(duì)。會(huì)導(dǎo)致不正確視角的光被阻擋,而提供準(zhǔn)確視角的光則被允許到達(dá)傳感器。當(dāng)直接通過鏡頭觀看時(shí),結(jié)果很奇怪:這有點(diǎn)像透過紙上的洞看世界。頭顯重新排列原始圖像以消除間隙并重新定位傳感器數(shù)據(jù)。一旦這個(gè)過程完成,耳機(jī)就會(huì)為用戶提供準(zhǔn)確的世界視圖。Sag說:“這絕對(duì)是一個(gè)原型,但它的圖像質(zhì)量和分辨率給我留下了深刻印象?!?“幀速率很好,”ModiFace的軟件開發(fā)總監(jiān)Edgar Maucourant也演示了這款頭顯,并對(duì)此印象深刻,“我的眼睛所看到的東西和我的手的位置與我的手真正的位置之間沒有延遲,也沒有差異?!?/span>Maucourant認(rèn)為Flamera的準(zhǔn)確性可能會(huì)為用戶直接與周圍世界互動(dòng)的AR應(yīng)用程序帶來福音。“例如,如果我們考慮遠(yuǎn)程輔助,人們必須操縱物體,那么今天它是用HoloLens和Magic Leap等AR眼鏡來實(shí)現(xiàn)的……我們可以想象使用AR穿透來實(shí)現(xiàn)這一點(diǎn)。”Meta’s Answer to the Apple Vision Pro?與微軟的HoloLens和Magic Leap進(jìn)行比較很重要。它們通過透明顯示器繞過了透視問題,讓用戶的視覺暢通無阻。當(dāng)HoloLens于2016年發(fā)布時(shí),這種方法感覺像是未來的趨勢(shì),但其顯示質(zhì)量、視野和亮度仍然存在問題。Meta的Quest Pro和蘋果即將推出的Vision Pro強(qiáng)調(diào)了這一方向的轉(zhuǎn)變。盡管以AR/VR頭顯(或者,蘋果方以“空間計(jì)算機(jī)”)的形式進(jìn)行營(yíng)銷,但它們顯然是虛擬現(xiàn)實(shí)家族的一個(gè)分支。它們通過不透明的顯示器完全遮擋了用戶的視野。增強(qiáng)現(xiàn)實(shí)是通過視頻饋送提供的,該視頻饋送將外部世界投射到顯示器。Vision Pro解決直通問題的方法更注重肌肉而非大腦。它使用了一系列與其他AR/VR頭顯類似的外部攝像頭,但將其與蘋果定制的R1芯片配對(duì),該芯片與蘋果M2芯片協(xié)同工作(就像該公司筆記本電腦中的芯片一樣)。R1是一個(gè)“視覺處理器”,可以幫助vision Pro的12臺(tái)相機(jī)通過計(jì)算校正視角(以及其他任務(wù))。這很像Meta在Quest Pro上嘗試的方法,但蘋果將功率提高到了11。Meta的Flamera取而代之的是用鏡頭校正視角。這大大降低了準(zhǔn)確直通AR所需的原始計(jì)算能力。但這并不是說Meta已經(jīng)完全打開了AR。Flamera的技術(shù)距離可供購買的頭顯還有很長(zhǎng)的路要走,目前與傳統(tǒng)的直通AR相比存在一些缺點(diǎn)。Sag表示,該頭顯“視野相當(dāng)有限”,并注意到其景深“不連續(xù)”,這意味著遠(yuǎn)處的物體看起來比實(shí)際更近。Maucourant警告說“顏色不太好”,并認(rèn)為頭顯的分辨率很低。盡管如此,F(xiàn)lamera或展示了Meta、蘋果和其他希望進(jìn)入AR領(lǐng)域的公司之間即將發(fā)生的爭(zhēng)論方向。科技界的大腕們似乎確信,明天最好的AR/VR頭顯看起來更像最初的Oculus Rift,而不是微軟的HoloLens。然而,目前這些原型更多還是在研究階段,離成為消費(fèi)級(jí)產(chǎn)品還有一段距離。未來,頭顯技術(shù)的發(fā)展還需要在各個(gè)方面進(jìn)行突破和創(chuàng)新,以實(shí)現(xiàn)更高的分辨率、更低的延遲、更舒適的使用體驗(yàn)等。只有解決了這些問題,才能讓用戶真正感受到頭顯帶來的沉浸式體驗(yàn),進(jìn)一步推動(dòng)VR、MR和AR技術(shù)的廣泛應(yīng)用。
3. 騰訊混元大模型正式亮相,我們搶先試了試它的生產(chǎn)力
原文:https://mp.weixin.qq.com/s/xuk77KHJHhoh6kWkf-4AKg上個(gè)星期,國內(nèi)首批大模型備案獲批,開始面向全社會(huì)開放服務(wù),大模型正式進(jìn)入了規(guī)模應(yīng)用的新階段。在前期發(fā)布應(yīng)用的行列中,有些科技巨頭似乎還沒有出手。很快到了 9 月 7 日,在 2023 騰訊全球數(shù)字生態(tài)大會(huì)上,騰訊正式揭開了混元大模型的面紗,并通過騰訊云對(duì)外開放。作為一個(gè)超千億參數(shù)的大模型,混元使用的預(yù)訓(xùn)練語料超過兩萬億 token,憑借多項(xiàng)獨(dú)有的技術(shù)能力獲得了強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力,以及可靠的任務(wù)執(zhí)行能力。
騰訊集團(tuán)副總裁蔣杰表示:「騰訊混元大模型是從第一個(gè) token 開始從零訓(xùn)練的,我們掌握了從模型算法到機(jī)器學(xué)習(xí)框架,再到 AI 基礎(chǔ)設(shè)施的全鏈路自研技術(shù)?!?/span>打開大模型,全部都是生產(chǎn)力騰訊一直表示在大模型的相關(guān)方向上早已有所布局,專項(xiàng)研究一直有序推進(jìn)。這個(gè)不是「新技術(shù)」的大模型是什么級(jí)別?在大會(huì)上蔣杰通過直接詢問混元大模型的方式透露了一些基本信息,它的參數(shù)量是千億級(jí),訓(xùn)練用的數(shù)據(jù)截止到今年 7 月份,此外騰訊也表示大模型的知識(shí)將會(huì)每月更新。騰訊在現(xiàn)場(chǎng)展示了「騰訊混元大模型小程序」、騰訊文檔中的 AI 助手以及騰訊會(huì)議 AI 助手的能力。機(jī)器之心第一時(shí)間獲得測(cè)試資格嘗試了一番,首先是微信小程序。
從生產(chǎn)力、生活、娛樂到編程開發(fā),它開放的能力可謂非常全面了,符合一個(gè)千億級(jí)大模型的身份。那么混元真的能有效地完成這些任務(wù)嗎?我要寫一份 PPT,只想好了主題卻不知從何寫起,問一下混元大模型。只需幾秒,AI 就給了一份分出七個(gè)部分的大綱,每一部分里也包含細(xì)分的點(diǎn):輸入一篇 arXiv 上 9 月份谷歌提交的論文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》摘要和介紹部分,長(zhǎng)長(zhǎng)的好幾段,很多大模型根本不支持這么多輸入內(nèi)容,混元大模型直接進(jìn)行了總結(jié)順便翻譯成中文。它詳細(xì)解釋了平方根倒數(shù)算法里面數(shù)字的意義(不過對(duì)注釋理解得不太透徹)?;蛟S過不了多久,我們做開發(fā)的時(shí)候就離不開大模型了。然后是騰訊文檔。很多人已經(jīng)把 GPT-4 等大模型工具用在了自己的工作流程中,混元大模型在騰訊文檔推出的智能助手功能中已有應(yīng)用。在 PC 端新建智能文檔,輸入 “/”,就能根據(jù)需求實(shí)現(xiàn)內(nèi)容生成、翻譯、潤(rùn)色等操作。已覆蓋騰訊超過 50 個(gè)業(yè)務(wù)蔣杰總結(jié)了混元大模型的三大特點(diǎn):具備強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力以及可靠的任務(wù)執(zhí)行能力。目前不少業(yè)內(nèi)大模型在場(chǎng)景中的應(yīng)用依然有限,主要問題集中在容錯(cuò)率高,只適用于任務(wù)簡(jiǎn)單的休閑場(chǎng)景。騰訊在算法層面進(jìn)行了一系列自研創(chuàng)新,提高了模型可靠性和成熟度。
針對(duì)大模型容易「胡言亂語」的問題,騰訊優(yōu)化了預(yù)訓(xùn)練算法及策略,通過自研的「探真」技術(shù),讓混元大模型的「幻覺」相比主流開源大模型降低了 30-50%。「業(yè)界的做法是提供搜索增強(qiáng),知識(shí)圖譜等『外掛』來提升大模型開卷考試的能力。這種方式增加了模型的知識(shí),但在實(shí)際應(yīng)用中存在很多局限性,」蔣杰表示?!富煸竽P驮陂_發(fā)初期就考慮完全不依賴外界數(shù)據(jù)的方式,進(jìn)行了大量研究嘗試,我們找到的預(yù)訓(xùn)練方法,很大程度上解決了幻覺的問題。」騰訊還通過強(qiáng)化學(xué)習(xí)的方法,讓模型學(xué)會(huì)識(shí)別陷阱問題,通過位置編碼的優(yōu)化,提高了模型處理超長(zhǎng)文的效果和性能。在邏輯方面,騰訊提出了思維鏈的新策略,讓大模型能夠像人一樣結(jié)合實(shí)際的應(yīng)用場(chǎng)景進(jìn)行推理和決策。騰訊混元大模型能夠理解上下文的含義,具有長(zhǎng)文記憶能力,可以流暢地進(jìn)行專業(yè)領(lǐng)域的多輪對(duì)話。除此之外,它還能進(jìn)行文學(xué)創(chuàng)作、文本摘要、角色扮演等內(nèi)容創(chuàng)作,做到充分理解用戶意圖,并高效、準(zhǔn)確的給出有時(shí)效性的答復(fù)。這樣的技術(shù)落地之后,才能真正提升生產(chǎn)力。
在中國信通院《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用的評(píng)估方法》的標(biāo)準(zhǔn)符合性測(cè)試中,混元大模型共測(cè)評(píng) 66 個(gè)能力項(xiàng),在「模型開發(fā)」和「模型能力」兩個(gè)領(lǐng)域的綜合評(píng)價(jià)獲得了當(dāng)前最高分。在主流的評(píng)測(cè)集 MMLU、CEval 和 AGI-eval 上,混元大模型均有優(yōu)異的表現(xiàn),特別是在中文的理科、高考題和數(shù)學(xué)等子項(xiàng)上表現(xiàn)突出。構(gòu)建大模型的意義在于行業(yè)應(yīng)用。據(jù)了解,騰訊內(nèi)部已有超過 50 個(gè)業(yè)務(wù)和產(chǎn)品接入并測(cè)試了騰訊混元大模型,包括騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會(huì)議、騰訊文檔、微信搜一搜、QQ 瀏覽器等,并取得了初步效果。騰訊的程序員們,已經(jīng)在用大模型工具提高開發(fā)效率了。此外,騰訊還通過自研機(jī)器學(xué)習(xí)框架 Angel,使模型的訓(xùn)練速度相比業(yè)界主流框架提升 1 倍,推理速度比業(yè)界主流框架提升 1.3 倍。用于構(gòu)建大模型的基礎(chǔ)設(shè)施也沒有拉下。此前騰訊曾表示已于今年年初構(gòu)建了大規(guī)模算力中心,近期 MiniMax 和百川智能旗下的大模型都使用了騰訊的算力。騰訊也在致力于把行業(yè)數(shù)據(jù)與自身能力相結(jié)合,基于外部客戶的行業(yè)化數(shù)據(jù)來解決行業(yè)特定問題,與實(shí)體行業(yè)結(jié)合,不斷推動(dòng)大模型的社會(huì)、經(jīng)濟(jì)利益和商業(yè)價(jià)值。「根據(jù)公開數(shù)據(jù)顯示,國內(nèi)已有 130 個(gè)大模型發(fā)布。其中既有通用模型也有專業(yè)領(lǐng)域模型?;煸鳛橥ㄓ媚P湍軌蛑С烛v訊內(nèi)部的大部分業(yè)務(wù),今天我展示的幾個(gè)深度接入的業(yè)務(wù)都有很大的用戶量。大模型已在我們的核心領(lǐng)域獲得了深度應(yīng)用,」蔣杰說道?!肝掖竽P褪紫仁欠?wù)企業(yè)本身,其次是通過騰訊云對(duì)外開放。」在開放給客戶使用時(shí),混元大模型將作為騰訊云模型即服務(wù) MaaS 的底座??蛻艏瓤梢灾苯诱{(diào)用混元 API,也能將混元作為基座模型,為不同的產(chǎn)業(yè)場(chǎng)景構(gòu)建專屬應(yīng)用。可見,騰訊在大模型領(lǐng)域的策略講究的是一個(gè)穩(wěn)字:專注打好基礎(chǔ),不急于拿出半成品展示。而這一出手,就展現(xiàn)出了過硬的實(shí)力。
不過大模型的發(fā)展還在繼續(xù),正如蔣杰所言:「毫不夸張地說,騰訊已經(jīng)全面擁抱大模型。我們的能力一直在演進(jìn),相信 AIGC 的潛力是無限的,我們已在路上。」
4. GitHub熱榜登頂:開源版GPT-4代碼解釋器,可安裝任意Python庫,本地終端運(yùn)行
原文:https://mp.weixin.qq.com/s/TiSVeZOeWourVJ60yyyygwChatGPT的代碼解釋器,用自己的電腦也能運(yùn)行了。剛剛有位大神在GitHub上發(fā)布了本地版的代碼解釋器,很快就憑借3k+星標(biāo)并登頂GitHub熱榜。不僅GPT-4本來有的功能它都有,關(guān)鍵是還可以聯(lián)網(wǎng)。
ChatGPT“斷網(wǎng)”的消息傳出后引起了一片嘩然,而且一關(guān)就是幾個(gè)月。這幾個(gè)月間聯(lián)網(wǎng)功能一直杳無音訊,現(xiàn)在可算是有解決的辦法了。由于代碼是在本地運(yùn)行,所以除了聯(lián)網(wǎng)之外,它還解決了網(wǎng)頁版的很多其他問題:
- 3小時(shí)只能發(fā)50條消息
- 支持的Python模塊數(shù)量有限
- 處理文件大小有限制,不能超過100MB
- 關(guān)閉會(huì)話窗口之后,此前生成的文件會(huì)被刪除
那么我們就來看看這個(gè)本地代碼解釋器到底怎么樣吧!讓GPT“重新聯(lián)網(wǎng)”既然調(diào)用了GPT-4的API,那GPT-4支持的功能自然都能用,當(dāng)然也支持中文。關(guān)于GPT本身的功能這里就不再一一詳細(xì)展示了。不過值得一提的是,有了代碼解釋器之后,GPT的數(shù)學(xué)水平提升了好幾個(gè)檔次。所以這里我們用一個(gè)高難度的求導(dǎo)問題來考驗(yàn)一下它,題目是f(x)=√(x+√(x+√x))。
Emmm……這個(gè)結(jié)果有些抽象,不過應(yīng)該是提示詞的問題,我們修改一下:
然后我們就看到了這樣的結(jié)果:
這個(gè)式子和標(biāo)準(zhǔn)答案長(zhǎng)得不太一樣,不過是不是格式的問題呢?我們驗(yàn)證了一下:
結(jié)果是正確的!接下來就要進(jìn)入重頭戲了,來看看這個(gè)代碼解釋器的聯(lián)網(wǎng)功能到底是不是噱頭:比如我們想看一下最近有什么新聞。更多的內(nèi)容請(qǐng)點(diǎn)擊原文,謝謝。
5. ReVersion|圖像生成中的Relation定制化
原文:https://mp.weixin.qq.com/s/7W80wWf2Bj68MnC8NEV9cQ新任務(wù):Relation Inversion今年,diffusion model和相關(guān)的定制化(personalization)的工作越來越受人們歡迎,例如DreamBooth,Textual Inversion,Custom Diffusion等,該類方法可以將一個(gè)具體物體的概念從圖片中提取出來,并加入到預(yù)訓(xùn)練的text-to-image diffusion model中,這樣一來,人們就可以定制化地生成自己感興趣的物體,比如說具體的動(dòng)漫人物,或者是家里的雕塑,水杯等等。現(xiàn)有的定制化方法主要集中在捕捉物體外觀(appearance)方面。然而,除了物體的外觀,視覺世界還有另一個(gè)重要的支柱,就是物體與物體之間千絲萬縷的關(guān)系(relation)。目前還沒有工作探索過如何從圖片中提取一個(gè)具體關(guān)系(relation),并將該relation作用在生成任務(wù)上。為此,我們提出了一個(gè)新任務(wù):Relation Inversion。
如上圖,給定幾張參考圖片,這些參考圖片中有一個(gè)共存的relation,例如“物體A被裝在物體B中”,Relation Inversion的目標(biāo)是找到一個(gè)relation prompt來描述這種交互關(guān)系,并將其應(yīng)用于生成新的場(chǎng)景,讓其中的物體也按照這個(gè)relation互動(dòng),例如將蜘蛛俠裝進(jìn)籃子里。
論文:https://arxiv.org/abs/2303.13495代碼:https://github.com/ziqihuangg/ReVersion主頁:https://ziqihuangg.github.io/projects/reversion.html視頻:https://www.youtube.com/watch?v=pkal3yjyyKQDemo:https://huggingface.co/spaces/Ziqi/ReVersionReVersion框架作為針對(duì)Relation Inversion問題的首次嘗試,我們提出了ReVersion框架:
相較于已有的Appearance Invesion任務(wù),Relation Inversion任務(wù)的難點(diǎn)在于怎樣告訴模型我們需要提取的是relation這個(gè)相對(duì)抽象的概念,而不是物體的外觀這類有顯著視覺特征的方面。我們提出了relation-focal importance sampling策略來鼓勵(lì)更多地關(guān)注high-level的relation;同時(shí)設(shè)計(jì)了relation-steering contrastive learning來引導(dǎo)更多地關(guān)注relation,而非物體的外觀。更多細(xì)節(jié)詳見論文。ReVersion Benchmark我們收集并提供了ReVersion Benchmark:https://github.com/ziqihuangg/ReVersion#the-reversion-benchmark它包含豐富多樣的relation,每個(gè)relation有多張exemplar images以及人工標(biāo)注的文字描述。我們同時(shí)對(duì)常見的relation提供了大量的inference templates,大家可以用這些inference templates來測(cè)試學(xué)到的relation prompt是否精準(zhǔn),也可以用來組合生成一些有意思的交互場(chǎng)景。結(jié)果展示豐富多樣的relation,我們可以invert豐富多樣的relation,并將它們作用在新的物體上
6. 神經(jīng)網(wǎng)絡(luò)大還是小?Transformer模型規(guī)模對(duì)訓(xùn)練目標(biāo)的影響
原文:https://mp.weixin.qq.com/s/el_vtxw-54LVnuWzS1JYDw
論文鏈接:https://arxiv.org/abs/2205.1050501 TL;DR本文研究了 Transformer 類模型結(jié)構(gòu)(configration)設(shè)計(jì)(即模型深度和寬度)與訓(xùn)練目標(biāo)之間的關(guān)系。結(jié)論是:token 級(jí)的訓(xùn)練目標(biāo)(如 masked token prediction)相對(duì)更適合擴(kuò)展更深層的模型,而 sequence 級(jí)的訓(xùn)練目標(biāo)(如語句分類)則相對(duì)不適合訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),在訓(xùn)練時(shí)會(huì)遇到 over-smoothing problem。在配置模型的結(jié)構(gòu)時(shí),我們應(yīng)該注意模型的訓(xùn)練目標(biāo)。一般而言,在我們討論不同的模型時(shí),為了比較的公平,我們會(huì)采用相同的配置。然而,如果某個(gè)模型只是因?yàn)樵诮Y(jié)構(gòu)上更適應(yīng)訓(xùn)練目標(biāo),它可能會(huì)在比較中勝出。對(duì)于不同的訓(xùn)練任務(wù),如果沒有進(jìn)行相應(yīng)的模型配置搜索,它的潛力可能會(huì)被低估。因此,為了充分理解每個(gè)新穎訓(xùn)練目標(biāo)的應(yīng)用潛力,我們建議研究者進(jìn)行合理的研究并自定義結(jié)構(gòu)配置。02 概念解釋下面將集中解釋一些概念,以便于快速理解:2.1 Training Objective(訓(xùn)練目標(biāo))
訓(xùn)練目標(biāo)是模型在訓(xùn)練過程中完成的任務(wù),也可以理解為其需要優(yōu)化的損失函數(shù)。在模型訓(xùn)練的過程中,有多種不同的訓(xùn)練目標(biāo)可以使用,在此我們列出了 3 種不同的訓(xùn)練目標(biāo)并將其歸類為 token level 和 sequence level:
- sequence level:
-
- classification 分類任務(wù),作為監(jiān)督訓(xùn)練任務(wù)。簡(jiǎn)單分類(Vanilla Classification)要求模型對(duì)輸入直接進(jìn)行分類,如對(duì)句子進(jìn)行情感分類,對(duì)圖片進(jìn)行分類;而 CLIP 的分類任務(wù)要求模型將圖片與句子進(jìn)行匹配。
- token level:(無監(jiān)督)
-
- masked autoencoder:masked token 預(yù)測(cè)任務(wù),模型對(duì)部分遮蓋的輸入進(jìn)行重建
- next token prediction:對(duì)序列的下一個(gè) token 進(jìn)行預(yù)測(cè)
Transoformer 的配置指的是定義 Transformer 模型結(jié)構(gòu)和大小的超參數(shù),包括層數(shù)(深度),隱藏層大小(寬度),注意力頭的個(gè)數(shù)等。2.3 Over-smoothing (過度平滑)
過度平滑是一個(gè)在圖神經(jīng)網(wǎng)絡(luò)中的概念,具體表示模型輸出趨向平滑一致,各個(gè)點(diǎn)的輸出缺少細(xì)節(jié)和變化的現(xiàn)象。這一現(xiàn)象在圖神經(jīng)網(wǎng)絡(luò)中被廣泛研究,但它也在 Transformer 模型中存在。(已有研究)發(fā)現(xiàn) Transoformer 模型遇到的 over-smoothing 問題阻礙模型加深。具體而言,當(dāng)堆疊多層的 Transformer layers 時(shí),transformer layer 輸出的 token 表征(向量)會(huì)趨于一致,丟失獨(dú)特性。這阻礙了 Transformer 模型的擴(kuò)展性,特別是在深度這一維度上。增加 Transformer 模型的深度只帶來微小的性能提升,有時(shí)甚至?xí)p害原有模型的性能。1. ViT 和 MAE 中的 over-smoothing直觀上,掩碼自編碼器框架(例如 BERT、BEiT、MAE)的訓(xùn)練目標(biāo)是基于未掩碼的 unmasked token 恢復(fù)被掩碼的 masked token。與使用簡(jiǎn)單分類目標(biāo)訓(xùn)練 Transformer 相比,掩碼自編碼器框架采用了序列標(biāo)注目標(biāo)。我們先假設(shè)掩碼自編碼器訓(xùn)練能緩解 over-smoothing,這可能是掩碼自編碼器 MAE 有助于提升 Transformer 性能的原因之一。由于不同的 masked token 相鄰的 unmaksed token 也不同,unmasked token 必須具有充分的語義信息,以準(zhǔn)確預(yù)測(cè)其臨近的 masked token。也即,unmasked token 的表征的語義信息是重要的,這抑制了它們趨向一致??傊覀兛梢酝茢嘌诖a自編碼器的訓(xùn)練目標(biāo)通過對(duì) token 間的差異進(jìn)行正則化,有助于緩解過度平滑問題。我們通過可視化的實(shí)驗(yàn)來驗(yàn)證了這一觀點(diǎn)。我們發(fā)現(xiàn) ViT 的 token 表征在更深的層中更加接近,而 MAE 模型則避免了這個(gè)問題,這說明在掩碼自編碼器中,over-smoothing 問題得到了緩解。通過簡(jiǎn)單的分類任務(wù)訓(xùn)練 Transformer 模型則不具備這一特點(diǎn)。
進(jìn)一步的,我們還通過傅里葉方法對(duì)這一問題進(jìn)行了研究,具體可以參考我們的論文。2. CLIP 和 LLM 中的 over-smoothing根據(jù)上述分析,我們可以得出結(jié)論:token 級(jí)的訓(xùn)練目標(biāo)(例如語言建模中的:next token prediction)表現(xiàn)出較輕的 over-smoothing。另一方面,基于 sequence 級(jí)別的目標(biāo)(如對(duì)比圖像預(yù)訓(xùn)練)更容易出現(xiàn) over-smoothing。為了驗(yàn)證這個(gè)結(jié)論,我們使用 CLIP 和 OPT 進(jìn)行了類似的 cosine 相似度實(shí)驗(yàn)。我們可以看到 CLIP 模型展現(xiàn)了與 Vanilla ViT 類似的 over-smoothing 現(xiàn)象。這一觀察結(jié)果符合我們的預(yù)期。此外,為了探究 next-token prediction 這一廣泛采用的語言建模預(yù)訓(xùn)練目標(biāo)是否可以緩解 over-smoothing,我們對(duì) OPT 進(jìn)行了評(píng)估,并發(fā)現(xiàn)它能夠有效應(yīng)對(duì) over-smoothing。這一發(fā)現(xiàn)具有重要意義,因?yàn)樗兄诮忉尀槭裁凑Z言建模模型在可擴(kuò)展性方面(如超大規(guī)模預(yù)訓(xùn)練語言模型)優(yōu)于許多視覺模型。
03 溯源:現(xiàn)有的Transformer架構(gòu)是怎么來的為了在研究時(shí)保證公平的比較,現(xiàn)有的 Transformer 類模型通常會(huì)遵循固定的結(jié)構(gòu)(small, base, large…),即相同的寬度和深度。比如前面提到的 transformer-base 就是寬度為 768(隱藏層),深度為 12(層數(shù))。然而,對(duì)于不同的研究領(lǐng)域,不同的模型功能,為什么仍要采用相同的超參數(shù)?為此,我們首先對(duì) Transformer 架構(gòu)進(jìn)行了溯源,回顧了代表性的工作中 Transformer 結(jié)構(gòu)的來源:Vision Transformer 的作者根據(jù) BERT 中 Transformer-base 的結(jié)構(gòu)作為其 ViT 模型配置;而 BERT 在選擇配置時(shí)遵循了 OpenAI GPT 的方法;OpenAI 則參考了最初的 Transformer 論文。在最初的 Transformer 論文中,最佳配置來源于機(jī)器翻譯任務(wù)的笑容實(shí)驗(yàn)。也就是說,對(duì)于不同任務(wù),我們均采用了基于對(duì)機(jī)器翻譯任務(wù)的 Transformer 配置。(參考上文,這是一種序列級(jí)別的任務(wù))
04 現(xiàn)狀:不同的模型采用不同的訓(xùn)練目標(biāo)現(xiàn)在,Transformer 模型通過各種訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練。以 ViT 為例,我們可以在圖像分類的監(jiān)督學(xué)習(xí)環(huán)境下從頭開始訓(xùn)練 Transformer 模型。在這種直接的圖像分類任務(wù)中,每個(gè)圖像被建模為一個(gè) token 序列,其中每個(gè) token 對(duì)應(yīng)圖像中的一個(gè)圖塊。我們使用來自圖像的所有 token(即圖塊)的全局信息來預(yù)測(cè)單個(gè)標(biāo)簽,即圖像類別。在這里,由于訓(xùn)練目標(biāo)是捕捉圖像的全局信息,token 表示之間的差異不會(huì)直接被考慮。這一訓(xùn)練目標(biāo)與機(jī)器翻譯任務(wù)完全不同,機(jī)器翻譯要求模型理解 token 序列,并以此生成另一個(gè)序列。據(jù)此,我們可以合理假設(shè)對(duì)于這兩個(gè)不同任務(wù),應(yīng)該存在不同的最佳 Transformer 配置。
05 對(duì)于MAE訓(xùn)練目標(biāo)調(diào)整模型結(jié)構(gòu)基于上述的討論,我們得到了如下認(rèn)識(shí):
- 現(xiàn)有的 Transformer 模型在加深模型深度時(shí)會(huì)發(fā)生 over-smoothing 問題,這阻礙了模型在深度上的拓展。
- 相較于簡(jiǎn)單分類訓(xùn)練目標(biāo),MAE 的掩碼預(yù)測(cè)任務(wù)能夠緩解 over-smoothing。(進(jìn)一步地,token 級(jí)別的訓(xùn)練目標(biāo)都能夠一定程度地緩解 over-smoothing)
- MAE 的現(xiàn)有模型結(jié)構(gòu)繼承于機(jī)器翻譯任務(wù)上的最佳結(jié)構(gòu)設(shè)置,不一定合理。
另外,我們?cè)谏疃韧卣剐陨弦沧隽藢?shí)驗(yàn),可以看到,當(dāng)采用 Bamboo 的配置時(shí),MAE 能夠獲得明顯的性能提升,而對(duì)于 ViT 而言,更深的模型則是有害的。MAE 在深度增加到 48 層時(shí)仍能獲得性能提升,而 ViT 則總是處于性能下降的趨勢(shì)。
以上的結(jié)果佐證了本文提出的觀點(diǎn):訓(xùn)練目標(biāo)能夠影響模型拓展的行為。Training objectives can greatly change the scaling behavior.06 結(jié)論本文發(fā)現(xiàn),Transformer 的配置與其訓(xùn)練目標(biāo)之間存在著密切關(guān)系。sequence 級(jí)別的訓(xùn)練目標(biāo),如直接分類和 CLIP,通常遇到 over-smoothing。而 token 級(jí)的訓(xùn)練目標(biāo),如 MAE 和 LLMs 的 next token prediction,可以較好地緩解 over-smoothing。這一結(jié)論解釋了許多模型擴(kuò)展性研究結(jié)果,例如 GPT-based LLMs 的可擴(kuò)展性以及 MAE 比 ViT 更具擴(kuò)展性的現(xiàn)象。我們認(rèn)為這一觀點(diǎn)對(duì)我們的學(xué)術(shù)界有助于理解許多 Transformer 模型的擴(kuò)展行為。
———————End———————
點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)
原文標(biāo)題:【AI簡(jiǎn)報(bào)20230908期】正式亮相!打開騰訊混元大模型,全部都是生產(chǎn)力
文章出處:【微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
RT-Thread
+關(guān)注
關(guān)注
31文章
1305瀏覽量
40386
原文標(biāo)題:【AI簡(jiǎn)報(bào)20230908期】正式亮相!打開騰訊混元大模型,全部都是生產(chǎn)力
文章出處:【微信號(hào):RTThread,微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論