AI 簡報 20230616 期
1. AMD硬剛英偉達(dá),推出Instinct MI300,單芯片可運行800億參數(shù)
原文:https://mp.weixin.qq.com/s/NeSIBtjZ71evn09NPEAc2Q美國時間本周二,AMD舉行了重磅發(fā)布會,推出了一款全新的人工智能GPU Instinct MI300,并表示這款處理器將于今年晚些時候開始向部分客戶發(fā)貨。自英偉達(dá)發(fā)布了AI芯片后,便徹底帶動了市場的投資熱情,也推動英偉達(dá)登上萬億美元市值的高峰。此次AMD發(fā)布重磅AI芯片,有望對英偉達(dá)當(dāng)前的市場地位形成一定沖擊。AMD推出高性能AI芯片在這次AMD的新品發(fā)布會中,核心產(chǎn)品無疑是用于訓(xùn)練大模型的GPU Instinct MI300。早在今年初,AMD便已經(jīng)宣布了新一代Instinct MI300,是全球首款同時集成CPU、GPU的數(shù)據(jù)中心APU。如今,這款芯片的名字變成了Instinct MI300A,而純GPU產(chǎn)品則命名為Instinct MI300X。據(jù)AMD的CEO蘇姿豐透露,MI300A是全球首個為AI和HPC(高性能計算)打造的APU加速卡,擁有13個小芯片,總共包含1460億個晶體管,24個Zen 4 CPU核心,1個CDNA 3圖形引擎和128GB HBM3內(nèi)存。相比前代MI250,MI300的性能提高八倍,效率提高五倍。AMD在發(fā)布會稍早介紹,新的Zen 4c內(nèi)核比標(biāo)準(zhǔn)的Zen 4內(nèi)核密度更高,比標(biāo)準(zhǔn)Zen 4的內(nèi)核小35%,同時保持100%的軟件兼容性。而GPU MI300X更是本次發(fā)布會的重點,這款芯片是AMD針對大語言模型優(yōu)化的版本,該產(chǎn)品的晶體管數(shù)量達(dá)到1530億個,內(nèi)存達(dá)到了192GB,內(nèi)存帶寬為5.2TB/s,Infinity Fabric帶寬為896GB/s。對比英偉達(dá)的H100,MI300X提供的HBM(高帶寬內(nèi)存)密度約為H100的2.4倍,HBM帶寬是1.6倍。這意味著AMD的這款產(chǎn)品可以運行比英偉達(dá)H100更大的模型,在現(xiàn)場AMD演示了MI300X運行400億參數(shù)的Falcon模型,而OpenAI的GPT-3模型有1750億個參數(shù)。蘇姿豐還用Hugging Face基于MI300X的大模型寫了一首關(guān)于活動舉辦地舊金山的詩。這也是全球首次在單個GPU上運行這么大的模型,據(jù)AMD介紹,單個MI300X可以運行一個參數(shù)多達(dá)800億的模型。而在未來隨著AI模型越來越大,意味著需要更多GPU來運行最新的大模型,而AMD芯片上內(nèi)存的增加,意味著開發(fā)人員不需要那么多GPU,可以為用戶節(jié)省大量成本。蘇姿豐表示,MI300X將于今年第三季度向一些客戶提供樣品,并于第四季度量產(chǎn)。同時AMD還發(fā)布了AMD Instinct Platform,集合了8個MI300X,可提供總計1.5TB的HBM3內(nèi)存。對標(biāo)英偉達(dá)的CUDA,AMD也介紹了自身的芯片軟件ROCm,AMD總裁Victor Peng稱,在構(gòu)建強大的軟件堆棧方面,AMD取得了真正的巨大進(jìn)步,ROCm軟件??膳c模型、庫、框架和工具的開放生態(tài)系統(tǒng)配合使用。之所以將重心放在AI芯片,也是因為AMD非??春梦磥淼腁I市場。蘇姿豐認(rèn)為,數(shù)據(jù)中心人工智能加速器的潛在市場總額將從今年的300億美元增長到2027年的1500億美元以上。硬剛英偉達(dá),但尚未透露大客戶從AMD所介紹的產(chǎn)品性能來看,將成為當(dāng)下AI市場的有力競爭者,尤其在ChatGPT等生成式AI的帶動下,市場對高性能GPU需求旺盛。不過當(dāng)前市場中,英偉達(dá)處于絕對優(yōu)勢,占據(jù)80%的市場。而AMD并沒有公布這款GPU的具體價格,但是對比英偉達(dá)H100價格大多在3萬美元以上,如果MI300X價格能夠更加實惠,將顯著的對英偉達(dá)產(chǎn)品造成沖擊,并有助于降低生成式AI的研發(fā)成本。有意思的是,在如此強勁的性能面前,市場卻似乎并不買單。截至當(dāng)日收盤,AMD股價反而下降了3.61%,市值來到2000億元關(guān)口。而英偉達(dá)股價則拉升了3.9%,總市值達(dá)到1.01萬億美元,是AMD的五倍。此次AMD并未透露哪些公司會采用MI300X或簡配版MI300A,而在此前的發(fā)布會中,AMD都會披露新產(chǎn)品的大客戶。這可能讓市場認(rèn)為,目前并沒有大客戶為這款芯片買單。另一方面,AMD并沒有透露新款A(yù)I芯片的具體售價,但想要有顯著的成本優(yōu)勢可能不太現(xiàn)實,因為高密度的HBM價格昂貴。即便MI300X的內(nèi)存達(dá)到了192GB,但這也不是顯著優(yōu)勢,因為英偉達(dá)也擁有相同內(nèi)存規(guī)格的產(chǎn)品。更重要的原因在于,MI300并不具備H100所擁有的Transformer Engine。Transformer Engine能夠用于加速Transformer模型,以在AI的訓(xùn)練和推理中以較低的內(nèi)存利用率提供更好的性能。有分析師認(rèn)為,如果訓(xùn)練一個新的模型,需要投入數(shù)千個GPU,并耗費一年的時間,那么幾乎不會有人會浪費2-3年或者投入3倍數(shù)量的GPU。而Transformer Engine能夠讓大模型實現(xiàn)三倍的性能表達(dá)。盡管市場中認(rèn)為,AMD的MI300芯片應(yīng)該是除了谷歌的TPU之外,能與英偉達(dá)在AI訓(xùn)練端上匹敵的產(chǎn)品。成為當(dāng)前大企業(yè)在訓(xùn)練AI大模型時,除了英偉達(dá)之外的另一個重要選擇。但想要在短時間內(nèi)挑戰(zhàn)英偉達(dá),顯然還是比較困難的。就如AMD總裁VictorPeng說的那樣,“盡管這是一個過程,但我們在構(gòu)建強大的軟件堆棧方面取得了很大進(jìn)展,該軟件堆棧與開放的模型、庫、框架和工具生態(tài)系統(tǒng)兼容。”無論如何需要市場中有大客戶切實的使用AMD新款芯片。小結(jié)AMD此次重磅發(fā)布的MI300系列芯片,無疑為AI市場注入了一劑強心針,不僅預(yù)示著AMD在持續(xù)看好未來的AI市場,也將表明AMD將在這一市場中與英偉達(dá)正面競爭。至少對于相關(guān)企業(yè)及用戶而言,有更多的選擇是一件好事。
2. 價格最高降75%、API函數(shù)調(diào)用上線、上下文長度提高4倍,OpenAI凌晨再給ChatGPT、GPT-4加碼!
原文:https://mp.weixin.qq.com/s/GcsAk_qqqWfwck4KSdvJew就在今天凌晨,OpenAI 馬不停蹄地又雙叒叕更新啦!這一次,不僅重磅升級了 ChatGPT 背后的 GPT-3.5-turbo 模型、以及最先進(jìn)的 GPT-4 文本生成模型,而且大幅降低了價格,另外還為 gpt-3.5-turbo 提供 16000 個 Token 的語境窗口(Context Window)上下文選項。更新速覽詳細(xì)來看,在今天的更新中,OpenAI 主要聚焦在下面幾個維度:
- 全新的 16k 上下文 GPT-3.5-Turbo 模型版本(今天向所有人提供)
- 升級版的 GPT-4 和 GPT-3.5-Turbo 模型
- Chat Completions API 中的新函數(shù)調(diào)用功能
- 最先進(jìn)的 V2 嵌入模型降價 75%
- gpt-3.5-turbo 的輸入 Token 成本降低 25%
- 宣布 gpt-3.5-turbo-0301 和 gpt-4-0314 模型的淘汰時間表
- GPT-4 的 API 權(quán)限將開放給更多的人
- 創(chuàng)建聊天機(jī)器人,通過調(diào)用外部工具(例如,像 ChatGPT 插件)來回答問題
- 將自然語言轉(zhuǎn)換為 API 調(diào)用或數(shù)據(jù)庫查詢
- 從文本中提取結(jié)構(gòu)化數(shù)據(jù)
舊模型即將廢棄今天,OpenAI 將開始對 3 月份宣布的 gpt-4 和 gpt-3.5-turbo 的初始版本進(jìn)行升級和廢棄處理。使用穩(wěn)定模型名稱(gpt-3.5-turbo、gpt-4 和 gpt-4-32k)的應(yīng)用程序?qū)⒃?6 月 27 日自動升級到上面列出的新模型。為了比較不同版本的模型性能,OpenAI 還提供開源的 Evals 庫(https://github.com/openai/evals)支持公共和私人評估 LLM,幫助開發(fā)者評測模型的變化將如何影響你的用例。當(dāng)然,對于需要更多時間過渡的開發(fā)者,OpenAI 也表示,可以繼續(xù)使用舊的模型。這些舊型號將在 9 月 13 日之后,徹底棄用。加量不加價,即日起生效除了以上功能更新之外,OpenAI 宣布下調(diào)價格,即日起生效。首先,對于 OpenAI 最受歡迎的嵌入模型——text-embedding-ada-002,OpenAI 將成本降低 75%,至每 1K Token 是 0.0001 美元。其次,對于最受歡迎的聊天模型——GPT-3.5 Turbo,OpenAI 將輸入 Token 的成本直降 25%,現(xiàn)在每 1K 輸入 Token 只需 0.0015 美元,每 1K 輸出 token 只需 0.002 美元,這相當(dāng)于 1 美元大約有 700 頁的文本。再者,最新推出的 gpt-3.5-turbo-16k 的價格是每 1K 輸入 token 是 0.003 美元,每 1K 輸出 Token 為 0.004 美元。OpenAI 表示,降低成本是通過提高其系統(tǒng)的效率來實現(xiàn)的。毫無疑問,這是初創(chuàng)公司關(guān)注的關(guān)鍵領(lǐng)域,因為它在研發(fā)和基礎(chǔ)設(shè)施上花費了數(shù)億美元。
3. Altman、Hinton 中國首秀:GPT 終將過時,AI 是當(dāng)今世界最迫切的問題!
原文:https://mp.weixin.qq.com/s/TsjS-2b-UEE7zsWLA2f7AAOpenAI、DeepMind 和 Stability AI 的科學(xué)家科普 AI 治理,Google、Meta 和微軟的領(lǐng)航人物共論開源未來,圖靈獎得主與斯坦福、UC Berkeley、MIT 的教授展開學(xué)術(shù)辯論——這描述的并不是遠(yuǎn)在大洋彼岸的 NeurIPS 或 ACL 會議,而是由中國智源研究院主辦的年度盛會:北京智源大會。今年的北京智源大會于 6 月 9-10 日召開,20 場論壇、100 場報告、頂尖的專家、頂尖的觀眾,匯聚了 AI 領(lǐng)域純粹、專業(yè)的前沿思想。OpenAI 創(chuàng)始人 Sam Altman 以及“深度學(xué)習(xí)三巨頭”中的兩位 Yann LeCun 與 Geoffrey Hinton 現(xiàn)身于分論壇視頻連線的大熒幕上,Max Tegmark 與 Stuart Russell 等來自頂尖學(xué)府的教授親赴現(xiàn)場。CSDN 在現(xiàn)場參加了這場為時兩天的 AI 盛會。科技大咖智聚京城,共論當(dāng)前 AI 領(lǐng)域最前沿的爭議焦點:
- 對 AI 保持樂觀主義的 Yann LeCun,認(rèn)為 AI 還遠(yuǎn)遠(yuǎn)未發(fā)展到還需要操心的程度。GPT 終將過時,未來的 AI 會面臨三大挑戰(zhàn),解決后將能訓(xùn)練出「世界模型」(World Model)。
- 曾用一份“暫停 6 個月 AI 研究”的公開信震驚業(yè)界的 Max Tegmark 教授則表示,罔顧 AI 的最壞結(jié)果將會是人類滅絕。對齊問題將是學(xué)術(shù)界接下來的一大難題:如此龐大而復(fù)雜的智能模型,要怎樣才能保持和人類同一水準(zhǔn)的價值觀和道德觀?
- 一亮相便轟動北京會場的 Sam Altman,則發(fā)表了一份真誠的呼吁:國際科技界需要團(tuán)結(jié)一心,攜手促進(jìn) AGI 安全的透明化,為未來十年內(nèi)誕生的“超級智能”做好準(zhǔn)備。
- 學(xué)術(shù)界還有一部分人,對這些圍繞 GPT 的話題并不買賬,而是關(guān)心更深遠(yuǎn)的 AI 話題。Stuart Russell 教授直言,目前的大語言模型缺乏「內(nèi)部目標(biāo)」,而人類也不理解它們的“黑匣子”里都發(fā)生了什么。
- Geoffrey Hinton 則帶來了一場精彩絕倫的謝幕演講:“超級智能”已成雛形,但人類尚未給它建立道德準(zhǔn)則——現(xiàn)在為時不晚。
- AGI 可能很快會出現(xiàn),超級智能在未來十年內(nèi)可能會成為現(xiàn)實。
- 目前已經(jīng)取得了一些全球合作的突破,但全球合作仍然面臨困難。
- AI 安全性的研究是一個復(fù)雜的問題,需要考慮多個因素,并需要大量的投入,希望中國和美國的研究人員能做出貢獻(xiàn)。
- 當(dāng)被問及是否打算重新開放 GPT 的源代碼時,Altman 表示已經(jīng)作出了一定的努力,未來將會有許多開源大模型誕生。但開源模型在 AI 發(fā)展中起了重要作用,當(dāng)模型變得更大時,就更需要謹(jǐn)慎安全問題。
- 楊立昆即將參加一個辯論,與 Joshua Bengio、Max Tegmark 和 Melanie Mitchell 討論人工智能是否會威脅人類生存。
- Max Tegmark 和 Joshua Bengio 認(rèn)為強大的人工智能系統(tǒng)可能對人類構(gòu)成風(fēng)險,而楊立昆和 Melanie Mitchell 則持相反觀點。
- 楊立昆指出,他并不是想說“AI 完全不存在風(fēng)險”,而是認(rèn)為“目前的 AI 風(fēng)險可以被謹(jǐn)慎的工程設(shè)計減輕或抑制”。
- 楊立昆表示自己不能預(yù)測超級智能在未來能造成多大的影響,因為超級智能尚未問世。他舉了一個例子:如果你去問一個 1930 年的航空工程師,“我該如何確保渦輪噴氣發(fā)動機(jī)的安全可靠性?”那他肯定答不出來,因為渦輪噴氣發(fā)動機(jī)在 1930 年還沒被發(fā)明出來。
4. CVPR23|清華大學(xué)提出LiVT:用視覺Transformer學(xué)習(xí)長尾數(shù)據(jù),解決不平衡標(biāo)注數(shù)據(jù)不在話下
原文:https://mp.weixin.qq.com/s/1MfOWcE9x7Vk7tP2n1V4bg背景在機(jī)器學(xué)習(xí)領(lǐng)域中,學(xué)習(xí)不平衡的標(biāo)注數(shù)據(jù)一直是一個常見而具有挑戰(zhàn)性的任務(wù)。近年來,視覺 Transformer 作為一種強大的模型,在多個視覺任務(wù)上展現(xiàn)出令人滿意的效果。然而,視覺 Transformer 處理長尾分布數(shù)據(jù)的能力和特性,還有待進(jìn)一步挖掘。目前,已有的長尾識別模型很少直接利用長尾數(shù)據(jù)對視覺 Transformer(ViT)進(jìn)行訓(xùn)練。基于現(xiàn)成的預(yù)訓(xùn)練權(quán)重進(jìn)行研究可能會導(dǎo)致不公平的比較結(jié)果,因此有必要對視覺 Transformer 在長尾數(shù)據(jù)下的表現(xiàn)進(jìn)行系統(tǒng)性的分析和總結(jié)。
?
論文鏈接:https://arxiv.org/abs/2212.02015代碼鏈接:https://github.com/XuZhengzhuo/LiVT本文旨在填補這一研究空白,詳細(xì)探討了視覺 Transformer 在處理長尾數(shù)據(jù)時的優(yōu)勢和不足之處。本文將重點關(guān)注如何有效利用長尾數(shù)據(jù)來提升視覺 Transformer 的性能,并探索解決數(shù)據(jù)不平衡問題的新方法。通過本文的研究和總結(jié),研究團(tuán)隊有望為進(jìn)一步改進(jìn)視覺 Transformer 模型在長尾數(shù)據(jù)任務(wù)中的表現(xiàn)提供有益的指導(dǎo)和啟示。這將為解決現(xiàn)實世界中存在的數(shù)據(jù)不平衡問題提供新的思路和解決方案。文章通過一系列實驗發(fā)現(xiàn),在有監(jiān)督范式下,視覺 Transformer 在處理不平衡數(shù)據(jù)時會出現(xiàn)嚴(yán)重的性能衰退,而使用平衡分布的標(biāo)注數(shù)據(jù)訓(xùn)練出的視覺 Transformer 呈現(xiàn)出明顯的性能優(yōu)勢。相比于卷積網(wǎng)絡(luò),這一特點在視覺 Transformer 上體現(xiàn)的更為明顯。另一方面,無監(jiān)督的預(yù)訓(xùn)練方法無需標(biāo)簽分布,因此在相同的訓(xùn)練數(shù)據(jù)量下,視覺 Transformer 可以展現(xiàn)出類似的特征提取和重建能力。基于以上觀察和發(fā)現(xiàn),研究提出了一種新的學(xué)習(xí)不平衡數(shù)據(jù)的范式,旨在讓視覺 Transformer 模型更好地適應(yīng)長尾數(shù)據(jù)。通過這種范式的引入,研究團(tuán)隊希望能夠充分利用長尾數(shù)據(jù)的信息,提高視覺 Transformer 模型在處理不平衡標(biāo)注數(shù)據(jù)時的性能和泛化能力。文章貢獻(xiàn)本文是第一個系統(tǒng)性的研究用長尾數(shù)據(jù)訓(xùn)練視覺 Transformer 的工作,在此過程中,做出了以下主要貢獻(xiàn):首先,本文深入分析了傳統(tǒng)有監(jiān)督訓(xùn)練方式對視覺 Transformer 學(xué)習(xí)不均衡數(shù)據(jù)的限制因素,并基于此提出了雙階段訓(xùn)練流程,將視覺 Transformer 模型內(nèi)在的歸納偏置和標(biāo)簽分布的統(tǒng)計偏置分階段學(xué)習(xí),以降低學(xué)習(xí)長尾數(shù)據(jù)的難度。其中第一階段采用了流行的掩碼重建預(yù)訓(xùn)練,第二階段采用了平衡的損失進(jìn)行微調(diào)監(jiān)督。其次,本文提出了平衡的二進(jìn)制交叉熵?fù)p失函數(shù),并給出了嚴(yán)格的理論推導(dǎo)。平衡的二進(jìn)制交叉熵?fù)p失的形式如下:與之前的平衡交叉熵?fù)p失相比,本文的損失函數(shù)在視覺 Transformer 模型上展現(xiàn)出更好的性能,并且具有更快的收斂速度。研究中的理論推導(dǎo)為損失函數(shù)的合理性提供了嚴(yán)密的解釋,進(jìn)一步加強了我們方法的可靠性和有效性。基于以上貢獻(xiàn),文章提出了一個全新的學(xué)習(xí)范式 LiVT,充分發(fā)揮視覺 Transformer 模型在長尾數(shù)據(jù)上的學(xué)習(xí)能力,顯著提升模型在多個數(shù)據(jù)集上的性能。該方案在多個數(shù)據(jù)集上取得了遠(yuǎn)好于視覺 Transformer 基線的性能表現(xiàn)。不同參數(shù)量下在 ImageNet-LT 上的準(zhǔn)確性。同時,本文還驗證了在相同的訓(xùn)練數(shù)據(jù)規(guī)模的情況下,使用ImageNet的長尾分布子集(LT)和平衡分布子集(BAL)訓(xùn)練的 ViT-B 模型展現(xiàn)出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 數(shù)據(jù)集中,可以通過更大的模型和 MGP epoch 獲得更好的重建結(jié)果。總結(jié)本文提供了一種新的基于視覺 Transformer 處理不平衡數(shù)據(jù)的方法 LiVT。LiVT 利用掩碼建模和平衡微調(diào)兩個階段的訓(xùn)練策略,使得視覺 Transformer 能夠更好地適應(yīng)長尾數(shù)據(jù)分布并學(xué)習(xí)到更通用的特征表示。該方法不僅在實驗中取得了顯著的性能提升,而且無需額外的數(shù)據(jù),具有實際應(yīng)用的可行性。
5. LeCun世界模型首項研究來了:自監(jiān)督視覺,像人一樣學(xué)習(xí)和推理,已開源
原文:https://mp.weixin.qq.com/s/A_MmOIOQ08SzWntpd6VYGg去年初,Meta 首席 AI 科學(xué)家 Yann LeCun 針對「如何才能打造出接近人類水平的 AI」提出了全新的思路。他勾勒出了構(gòu)建人類水平 AI 的另一種愿景,指出學(xué)習(xí)世界模型(即世界如何運作的內(nèi)部模型)的能力或許是關(guān)鍵。這種學(xué)到世界運作方式內(nèi)部模型的機(jī)器可以更快地學(xué)習(xí)、規(guī)劃完成復(fù)雜的任務(wù),并輕松適應(yīng)不熟悉的情況。LeCun 認(rèn)為,構(gòu)造自主 AI 需要預(yù)測世界模型,而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測,對應(yīng)的解決方案是一種叫做分層 JEPA(聯(lián)合嵌入預(yù)測架構(gòu))的架構(gòu)。該架構(gòu)可以通過堆疊的方式進(jìn)行更抽象、更長期的預(yù)測。6 月 9 日,在 2023 北京智源大會開幕式的 keynote 演講中,LeCun 又再次講解了世界模型的概念,他認(rèn)為基于自監(jiān)督的語言模型無法獲得關(guān)于真實世界的知識,這些模型在本質(zhì)上是不可控的。今日,Meta 推出了首個基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯(lián)合嵌入預(yù)測架構(gòu)(Image Joint Embedding Predictive Architecture, I-JEPA),它通過創(chuàng)建外部世界的內(nèi)部模型來學(xué)習(xí), 比較圖像的抽象表示(而不是比較像素本身)。I-JEPA 在多項計算機(jī)視覺任務(wù)上取得非常不錯的效果,并且計算效率遠(yuǎn)高于其他廣泛使用的計算機(jī)視覺模型。此外 I-JEPA 學(xué)得的表示也可以用于很多不同的應(yīng)用,無需進(jìn)行大量微調(diào)。舉個例子,Meta 在 72 小時內(nèi)使用 16 塊 A100 GPU 訓(xùn)練了一個 632M 參數(shù)的視覺 transformer 模型,還在 ImageNet 上實現(xiàn)了 low-shot 分類的 SOTA 性能,其中每個類只有 12 個標(biāo)簽樣本。其他方法通常需要 2 到 10 倍的 GPU 小時數(shù),并在使用相同數(shù)據(jù)量訓(xùn)練時誤差率更高。相關(guān)的論文《Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture》已被 CVPR 2023 接收。當(dāng)然,所有的訓(xùn)練代碼和模型檢查點都將開源。
通過自監(jiān)督學(xué)習(xí)獲取常識型知識I-JEPA 基于一個事實,即人類僅通過被動觀察就可以了解關(guān)于世界的大量背景知識,這些常識信息被認(rèn)為是實現(xiàn)智能行為的關(guān)鍵。通常,AI 研究人員會設(shè)計學(xué)習(xí)算法來捕獲現(xiàn)實世界的常識,并將其編碼為算法可訪問的數(shù)字表征。為了高效,這些表征需要以自監(jiān)督的方式來學(xué)習(xí),即直接從圖像或聲音等未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),而不是從手動標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。在高層級上,JEPA 的一個輸入中某個部分的表征是根據(jù)其他部分的表征來預(yù)測的。同時,通過在高抽象層次上預(yù)測表征而不是直接預(yù)測像素值,JEPA 能夠直接學(xué)習(xí)有用的表征,同時避免了生成模型的局限性。相比之下,生成模型會通過刪除或扭曲模型輸入的部分內(nèi)容來學(xué)習(xí)。然而,生成模型的一個顯著缺點是模型試圖填補每一點缺失的信息,即使現(xiàn)實世界本質(zhì)上是不可預(yù)測的。因此,生成模型過于關(guān)注不相關(guān)的細(xì)節(jié),而不是捕捉高級可預(yù)測的概念。自監(jiān)督學(xué)習(xí)的通用架構(gòu),其中系統(tǒng)學(xué)習(xí)捕獲其輸入之間的關(guān)系。邁向能力廣泛的 JEPA 的第一步I-JEPA 的核心思路是以更類似于人類理解的抽象表征來預(yù)測缺失信息。與在像素 /token 空間中進(jìn)行預(yù)測的生成方法相比,I-JEPA 使用抽象的預(yù)測目標(biāo),潛在地消除了不必要的像素級細(xì)節(jié),從而使模型學(xué)習(xí)更多語義特征。另一個引導(dǎo) I-JEPA 產(chǎn)生語義表征的核心設(shè)計是多塊掩碼策略。該研究使用信息豐富的上下文來預(yù)測包含語義信息的塊,并表明這是非常必要的。I-JEPA 使用單個上下文塊來預(yù)測源自同一圖像的各種目標(biāo)塊的表征。I-JEPA 中的預(yù)測器可以看作是一個原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。更重要的是,這個世界模型是語義級的,因為它預(yù)測圖像中不可見區(qū)域的高級信息,而不是像素級細(xì)節(jié)。預(yù)測器如何學(xué)習(xí)建模世界的語義。對于每張圖像,藍(lán)框外的部分被編碼并作為上下文提供給預(yù)測器。然后預(yù)測器輸出它期望在藍(lán)框內(nèi)區(qū)域的表示。為了可視化預(yù)測,Meta 訓(xùn)練了一個生成模型, 它生成了由預(yù)測輸出表示的內(nèi)容草圖,并在藍(lán)框內(nèi)顯示樣本輸出。很明顯,預(yù)測器識別出了應(yīng)該填充哪些部分的語義(如狗的頭部、鳥的腿、狼的前肢、建筑物的另一側(cè))。為了理解模型捕獲的內(nèi)容,Meta 訓(xùn)練了一個隨機(jī)解碼器,將 I-JEPA 預(yù)測的表示映射回像素空間,這展示出了探針操作后在藍(lán)框中進(jìn)行預(yù)測時的模型輸出。這種定性評估表明,I-JEPA 正確捕獲了位置不確定性,并生成了具有正確姿態(tài)的高級對象部分(如狗的頭部、狼的前肢)。簡而言之,I-JEPA 能夠?qū)W習(xí)對象部分的高級表示,而不會丟棄它們在圖像中的局部位置信息。高效率、強性能I-JEPA 預(yù)訓(xùn)練在計算上也很高效,在使用更多計算密集型數(shù)據(jù)增強來生成多個視圖時不會產(chǎn)生任何開銷。目標(biāo)編碼器只需要處理圖像的一個視圖,上下文編碼器只需要處理上下文塊。實驗發(fā)現(xiàn),I-JEPA 在不使用手動視圖增強的情況下學(xué)習(xí)了強大的現(xiàn)成語義表示,具體可見下圖。此外 I-JEPA 還在 ImageNet-1K 線性探針和半監(jiān)督評估上優(yōu)于像素和 token 重建方法。I-JEPA 還能與以往在語義任務(wù)上依賴手動數(shù)據(jù)增強的方法競爭。相比之下,I-JEPA 在對象計數(shù)和深度預(yù)測等低級視覺任務(wù)上取得了更好的性能。通過使用較小剛性歸納偏置的更簡單模型,I-JEPA 適用于更廣泛的任務(wù)集合。low shot 分類準(zhǔn)確性:使用 1% 標(biāo)簽時 ImageNet-1k 上的半監(jiān)督評估結(jié)果(每類只有 12 張標(biāo)簽圖像)。AI 智能向人類水平更近了一步I-JEPA 展示了無需通過手動圖像變換來編碼額外知識時,學(xué)習(xí)有競爭力的現(xiàn)成圖像表示的潛力。繼續(xù)推進(jìn) JEPA 以從更豐富模態(tài)中學(xué)習(xí)更通用世界模型將變得特別有趣,比如人們從一個短上下文中對視頻中的將來事件做出長期空間和時間預(yù)測,并利用音頻或文本 prompt 對這些預(yù)測進(jìn)行調(diào)整。Meta 希望將 JEPA 方法擴(kuò)展到其他領(lǐng)域,比如圖像 - 文本配對數(shù)據(jù)和視頻數(shù)據(jù)。未來,JEPA 模型可以在視頻理解等任務(wù)中得到應(yīng)用。這是應(yīng)用和擴(kuò)展自監(jiān)督方法來學(xué)習(xí)更通用世界模型的重要一步。
- 論文地址:https://arxiv.org/pdf/2301.08243.pdf
- GitHub 地址:https://t.co/DgS9XiwnMz
6. 視頻版Midjourney免費開放,一句話拍大片!網(wǎng)友:上一次這么激動還是上次了
https://mp.weixin.qq.com/s/Eeuea9l_iQ87eMghCIHpMQ家人們,現(xiàn)在做個影視級視頻,也就是一句話的事了!例如只需簡單輸入“叢林(Jungle)”,大片鏡頭便可立刻呈現(xiàn):而且圍繞著“叢林”變換幾個搭配的詞語,比如“河流”、“瀑布”、“黃昏”、“白天”等,這個AI也能秒懂你的意思。還有下面這些自然美景、宇宙奇觀、微觀細(xì)胞等高清視頻,統(tǒng)統(tǒng)只需一句話。這就是Stable Diffusion和《瞬息全宇宙》背后技術(shù)公司Runway,出品的AI視頻編輯工具Gen2。而且就在最近,一個好消息突然襲來——Gen2可以免費試用了!這可把網(wǎng)友們開心壞了,紛紛開始嘗鮮了起來。體驗Gen2實錄如此好玩的技術(shù),我們當(dāng)然也要親手體驗上一番。例如我們給Gen2投喂了一句中文:
上海外灘夜景,影視風(fēng)格。
一個航拍視角的視頻片段便立即被做了出來。如果想讓視頻的風(fēng)格變換一下,也可以上傳一張圖片,例如我們用的是一張賽博朋克風(fēng)格的城市照片。
目前Runway官網(wǎng)可免費體驗Gen2的功能是文生視頻(Text to Video),但Gen1也開放了視頻生視頻(Video to Video)的功能。例如一個國外小哥可能受《瞬息全宇宙》的啟發(fā),憑借Gen1也玩了一把更刺激的穿越。他先是在家錄了一段打響指的視頻,然后“啪的一下”,瞬間讓自己步入歐洲皇室貴族的“片場”:
更多內(nèi)容請查閱源文檔。
7. 分割一切模型(SAM)的全面綜述調(diào)研
https://mp.weixin.qq.com/s/39imonlyIdSHYW9VnQhOjw人工智能(AI)正在向 AGI 方向發(fā)展,這是指人工智能系統(tǒng)能夠執(zhí)行廣泛的任務(wù),并可以表現(xiàn)出類似于人類的智能水平,狹義上的 AI 就與之形成了對比,因為專業(yè)化的 AI 旨在高效執(zhí)行特定任務(wù)。可見,設(shè)計通用的基礎(chǔ)模型迫在眉睫。基礎(chǔ)模型在廣泛的數(shù)據(jù)上訓(xùn)練,因而能夠適應(yīng)各種下游任務(wù)。最近 Meta 提出的分割一切模型(Segment Anything Model,SAM)突破了分割界限,極大地促進(jìn)了計算機(jī)視覺基礎(chǔ)模型的發(fā)展。SAM 是一個提示型模型,其在 1100 萬張圖像上訓(xùn)練了超過 10 億個掩碼,實現(xiàn)了強大的零樣本泛化。許多研究人員認(rèn)為「這是 CV 的 GPT-3 時刻,因為 SAM 已經(jīng)學(xué)會了物體是什么的一般概念,甚至是未知的物體、不熟悉的場景(如水下、細(xì)胞顯微鏡)和模糊的情況」,并展示了作為 CV 基本模型的巨大潛力。為了充分了解 SAM,來自香港科技大學(xué)(廣州)、上海交大等機(jī)構(gòu)的研究者對其進(jìn)行了深入研究并聯(lián)合發(fā)表論文《 A Comprehensive Survey on Segment Anything Model for Vision and Beyond 》。
論文鏈接:https://arxiv.org/abs/2305.08196作為首個全面介紹基于 SAM 基礎(chǔ)模型進(jìn)展的研究,該論文聚焦于 SAM 在各種任務(wù)和數(shù)據(jù)類型上的應(yīng)用,并討論了其歷史發(fā)展、近期進(jìn)展,以及對廣泛應(yīng)用的深遠(yuǎn)影響。本文首先介紹了包括 SAM 在內(nèi)的基礎(chǔ)模型的背景和術(shù)語,以及對分割任務(wù)有重要意義的最新方法;然后,該研究分析并總結(jié)了 SAM 在各種圖像處理應(yīng)用中的優(yōu)勢和限制,包括軟件場景、真實世界場景和復(fù)雜場景,重要的是,該研究得出了一些洞察,以指導(dǎo)未來的研究發(fā)展更多用途廣泛的基礎(chǔ)模型并改進(jìn) SAM 的架構(gòu);最后該研究還總結(jié)了 SAM 在視覺及其他領(lǐng)域的應(yīng)用。下面我們看看論文具體內(nèi)容。SAM 模型概覽SAM 源自于 2023 年 Meta 的 Segment Anything (SA) 項目。該項目發(fā)現(xiàn)在 NLP 和 CV 領(lǐng)域中出現(xiàn)的基礎(chǔ)模型表現(xiàn)出較強的性能,研究人員試圖建立一個類似的模型來統(tǒng)一整個圖像分割任務(wù)。然而,在分割領(lǐng)域的可用數(shù)據(jù)較為缺乏,這與他們的設(shè)計目的不同。因此,如圖 1 所示,研究者將路徑分為任務(wù)、模型和數(shù)據(jù)三個步驟。SAM 架構(gòu)如下所示,主要包含三個部分:圖像編碼器;提示編碼器;以及掩碼解碼器。
在對 SAM 有了初步認(rèn)知后,接下來該研究介紹了 SAM 用于圖像處理。SAM 用于圖像處理這部分主要分場景進(jìn)行介紹,包括:軟件場景、真實場景以及復(fù)雜場景。軟件場景軟件場景需要對圖像編輯和修復(fù)進(jìn)行操作,例如移除對象、填充對象和替換對象。然而,現(xiàn)有的修復(fù)工作,如 [99]、[100]、[101]、[102],需要對每個掩碼進(jìn)行精細(xì)的注釋以達(dá)到良好的性能,這是一項勞動密集型的工作。SAM [20] 可以通過簡單的提示如點或框來生成準(zhǔn)確的掩碼,可以幫助輔助圖像編輯場景。Inpaint Anything (IA) [39] 設(shè)計了一個流程,通過結(jié)合 SAM 的優(yōu)勢、最先進(jìn)的圖像修復(fù)器 [99],以及 AI 生成的內(nèi)容模型 [103],來解決與修復(fù)相關(guān)的問題。這個流程如圖 3 所示。對于對象移除,該流程由 SAM 和最先進(jìn)的修復(fù)器組成,如 LaMa [99]。用戶的點擊操作被用作 SAM 的提示,以生成對象區(qū)域的掩碼,然后 LaMa 使用 corrosion 和 dilation 操作進(jìn)行填充。對于對象的填充和替換,第二步使用像 Stable Diffusion (SD) [103] 這樣的 AI 生成的內(nèi)容模型,通過文本提示用新生成的對象填充選定的對象。一個類似的想法也可以在 Edit Everything [40] 中看到,如圖 4 所示,該方法允許用戶使用簡單的文本指令編輯圖像。
真實場景研究者表示 SAM 具有協(xié)助處理許多真實世界場景的能力,例如真實世界的物體檢測、物體計數(shù)以及移動物體檢測場景。最近,[108] 對 SAM 在多種真實世界分割場景(例如,自然圖像、農(nóng)業(yè)、制造業(yè)、遙感和醫(yī)療健康場景)中的性能進(jìn)行了評估。該論文發(fā)現(xiàn),在像自然圖像這樣的常見場景中,它具有優(yōu)秀的泛化能力,而在低對比度的場景中,它的效果較差,而且在復(fù)雜場景中需要強大的先驗知識。例如,在民用基礎(chǔ)設(shè)施缺陷評估的應(yīng)用中,[42] 利用 SAM 來檢測混凝土結(jié)構(gòu)中的裂縫,并將其性能與基線 U-Net [109] 進(jìn)行比較。裂縫檢測過程如圖 6 所示。結(jié)果顯示,SAM 在檢測縱向裂縫方面表現(xiàn)優(yōu)于 UNet,這些裂縫更可能在正常場景中找到類似的訓(xùn)練圖像,而在不常見的場景,即剝落裂縫方面,SAM 的表現(xiàn)不如 U-Net。與裂縫檢測中的復(fù)雜圖像案例不同,由于隕石坑的形狀主要集中在圓形或橢圓形,所以使用 SAM 作為檢測工具來進(jìn)行隕石坑檢測更為合適。隕石坑是行星探索中最重要的形態(tài)特征之一,檢測和計數(shù)它們是行星科學(xué)中一個重要但耗時的任務(wù)。盡管現(xiàn)有的機(jī)器學(xué)習(xí)和計算機(jī)視覺工作成功地解決了隕石坑檢測中的一些特定問題,但它們依賴于特定類型的數(shù)據(jù),因此在不同的數(shù)據(jù)源中無法很好地工作。在 [110] 中,研究者提出了一種使用 SAM 對不熟悉對象進(jìn)行零樣本泛化的通用隕石坑檢測方案。這個流程使用 SAM 來分割輸入圖像,對數(shù)據(jù)類型和分辨率沒有限制。然后,它使用圓形 - 橢圓形指數(shù)來過濾不是圓形 - 橢圓形的分割掩碼。最后,使用一個后處理過濾器來去除重復(fù)的、人為的和假陽性的部分。這個流程在當(dāng)前領(lǐng)域顯示出其作為通用工具的巨大潛力,并且作者還討論了只能識別特定形狀的缺點。復(fù)雜場景除了上述的常規(guī)場景,SAM 是否能解決復(fù)雜場景(如低對比度場景)中的分割問題,也是一個有意義的問題,可以擴(kuò)大其應(yīng)用范圍。為了探索 SAM 在更復(fù)雜場景中的泛化能力,Ji 等人 [22] 在三種場景,即偽裝動物、工業(yè)缺陷和醫(yī)學(xué)病變中,定量地將其與尖端模型進(jìn)行比較。他們在三個偽裝物體分割(COS)數(shù)據(jù)集上進(jìn)行實驗,即擁有 250 個樣本的 CAMO [116],擁有 2026 個樣本的 COD10K [117],以及擁有 4121 個樣本的 NC4K [118]。并將其與基于 Transformer 的模型 CamoFormer-P/S [119] 和 HitNet [120] 進(jìn)行比較。結(jié)果表明,SAM 在隱蔽場景中的技巧不足,并指出,潛在的解決方案可能依賴于在特定領(lǐng)域的先驗知識的支持。在 [29] 中也可以得出同樣的結(jié)論,作者在上述同樣的三個數(shù)據(jù)集上,將 SAM 與 22 個最先進(jìn)的方法在偽裝物體檢測上進(jìn)行比較。Cao 等人 [115] 提出了一個新的框架,名為 Segment Any Anomaly + (SAA+),用于零樣本異常分割,如圖 7 所示。該框架利用混合提示規(guī)范化來提高現(xiàn)代基礎(chǔ)模型的適應(yīng)性,從而無需領(lǐng)域特定的微調(diào)就能進(jìn)行更精確的異常分割。作者在四個異常分割基準(zhǔn)上進(jìn)行了詳細(xì)的實驗,即 VisA [122],MVTecAD [123],MTD [124] 和 KSDD2 [125],并取得了最先進(jìn)的性能。
He 等人 [126] 提出了第一種方法(WSSAM),利用 SAM 進(jìn)行弱監(jiān)督隱蔽物體分割,解決了使用稀疏注釋數(shù)據(jù)分割與周圍環(huán)境融為一體的物體的挑戰(zhàn)(參見圖 8)。所提出的 WSSAM 包括基于 SAM 的偽標(biāo)記和多尺度特征分組,以提高模型學(xué)習(xí)和區(qū)分隱蔽物體和背景。作者發(fā)現(xiàn),僅使用 scribble 監(jiān)督 [127],SAM 就可以生成足夠好的分割掩碼,以訓(xùn)練分割器。更多模型和應(yīng)用:視覺及其他視覺相關(guān)首先是醫(yī)療成像。醫(yī)療圖像分割的目的是展示相應(yīng)組織的解剖或病理結(jié)構(gòu),可以用于計算機(jī)輔助診斷和智能臨床手術(shù)。下圖 10 為醫(yī)療圖像 SAM 概覽,包括了計算機(jī)斷層掃描(CT)圖像、磁共振成像(MRI)圖像、結(jié)腸鏡檢查圖像、多格式圖像、H&E 染色組織切片圖像等。其次是視頻。在計算機(jī)視覺領(lǐng)域,視頻目標(biāo)跟蹤(VOT)和視頻分割被認(rèn)為是至關(guān)重要且不可或缺的任務(wù)。VOT 涉及在視頻幀中定位特定目標(biāo),然后在整個視頻的其余部分對其進(jìn)行跟蹤。因此,VOT 具有各種實際應(yīng)用,例如監(jiān)視和機(jī)器人技術(shù)。SAM 在 VOT 領(lǐng)域做出了杰出貢獻(xiàn)。參考文獻(xiàn) [46] 中引入了跟蹤一切模型(Track Anything Model, TAM),高效地在視頻中實現(xiàn)了出色的交互式跟蹤和分割。下圖 11 為 TAM pipeline。結(jié)語本文首次全面回顧了計算機(jī)視覺及其他領(lǐng)域 SAM 基礎(chǔ)模型的研究進(jìn)展。首先總結(jié)了基礎(chǔ)模型(大語言模型、大型視覺模型和多模態(tài)大模型)的發(fā)展歷史以及 SAM 的基本術(shù)語,并著重于 SAM 在各種任務(wù)和數(shù)據(jù)類型中的應(yīng)用,總結(jié)和比較了 SAM 的并行工作及其后續(xù)工作。研究者還討論 SAM 在廣泛的圖像處理應(yīng)用中的巨大潛力,包括軟件場景、真實世界場景和復(fù)雜場景。此外,研究者分析和總結(jié)了 SAM 在各種應(yīng)用程序中的優(yōu)點和局限性。這些觀察結(jié)果可以為未來開發(fā)更強大的基礎(chǔ)模型和進(jìn)一步提升 SAM 的穩(wěn)健性和泛化性提供一些洞見。文章最后總結(jié)了 SAM 在視覺和其他領(lǐng)域的大量其他令人驚嘆的應(yīng)用。
———————End———————
RT-Thread線下入門培訓(xùn)
7月 - 上海,南京
1.免費2.動手實驗+理論3.主辦方免費提供開發(fā)板4.自行攜帶電腦,及插線板用于筆記本電腦充電5.參與者需要有C語言、單片機(jī)(ARM Cortex-M核)基礎(chǔ),請?zhí)崆鞍惭b好RT-Thread Studio 開發(fā)環(huán)境
報名通道
立即掃碼報名
(報名成功即可參加)
掃碼添加rtthread2020可參加活動可加微信拉進(jìn)活動現(xiàn)場微信群
主辦單位
報名鏈接:https://jinshuju.net/f/UYxS2k
點擊閱讀原文,進(jìn)入RT-Thread 官網(wǎng)
原文標(biāo)題:【AI簡報20230616】英偉達(dá)推出Instinct MI300、OpenAI凌晨再給ChatGPT、GPT-4加碼!
文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
RT-Thread
+關(guān)注
關(guān)注
31文章
1289瀏覽量
40140
原文標(biāo)題:【AI簡報20230616】英偉達(dá)推出Instinct MI300、OpenAI凌晨再給ChatGPT、GPT-4加碼!
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論