1. ChatGPT爆火背后:AI芯片迎接算力新挑戰(zhàn)
原文:
https://www.163.com/dy/article/HT7BHN3C05199NPP.html
ChatGPT的出圈走紅為AIGC打開全新市場增量,催生了更高的算力需求。
作為人工智能三大核心要素之一,算力也被譽(yù)為人工智能“發(fā)動機(jī)”。華泰證券研報顯示,根據(jù)OpenAI測算,自2012年以來,全球頭部AI模型訓(xùn)練算力需求3-4個月翻一番,每年頭部訓(xùn)練模型所需算力增長幅度高達(dá)10倍。AI深度學(xué)習(xí)正在逼近現(xiàn)有芯片的算力極限,也對芯片設(shè)計廠商提出了更高要求。
由此可見,AIGC未來進(jìn)一步的應(yīng)用和普及離不開算力的強(qiáng)勁支撐。受下游算力需求高漲消息影響,2月9日,半導(dǎo)體及元件板塊再度轉(zhuǎn)頭向上,整體上漲4.58%。截至當(dāng)日收盤,半導(dǎo)體及元件板塊近一周漲幅2.53%。
板塊走勢的分化也體現(xiàn)出市場對AI芯片的態(tài)度。近日,在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時,多家AI芯片廠商表示,AIGC等相關(guān)業(yè)務(wù)需要結(jié)合下游最終端應(yīng)用的實際情況考慮。
“大模型動輒千萬美元起步的基礎(chǔ)設(shè)施建設(shè)投入和海量的訓(xùn)練數(shù)據(jù)需求,也注定了它極高的研發(fā)門檻。”百度昆侖芯方面向21世紀(jì)經(jīng)濟(jì)報道記者指出,“(大模型)對計算的要求主要體現(xiàn)在三個方面,一是算力,二是互聯(lián),三是通用性,對于昆侖芯來說,場景需求一直是架構(gòu)研發(fā)、產(chǎn)品迭代的最重要的‘指南針’?!?/span>
科技新賽道
AIGC(Artificial Intelligence Generated Content)指的是人工智能系統(tǒng)生成的內(nèi)容,是繼 UGC、PGC 之后的新型內(nèi)容創(chuàng)作方式,包括文字、圖像、音頻或視頻等。AIGC可以通過自然語言處理、機(jī)器學(xué)習(xí)和計算機(jī)視覺等技術(shù)幫助AI系統(tǒng)識別理解輸入內(nèi)容,并生成“創(chuàng)作”全新的內(nèi)容。
目前,AIGC已在多應(yīng)用領(lǐng)域?qū)崿F(xiàn)落地,2022年更是被AI業(yè)內(nèi)人士稱作AIGC“元年”。2022年8月,文本生成圖像模型Stable Diffusion火爆出圈,催生了AI作畫的熱潮;12月,OpenAI推出的人工智能聊天機(jī)器人模型 ChatGPT ,可以使用大量訓(xùn)練數(shù)據(jù)模擬人類語言行為,通過語義分析生成文本從而與用戶進(jìn)行自然交互,在全球范圍內(nèi)掀起AIGC的熱潮。
隨著人工智能應(yīng)用向縱深發(fā)展,對AI模型訓(xùn)練所需要的算力支持提出了更高要求。
作為算力的硬件基石,AI芯片是針對人工智能算法做了特殊加速設(shè)計的芯片。信達(dá)證券發(fā)布研究報告稱,在技術(shù)架構(gòu)層面,AI芯片可以分為 GPU(圖形處理器)、FPGA(現(xiàn)場可編程門陣列)、ASIC(專用集成電路)和類腦芯片,同時CPU也可用以執(zhí)行通用AI計算。
在應(yīng)用層面,AI芯片又可以劃分為云端、邊緣端和終端三個類型,不同場景對芯片的算力和功耗的要求不同,單一芯片難以滿足實際應(yīng)用的需求。
在云端層面,由于大多數(shù)AI訓(xùn)練和推理工作負(fù)載都在此進(jìn)行,需要運算巨量、復(fù)雜的數(shù)據(jù)信息,因此對于 AI 芯片的性能和算力要求最高;邊緣端是指處理云端和終端之間的傳輸網(wǎng)絡(luò),承擔(dān)著匯集、分析處理和通信傳輸數(shù)據(jù)的功能,一定程度上分擔(dān)云端的壓力,降低成本、提升效率。
終端AI芯片由于直面下游產(chǎn)品,大多以實際需求為導(dǎo)向,主要應(yīng)用于消費電子、智能駕駛、智能家居和智慧安防等領(lǐng)域,終端產(chǎn)品類型和出貨量的增加,也相應(yīng)刺激了對芯片的需求。
信達(dá)證券研究團(tuán)隊總結(jié)稱,AIGC 推動 AI 產(chǎn)業(yè)化由軟件向硬件切換,半導(dǎo)體+AI 生態(tài)逐漸清晰,AI芯片產(chǎn)品將實現(xiàn)大規(guī)模落地。據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù),我國人工智能芯片的市場規(guī)模增速驚人,到2024 年,將達(dá)到785 億元。
2. 不出所料,自動駕駛向ChatGPT下手了!
原文:
https://mp.weixin.qq.com/s/a5A2mfG8WQElIuo5vT2s7w
ChatGPT 的技術(shù)思路與自動駕駛能碰撞出什么樣的火花呢?
去年底,ChatGPT 橫空出世。真實自然的人機(jī)對話、比擬專家的回答以及一本正經(jīng)的胡說八道,使它迅速走紅,風(fēng)靡全世界。
不像之前那些換臉、捏臉、詩歌繪畫生成等紅極一時又很快熱度退散的 AIGC 應(yīng)用,ChatGPT 不僅保持了熱度,而且還有全面爆發(fā)的趨勢。現(xiàn)如今,谷歌、百度的 AI 聊天機(jī)器人已經(jīng)在路上。
比爾蓋茨如此盛贊:「ChatGPT 的意義不亞于 PC 和互聯(lián)網(wǎng)誕生。
為什么呢?
首先,人機(jī)對話實在是剛需。人工智能技術(shù)鼻祖的圖靈所設(shè)計的「圖靈測試」,就是試圖通過人機(jī)對話的方式來檢驗人工智能是否已經(jīng)騙過人類。能從人機(jī)問題中就能獲得準(zhǔn)確答案,這可比搜索引擎給到一大堆推薦網(wǎng)頁和答案更貼心了。要知道懶惰乃人類進(jìn)步的原動力。
其次,ChatGPT 實在是太能打了。不僅在日常語言當(dāng)中,ChatGPT 能夠像人類一樣進(jìn)行聊天對話,還能生成各種新聞、郵件、論文,甚至進(jìn)行計算和編寫代碼,這簡直就像小朋友抓到一只「哆啦 A 夢」—— 有求必應(yīng)了。
除了看看熱鬧,我們也可以弱弱地問一句:ChatGPT 為啥這么能打呢?希望大家可以在原文中找到答案。
3. 為AIoT和邊緣側(cè)AI喂算力的RISC-V
原文:
https://mp.weixin.qq.com/s/qQWahKqVkkS7bToN7-eHQQ
在去年底由晶心科技舉辦的RISC-V CON上,英特爾RISC-V投資部門的總經(jīng)理Vijay Krishnan闡述了自己的Pathfinder for RISC-V計劃。通過搭建這個平臺,英特爾將助力解決RISC-V軟件開發(fā)生態(tài)上的挑戰(zhàn),并表示首先側(cè)重于AIoT和邊緣端市場。
但我們也都知道這一計劃持續(xù)不到半年就被砍了,可即便如此,RISC-V在AIoT領(lǐng)域的探索也早早就已經(jīng)處于進(jìn)行時了。針對AIoT和邊緣側(cè)AI開發(fā)的RISC-V芯片、開發(fā)板也都紛紛上市,為RISC-V搶占這一市場的份額添磚加瓦。
GreenWave-GAP9
法國公司GreenWave作為一家面向電池供電IoT設(shè)備市場的廠商,主要產(chǎn)品就是超低功耗的RISC-V應(yīng)用處理器,GAP系列。他們率先推出的GAP8就是一個用于大規(guī)模智能邊緣設(shè)備部署的IoT應(yīng)用處理器,但由于算力并不高,所以只能負(fù)責(zé)一些占用管理、人臉識別、關(guān)鍵詞識別之類的簡單任務(wù)。
而他們的第二代產(chǎn)品GAP9則是一款為TWS降噪耳機(jī)設(shè)計的RISC-V芯片,做到超低延遲的同時,使用神經(jīng)網(wǎng)絡(luò)來完成聲學(xué)場景檢測、降噪、3D環(huán)繞和ASRC等功能。其實用于高端TWS耳機(jī)主動降噪的低延遲RISC-V早已面世并大規(guī)模出貨了,即中科藍(lán)訊的藍(lán)訊迅龍系列。而GreenWave的GAP9為了進(jìn)一步增加算力,則在其架構(gòu)中塞入了1個RISC-V控制器核心,9個RISC-V計算核心和AI加速器。
嘉楠-勘智K510
嘉楠的勘智K210作為2019年發(fā)布的一款RISC-V芯片,采用了雙核64位CPU的算力,在300mW的功耗下即實現(xiàn)了1TOPS的算力。而且在神經(jīng)網(wǎng)絡(luò)加速器KPU的助力下,該芯片可以直接在本地處理人臉識別、圖像識別等機(jī)器視覺任務(wù),可廣泛應(yīng)用于門禁、智能水電表等應(yīng)用中,陸吾智能甚至將其用于XGOmini這樣的四足機(jī)器狗中。
而嘉楠科技于2021年發(fā)布的勘智K510,則是一款定位中高端邊緣AI推理的芯片,將其神經(jīng)網(wǎng)絡(luò)加速器KPU升級到了2.0版本,不僅降低了芯片功耗,還將算力提升了3倍,單芯片算力高達(dá)2.5TFLOPS,支持INT8和BF16兩種精度,也支持TensorFlow、PyTorch等主流框架。
可以說,K510的出現(xiàn),進(jìn)一步增加了在AIoT和邊緣側(cè)AI上的算力和精度。而且由于K510還搭載了3D ISP,可以進(jìn)行圖像降噪、畸變矯正等處理任務(wù),對于AIoT和邊緣側(cè)AI常見的低照度環(huán)境和廣角鏡頭來說起到了決定性的作用。像上面提到的機(jī)器狗應(yīng)用,也可以因為這龐大的算力來完成更復(fù)雜的手勢識別、人體姿態(tài)識別等工作。
小結(jié)
從RISC-V在AIoT目前的布局情況來看,產(chǎn)品主要面向TWS、音頻/圖像檢測與識別、智能抄表和智能家居等對AI算量不高的應(yīng)用,但它們?nèi)栽诶^續(xù)推進(jìn)更高的算力和更多的深度學(xué)習(xí)框架支持。相信在優(yōu)秀RISC-V IP核、低功耗、可編程和向量擴(kuò)展等優(yōu)勢的吸引下,未來我們能在該領(lǐng)域看到更多的RISC-V產(chǎn)品。
固然RISC-V在AIoT這個市場已經(jīng)取得了不小的進(jìn)展,也有了與主流的Arm生態(tài)一戰(zhàn)之力,但后者的智能生態(tài)依然是全方位的。在超低功耗的IoT設(shè)備和傳感器應(yīng)用上,RISC-V至少在性能上已經(jīng)不輸于人了。但到了智能設(shè)備、智能網(wǎng)關(guān)、本地服務(wù)器乃至云端,需要的AI算力是成倍提升的,雖然不少RISC-V IP廠商都已經(jīng)開始主推AI核心了,但我們?nèi)匀恍枰嗦涞氐腞ISC-V AI處理器。
4. 強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了?清華、北大等聯(lián)合發(fā)布TransformRL綜述
原文:
https://mp.weixin.qq.com/s/v7QJIAy7xctByJZ9lz9viQ
論文地址:
https://arxiv.org/pdf/2301.03044.pdf
強(qiáng)化學(xué)習(xí)(RL)為順序決策提供了一種數(shù)學(xué)形式,深度強(qiáng)化學(xué)習(xí)(DRL)近年來也取得巨大進(jìn)展。然而,樣本效率問題阻礙了在現(xiàn)實世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個問題,一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。
在深度強(qiáng)化學(xué)習(xí)中,函數(shù)逼近器是非常重要的。然而,與監(jiān)督學(xué)習(xí)(SL)中的架構(gòu)設(shè)計相比,DRL 中的架構(gòu)設(shè)計問題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動的。例如,在 DRL 中處理基于高維圖像的輸入,常見的做法是引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)[LeCun et al., 1998; Mnih et al., 2015];處理部分可觀測性(partial observability)圖像的常見做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)(RNN) [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。
近年來,Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能,成為越來越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對長程(long-range)依賴關(guān)系進(jìn)行建模,并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā),人們對將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣,希望將 Transformer 的優(yōu)勢應(yīng)用于 RL 領(lǐng)域。
Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項研究,其中自注意力(self-attention)機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后,許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí),以提取實體之間的關(guān)系,從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。
除了利用 Transformer 進(jìn)行表征學(xué)習(xí),之前的工作還使用 Transformer 捕獲多時序依賴,以處理部分可觀測性問題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā),最近的研究表明,Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ,并推廣到多個任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。
實際上,在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn),包括:
強(qiáng)化學(xué)習(xí)智能體(agent)的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù),這在學(xué)習(xí) Transformer 的時候會導(dǎo)致不平穩(wěn)性(non-stationarity);
現(xiàn)有的 RL 算法通常對訓(xùn)練過程中的設(shè)計選擇高度敏感,包括模型架構(gòu)和模型容量 [Henderson et al., 2018];
基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計算和內(nèi)存成本,這使得 RL 學(xué)習(xí)過程中的訓(xùn)練和推理都很昂貴。
例如,在用于視頻游戲的 AI 中,樣本生成的效率(在很大程度上影響訓(xùn)練性能)取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)(value network)的計算成本 [Ye et al., 2020a; Berner et al., 2019]。
為了更好地推動強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展,來自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer(即 TransformRL)的綜述論文,歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn),并討論了未來的發(fā)展方向,作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。
論文的總體結(jié)構(gòu)如下:
第 2 章介紹了 RL 和 Transformer 的背景知識,然后簡要介紹了這兩者是如何結(jié)合在一起的;
第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變,以及長期以來 RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn);
第 4 章論文作者對 RL 中的 Transformer 進(jìn)行了分類,并討論了目前具有代表性的方法;
第 5 章總結(jié)并指出了未來潛在的研究方向。
5. 首個快速知識蒸餾的視覺框架:ResNet50 80.1%精度,訓(xùn)練加速30%
原文:
https://mp.weixin.qq.com/s/HWVpVOsYTOH98aU0tC_LzA
論文和項目網(wǎng)址:
http://zhiqiangshen.com/projects/FKD/index.html
代碼:
https://github.com/szq0214/FKD
知識蒸餾(KD)自從 2015 年由 Geoffrey Hinton 等人提出之后,在模型壓縮,視覺分類檢測等領(lǐng)域產(chǎn)生了巨大影響,后續(xù)產(chǎn)生了無數(shù)相關(guān)變種和擴(kuò)展版本,但是大體上可以分為以下幾類:vanilla KD,online KD,teacher-free KD 等。最近不少研究表明,一個最簡單、樸素的知識蒸餾策略就可以獲得巨大的性能提升,精度甚至高于很多復(fù)雜的 KD 算法。但是 vanilla KD 有一個不可避免的缺點:每次 iteration 都需要把訓(xùn)練樣本輸入 teacher 前向傳播產(chǎn)生軟標(biāo)簽 (soft label),這樣就導(dǎo)致很大一部分計算開銷花費在了遍歷 teacher 模型上面,然而 teacher 的規(guī)模通常會比 student 大很多,同時 teacher 的權(quán)重在訓(xùn)練過程中都是固定的,這樣就導(dǎo)致整個知識蒸餾框架學(xué)習(xí)效率很低。
針對這個問題,本文首先分析了為何沒法直接為每張輸入圖片產(chǎn)生單個軟標(biāo)簽向量然后在不同 iterations 訓(xùn)練過程中復(fù)用這個標(biāo)簽,其根本原因在于視覺領(lǐng)域模型訓(xùn)練過程數(shù)據(jù)增強(qiáng)的使用,尤其是 random-resize-cropping 這個圖像增強(qiáng)策略,導(dǎo)致不同 iteration 產(chǎn)生的輸入樣本即使來源于同一張圖片也可能來自不同區(qū)域的采樣,導(dǎo)致該樣本跟單個軟標(biāo)簽向量在不同 iterations 沒法很好的匹配。本文基于此,提出了一個快速知識蒸餾的設(shè)計,通過特定的編碼方式來處理需要的參數(shù),繼而進(jìn)一步存儲復(fù)用軟標(biāo)簽(soft label),與此同時,使用分配區(qū)域坐標(biāo)的策略來訓(xùn)練目標(biāo)網(wǎng)絡(luò)。通過這種策略,整個訓(xùn)練過程可以做到顯式的 teacher-free,該方法的特點是既快(16%/30% 以上訓(xùn)練加速,對于集群上數(shù)據(jù)讀取緩慢的缺點尤其友好),又好(使用 ResNet-50 在 ImageNet-1K 上不使用額外數(shù)據(jù)增強(qiáng)可以達(dá)到 80.1% 的精度)。
首先我們來回顧一下普通的知識蒸餾結(jié)構(gòu)是如何工作的,如下圖所示:
知識蒸餾框架包含了一個預(yù)訓(xùn)練好的 teacher 模型(蒸餾過程權(quán)重固定),和一個待學(xué)習(xí)的 student 模型, teacher 用來產(chǎn)生 soft 的 label 用于監(jiān)督 student 的學(xué)習(xí)??梢钥吹?,這個框架存在一個比較明顯的缺點:當(dāng) teacher 結(jié)構(gòu)大于 student 的時候,訓(xùn)練圖像前饋產(chǎn)生的計算開銷已經(jīng)超過 student,然而 teacher 權(quán)重并不是我們學(xué)習(xí)的目標(biāo),導(dǎo)致這種計算開銷本質(zhì)上是 “無用的”。本文的動機(jī)正是在研究如何在知識蒸餾訓(xùn)練過程中避免或者說重復(fù)利用這種額外的計算結(jié)果,該文章的解決策略是提前保存每張圖片不同區(qū)域的軟監(jiān)督信號(regional soft label)在硬盤上,訓(xùn)練 student 過程同時讀取訓(xùn)練圖片和標(biāo)簽文件,從而達(dá)到復(fù)用標(biāo)簽的效果。所以問題就變成了:soft label 怎么來組織和存儲最為有效?請從原文中找到答案。
6. Google Brain提出基于Diffusion的新全景分割算法
原文:
https://mp.weixin.qq.com/s/CXMzZd0JP0XBJzEPhPmLvA
A Generalist Framework for Panoptic Segmentation of Images and Videos
標(biāo)題:
A Generalist Framework for Panoptic Segmentation of Images and Videos
作者:
Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet
原文鏈接:
https://arxiv.org/pdf/2210.06366.pdf
引言
首先回顧一下全景分割的設(shè)定。全景分割(PS,Panoptic Segmentation)的task format不同于經(jīng)典的語義分割,它要求每個像素點都必須被分配給一個語義標(biāo)簽(stuff、things中的各個語義)和一個實例id。具有相同標(biāo)簽和id的像素點屬于同一目標(biāo);對于stuff標(biāo)簽,不需要實例id。與實例分割相比,目標(biāo)的分割必須是非重疊的(non-overlapping),因此對那些每個目標(biāo)單獨標(biāo)注一個區(qū)域是不同的。雖然語義標(biāo)簽的類類別是先驗固定的,但分配給圖像中對象的實例 ID 可以在不影響識別的實例的情況下進(jìn)行排列。因此,經(jīng)過訓(xùn)練以預(yù)測實例 ID 的神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠?qū)W習(xí)一對多映射,從單個圖像到多個實例 ID 分配。一對多映射的學(xué)習(xí)具有挑戰(zhàn)性,傳統(tǒng)方法通常利用涉及對象檢測、分割、合并多個預(yù)測的多個階段的管道這有效地將一對多映射轉(zhuǎn)換為基于識別匹配的一對一映射。這篇論文的作者將全景分割任務(wù)制定為條件離散數(shù)據(jù)生成問題,如下圖所示。本文是大名鼎鼎的Hinton參與的工作,非常有意思,又是基于diffusion model模式的生成模型來完成全景分割,將mask其視為一組離散標(biāo)記,以輸入圖像為條件,預(yù)測得到完整的分割信息。
全景分割的生成式建模非常具有挑戰(zhàn)性,因為全景掩碼是離散的,或者說是有類別的,并且模型可能非常大。例如,要生成 512×1024 的全景掩碼,模型必須生成超過 1M 的離散標(biāo)記(語義標(biāo)簽和實例標(biāo)簽)。這對于自回歸模型來說計算開銷是比較大的,因為 token 本質(zhì)上是順序的,很難隨著輸入數(shù)據(jù)的規(guī)模變化而變化。擴(kuò)散模型更擅長處理高維數(shù)據(jù),但它們最常應(yīng)用于連續(xù)域而不是離散域。通過用模擬位表示離散數(shù)據(jù),本文作者表明可以直接在大型全景分割上完成diffusion的訓(xùn)練,而不需要在latent space進(jìn)行學(xué)習(xí)。這樣就使得模型 這對于自回歸模型來說是昂貴的,因為它們本質(zhì)上是順序的,隨著數(shù)據(jù)輸入的大小縮放不佳。diffusion model很擅長處理高維數(shù)據(jù),但它們最常應(yīng)用于連續(xù)而非離散域。通過用模擬位表示離散數(shù)據(jù),論文表明可以直接在大型全景掩模上訓(xùn)練擴(kuò)散模型,而無需學(xué)習(xí)中間潛在空間。接下來,我們來介紹本文提出的基于擴(kuò)散的全景分割模型,描述其對圖像和視頻數(shù)據(jù)集的廣泛實驗。在這樣做的過程中,論文證明了所提出的方法在類似設(shè)置中與最先進(jìn)的方法相比具有競爭力,證明了一種新的、通用的全景分割方法。
方法
擴(kuò)散模型采樣是迭代的,因此在推理過程中必須多次運行網(wǎng)絡(luò)的前向傳遞。因此,如上圖,論文的結(jié)構(gòu)主要分為兩個部分:1)圖像編碼器;2)mask的解碼器。前者將原始像素數(shù)據(jù)映射到高級表示向量,然后掩模解碼器迭代地讀出全景掩模。
實驗
來看實驗結(jié)果:
在 MS-COCO 數(shù)據(jù)集上,Pix2Seq-D 在基于 ResNet-50 的主干上的泛化質(zhì)量(PQ)與最先進(jìn)的方法相比有一定的競爭力。與最近的其他通用模型如 UViM 相比,本文的模型表現(xiàn)明顯更好,同時效率更高。
而在無監(jiān)督數(shù)據(jù)集DAVIS上,也有更優(yōu)的表現(xiàn)。
結(jié)論
本文基于離散全景蒙版的條件生成模型,提出了一種用于圖像和視頻全景分割的新型通用框架。通過利用強(qiáng)大的Bit Diffusion 模型,我們能夠?qū)Υ罅侩x散token建模,這對于現(xiàn)有的通用模型來說是困難的。
———————End———————
你可以添加微信:rtthread2020 為好友,注明:公司+姓名,拉進(jìn)RT-Thread官方微信交流群!
愛我就給我點在看
點擊閱讀原文進(jìn)入官網(wǎng)
原文標(biāo)題:【AI簡報第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V
文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
RT-Thread
+關(guān)注
關(guān)注
31文章
1291瀏覽量
40176
原文標(biāo)題:【AI簡報第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論