0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

空間稀疏推理(SSI)加速深度生成模型

3D視覺(jué)工坊 ? 來(lái)源:計(jì)算機(jī)視覺(jué)工坊 ? 作者:空港 ? 2022-11-08 09:22 ? 次閱讀

1. 個(gè)人理解

生成模型近年來(lái)發(fā)展迅猛,已經(jīng)表現(xiàn)出極強(qiáng)的真實(shí)感合成能力,在三維重建、AI繪畫(huà)、音視頻創(chuàng)作、可控圖像生成、真實(shí)圖像編輯等領(lǐng)域的應(yīng)用廣泛。例如,即便沒(méi)有繪畫(huà)基礎(chǔ),大家也可以很容易利用生成模型繪制大師級(jí)畫(huà)作。但近年來(lái)SOTA生成模型的主要問(wèn)題是需要大量的計(jì)算資源,這一方面是由于深度網(wǎng)絡(luò)的框架較為復(fù)雜,另一方面是因?yàn)槊看吾槍?duì)圖像可能只是做了很小的改動(dòng),但生成模型仍然需要重新計(jì)算整張圖像。

在2022 NeurIPS論文“Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models”中,CMU、MIT、斯坦福聯(lián)合提出了空間稀疏推理(SSI),它可以利用編輯區(qū)域的空間稀疏性來(lái)加速深度生成模型,并且可以應(yīng)用于各種生成模型!在Apple M1 Pro CPU上的推理速度加快了14倍!

2. 摘要

在圖像編輯期間,現(xiàn)有的深度生成模型傾向于從頭開(kāi)始重新合成整個(gè)輸出,包括未編輯的區(qū)域。這導(dǎo)致了計(jì)算的顯著浪費(fèi),尤其是對(duì)于較小的編輯操作。在這項(xiàng)工作中,我們提出了空間稀疏推理(SSI),這是一種通用技術(shù),它選擇性地對(duì)編輯區(qū)域執(zhí)行計(jì)算,并加速各種生成模型,包括條件GAN和擴(kuò)散模型。

我們的主要觀察是,用戶(hù)傾向于對(duì)輸入圖像進(jìn)行漸進(jìn)的改變。這促使我們緩存和重用原始圖像的特征圖。給定一個(gè)編輯過(guò)的圖像,我們稀疏地將卷積濾波器應(yīng)用于編輯過(guò)的區(qū)域,同時(shí)為未編輯的區(qū)域重用緩存的特征。

基于我們的算法,我們進(jìn)一步提出稀疏增量生成引擎(SIGE)來(lái)將計(jì)算減少轉(zhuǎn)換為現(xiàn)成硬件上的延遲減少。通過(guò)1.2%的面積編輯區(qū)域,我們的方法減少了7.5倍的DDIM和18倍的GauGAN的計(jì)算,同時(shí)保持視覺(jué)保真度。通過(guò)SIGE,我們加速了3.0倍在RTX 3090上的DDIM和6.6倍在蘋(píng)果M1 Pro CPU上的推理時(shí)間,以及4.2倍在RTX 3090上的GauGAN和14倍在Apple M1 Pro CPU上的推理時(shí)間。

3. 算法分析

3.1 效果對(duì)比

話不多說(shuō),先看效果! 如圖1(a)所示,上一次編輯的生成結(jié)果已經(jīng)被計(jì)算,用戶(hù)進(jìn)一步編輯其中9.4%的區(qū)域。然而,普通的DDIM需要生成整個(gè)圖像來(lái)計(jì)算新編輯的區(qū)域,在未改變的區(qū)域上浪費(fèi)了80%的計(jì)算資源。解決這個(gè)問(wèn)題的一個(gè)簡(jiǎn)單方法是首先分割新編輯的片段,合成相應(yīng)的輸出片段,并將輸出與先前結(jié)果進(jìn)行疊加。

但這種方法很容易在新編輯和未編輯的區(qū)域之間產(chǎn)生明顯接縫。 為解決此問(wèn)題,作者提出了空間稀疏推理(Spatially Sparse Inference,SSI)和稀疏增量生成引擎(SIGE),如圖2(b)所示。作者的關(guān)鍵思想是重用之前編輯的緩存特征圖并稀疏更新新編輯的區(qū)域。

0a3a3d2e-5ef3-11ed-8abf-dac502259ad0.png

圖1 在交互式編輯場(chǎng)景中,用戶(hù)添加了一個(gè)新的建筑,它占據(jù)了9.4%的像素 如圖2所示是作者與其他生成模型的對(duì)比結(jié)果。可以看出相較于DDIM和GauGAN,作者提出的方法計(jì)算量大幅降低。其中相較于DDIM,計(jì)算量降低了4~6倍,相較于GauGAN,計(jì)算量降低了15倍,當(dāng)引入模型壓縮方法以后,計(jì)算量進(jìn)一步減少了47倍。注意一下這里的MACs指標(biāo),1 MAC等于2 FLOPs。

0a6947ea-5ef3-11ed-8abf-dac502259ad0.png

圖2 作者提出方法的計(jì)算量對(duì)比 重要的是,這種方法可以很容易得推廣到其他生成模型中!進(jìn)一步降低計(jì)算量!

3.2 激活稀疏性

作者的啟發(fā)靈感是,在交互式圖像編輯期間,用戶(hù)通常每次只編輯圖像中的一部分。因此,可以為未編輯區(qū)域重用原始圖像的激活。因此,可以利用編輯區(qū)域的空間稀疏性來(lái)加速深度生成模型。具體來(lái)說(shuō),給定用戶(hù)輸入,首先計(jì)算一個(gè)差異掩碼來(lái)定位新編輯的區(qū)域。

對(duì)于每一個(gè)模型中的卷積層,僅稀疏地將濾波器應(yīng)用于掩蔽的區(qū)域,而對(duì)未改變的區(qū)域重復(fù)使用先前的生成模型。稀疏更新可以在不損害圖像質(zhì)量的情況下顯著減少計(jì)算量。 此外,由于稀疏更新涉及聚集-分散過(guò)程,現(xiàn)有的深度學(xué)習(xí)框架會(huì)導(dǎo)致顯著的延遲開(kāi)銷(xiāo)。

為了解決這個(gè)問(wèn)題,作者進(jìn)一步提出了稀疏增量生成引擎(SIGE)來(lái)將算法的理論計(jì)算減少轉(zhuǎn)化為在各種硬件上測(cè)量的延遲減少。 如圖3所示是具體的算法原理,首先預(yù)計(jì)算原始輸入圖像的所有激活。在編輯過(guò)程中,通過(guò)計(jì)算原始圖像和編輯圖像之間的差異掩模來(lái)定位編輯區(qū)域。然后,對(duì)未編輯的區(qū)域重新使用預(yù)先計(jì)算的激活,并且通過(guò)對(duì)它們應(yīng)用卷積濾波器來(lái)僅更新已編輯的區(qū)域。

0abab79c-5ef3-11ed-8abf-dac502259ad0.png

圖3 稀疏卷積原理概述 具體的數(shù)學(xué)推導(dǎo)為:

0aed263c-5ef3-11ed-8abf-dac502259ad0.png

其中Al表示第l層卷積層F的輸入tensor,W和b分別是第l層的權(quán)重和偏置。 如圖4所示,ΔAl共享了用戶(hù)所做編輯中的結(jié)構(gòu)化空間稀疏性,因此非零值主要聚集在編輯區(qū)域內(nèi)。這樣就可以直接使用原始圖像和編輯后的圖像來(lái)計(jì)算一個(gè)差異掩碼,并用這個(gè)掩碼對(duì)ΔAl進(jìn)行稀疏化。

0b1923f4-5ef3-11ed-8abf-dac502259ad0.png

圖4 左圖:圖像編輯示例。右圖:在不同特征圖分辨率下,DDIM第l層的?Al通道平均值

3.3 稀疏增量生成引擎SIGE

但是如何利用結(jié)構(gòu)化稀疏性來(lái)加速Wl*ΔAl呢? 一種簡(jiǎn)單的方法是為每個(gè)卷積從ΔAl中裁剪一個(gè)矩形編輯區(qū)域,并且只計(jì)算裁剪區(qū)域的特征。但作者發(fā)現(xiàn)這種裁剪方法對(duì)于不規(guī)則的編輯區(qū)域(圖4所示的例子)效果很差。 因此,如圖5所示,作者使用基于tiling的稀疏卷積算法。

首先將差異掩碼向下采樣到不同的比例,并擴(kuò)展向下采樣的掩碼,將ΔAl在空間上劃分為多個(gè)相同大小的小塊。每個(gè)塊索引指的是具有非零元素的單個(gè)塊。然后將非零塊沿批維度進(jìn)行相應(yīng)的聚集,并將其饋入卷積Fl。最后,根據(jù)索引將輸出塊分散成零張量,以恢復(fù)原始空間大小,并將預(yù)先計(jì)算的殘差計(jì)算。

0b3fc338-5ef3-11ed-8abf-dac502259ad0.png

圖5 基于titling的稀疏卷積

4. 實(shí)驗(yàn)

作者分別在三個(gè)模型上進(jìn)行實(shí)驗(yàn),包括擴(kuò)散模型和GAN模型:DDIM、Progressive Distillation (PD)、GauGAN。使用LSUN Church數(shù)據(jù)集和Cityscapes數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。在評(píng)價(jià)指標(biāo)方面,使用PSNR、LPIPS、FID來(lái)評(píng)估圖像質(zhì)量。對(duì)于Cityscapes數(shù)據(jù)集還是用了語(yǔ)義分割中的mIoU這一指標(biāo)。

4.1 主要結(jié)果

表1所示是作者方法應(yīng)用于DDIM、Progressive Distillation (PD)和GauGAN的定量結(jié)果,并在圖6中顯示了定性結(jié)果。對(duì)于PSNR和LPIPS來(lái)說(shuō),對(duì)于DDIM和Progressive Distillation (PD)來(lái)說(shuō),作者方法始終優(yōu)于所有基線,并獲得與原始模型相當(dāng)?shù)慕Y(jié)果。當(dāng)由于全局上下文不足而編輯的區(qū)域很小時(shí),補(bǔ)片推理失敗。

盡管作者方法僅將卷積濾波器應(yīng)用于局部編輯區(qū)域,但是可以重用存儲(chǔ)在原始激活中的全局上下文。因此,作者的方法可以像原始模型一樣執(zhí)行。對(duì)于GauGAN,作者的方法也比GAN Compression執(zhí)行得更好,MACs減少更多。當(dāng)應(yīng)用于GAN Compression時(shí),進(jìn)一步實(shí)現(xiàn)了大約40倍MACs的減少,性能略有下降,同時(shí)超過(guò)了0.19 GauGAN和GAN Comp。

表1 定量質(zhì)量評(píng)估

0b6ad41a-5ef3-11ed-8abf-dac502259ad0.png

0b866a04-5ef3-11ed-8abf-dac502259ad0.png

圖6 所提出方法的定性對(duì)比

在模型模型效率方面,作者測(cè)試了了圖6所示的編輯實(shí)例在4個(gè)設(shè)備上的加速比,包括RTX 3090、RTX 2080Ti、Intel Core i9-10920X CPU和Apple M1 Pro CPU,并且設(shè)置batch size為1來(lái)模式真實(shí)應(yīng)用。對(duì)于GPU設(shè)備,首先執(zhí)行200次預(yù)熱運(yùn)行,并測(cè)量接下來(lái)200次運(yùn)行的平均耗時(shí)。對(duì)于CPU設(shè)備,首先執(zhí)行10次預(yù)熱運(yùn)行和10次測(cè)試運(yùn)行,重復(fù)此過(guò)程5次并報(bào)告平均耗時(shí)。結(jié)果如表2所示。

表2 模型效率對(duì)比

0bbacc36-5ef3-11ed-8abf-dac502259ad0.png0bf507c0-5ef3-11ed-8abf-dac502259ad0.png

4.2 消融研究

表3顯示了消融研究結(jié)果。 內(nèi)存使用:原始圖像預(yù)先計(jì)算的激活需要額外的存儲(chǔ)量,但作者所提出的方法僅將DDIM、PD、GauGAN和GAN Compression的單次轉(zhuǎn)發(fā)的峰值內(nèi)存使用量分別增加了0.1G、0.1G、0.8G和0.3G。表3(a)所示是在RTX 2080Ti上為DDIM添加的每個(gè)內(nèi)核優(yōu)化的有效性。

簡(jiǎn)單地應(yīng)用基于tiling的稀疏卷積可以將計(jì)算量減少7.6倍。表3(b)是在TensorRT上進(jìn)行了模型部署,TensorRT進(jìn)一步加快了模型的運(yùn)行效率。

表3 模型消融實(shí)驗(yàn)結(jié)果

0caa4040-5ef3-11ed-8abf-dac502259ad0.png

5. 結(jié)論

在2022 NeurIPS論文“Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models”中,CMU、MIT、斯坦福聯(lián)合提出了空間稀疏推理(SSI)和稀疏增量生成引擎(SIGE)。這種算法減少了現(xiàn)有深度生成模型的計(jì)算資源浪費(fèi)問(wèn)題,對(duì)于生成模型的落地和應(yīng)用具有重要意義。重要的是,算法已經(jīng)開(kāi)源,并且可以應(yīng)用于各種生成模型,包括條件GAN和擴(kuò)散模型!






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10870

    瀏覽量

    211899
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    253

    瀏覽量

    23406
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1936

    瀏覽量

    73533
  • SSI
    SSI
    +關(guān)注

    關(guān)注

    0

    文章

    38

    瀏覽量

    19260

原文標(biāo)題:加速各種生成模型!NeurIPS開(kāi)源!CMU、MIT、斯坦福提出高效空間稀疏推理!

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Amazon Bedrock推出多個(gè)新模型和全新強(qiáng)大的推理和數(shù)據(jù)處理功能

    亞馬遜云科技助力客戶(hù)加速采用生成式AI 模型擴(kuò)展規(guī)模空前,并新增推理優(yōu)化工具及額外的數(shù)據(jù)功能,為客戶(hù)提供了更大的靈活性和控制力,更快構(gòu)建和部署生產(chǎn)級(jí)
    的頭像 發(fā)表于 12-07 19:31 ?615次閱讀
    Amazon Bedrock推出多個(gè)新<b class='flag-5'>模型</b>和全新強(qiáng)大的<b class='flag-5'>推理</b>和數(shù)據(jù)處理功能

    使用vLLM+OpenVINO加速大語(yǔ)言模型推理

    隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來(lái)推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?410次閱讀
    使用vLLM+OpenVINO<b class='flag-5'>加速</b>大語(yǔ)言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理綜述

    模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開(kāi)發(fā)旨在提高大模型
    的頭像 發(fā)表于 11-15 11:45 ?403次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專(zhuān)門(mén)做推理的ASIC,像Groq的LPU,專(zhuān)門(mén)針對(duì)大語(yǔ)言模型
    的頭像 發(fā)表于 10-29 14:12 ?490次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應(yīng)用

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門(mén)研究方向。以下是一些FPGA加速
    的頭像 發(fā)表于 10-25 09:22 ?237次閱讀

    AI大模型深度學(xué)習(xí)的關(guān)系

    人類(lèi)的學(xué)習(xí)過(guò)程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來(lái)進(jìn)行訓(xùn)練和推理。深度學(xué)習(xí)算法為AI大模型
    的頭像 發(fā)表于 10-23 15:25 ?784次閱讀

    使用OpenVINO C++在哪吒開(kāi)發(fā)板上推理Transformer模型

    OpenVINO 是一個(gè)開(kāi)源工具套件,用于對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化并在云端、邊緣進(jìn)行部署。它能在諸如生成式人工智能、視頻、音頻以及語(yǔ)言等各類(lèi)應(yīng)用場(chǎng)景中加快深度學(xué)習(xí)
    的頭像 發(fā)表于 10-12 09:55 ?345次閱讀
    使用OpenVINO C++在哪吒開(kāi)發(fā)板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    與匹配 模型可能結(jié)合高效檢索技術(shù)來(lái)快速定位與問(wèn)題相關(guān)的信息源。通過(guò)匹配算法和索引技術(shù),模型可以從海量數(shù)據(jù)中篩選出最相關(guān)的文本片段作為候選答案。 3. 推理生成 在獲得候選答案后,
    發(fā)表于 08-02 11:03

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大
    的頭像 發(fā)表于 07-24 11:38 ?900次閱讀

    深度神經(jīng)網(wǎng)絡(luò)模型量化的基本方法

    盡量保持模型的性能。這一技術(shù)通過(guò)降低模型參數(shù)的位數(shù)來(lái)顯著減小模型的大小,加速推理過(guò)程,并降低能耗,從而有助于將
    的頭像 發(fā)表于 07-15 11:26 ?698次閱讀

    深度學(xué)習(xí)模型量化方法

    深度學(xué)習(xí)模型量化是一種重要的模型輕量化技術(shù),旨在通過(guò)減少網(wǎng)絡(luò)參數(shù)的比特寬度來(lái)減小模型大小和加速推理
    的頭像 發(fā)表于 07-15 11:01 ?498次閱讀
    <b class='flag-5'>深度</b>學(xué)習(xí)<b class='flag-5'>模型</b>量化方法

    如何加速大語(yǔ)言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型推理過(guò)程,以期為相關(guān)領(lǐng)域的研究者和開(kāi)發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?546次閱讀

    昆侖萬(wàn)維開(kāi)源2千億稀疏模型Skywork-MoE

    近日,昆侖萬(wàn)維公司宣布開(kāi)源一款名為Skywork-MoE的稀疏模型,該模型擁有高達(dá)2千億參數(shù),不僅性能強(qiáng)勁,而且推理成本更低,為人工智能領(lǐng)域帶來(lái)了新的突破。
    的頭像 發(fā)表于 06-04 14:44 ?582次閱讀

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈
    的頭像 發(fā)表于 05-27 11:50 ?546次閱讀
    英特爾助力京東云用CPU<b class='flag-5'>加速</b>AI<b class='flag-5'>推理</b>,以大<b class='flag-5'>模型</b>構(gòu)建數(shù)智化供應(yīng)鏈

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    大語(yǔ)言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語(yǔ)言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來(lái)理解和生成自然語(yǔ)言文本。這些模型通過(guò)訓(xùn)練海量的文本數(shù)
    發(fā)表于 05-04 23:55