隨著Disco、Midjourney、dreamstudio 、AIGC、Stable Diffusion、Imagen、深度學習、高性能計算、數據分析、數據挖掘等技術的快速發(fā)展,AI繪畫技術得到迅速發(fā)展。
即使今年年初的AI繪畫和現在相比,效果也有天壤之別。我們所說的“AI繪畫”概念是指基于深度學習模型自動作圖的計算機程序——把“語言描述”通過AI理解自動變成圖像。目前文本自動語音識別技術已經極其成熟,本質上是一個從文本到圖像的AI繪畫過程。
AI繪畫模型如何訓練?
在深度學習中,經常聽到“模型訓練”這個詞,但模型是什么?又是怎么訓練出來的呢?在人工智能中,當面對大量數據時,要在雜亂無章的內容中準確、輕松地識別并輸出所需的圖像/語音并不容易。因此算法就顯得尤為重要。算法也是模型。
算法的內容除核心識別引擎,還包括各種配置參數,如:語音智能識別的比特率、采樣率、音色、音調、音高、音頻、節(jié)奏、方言、噪聲等。成熟的識別引擎,核心內容一般不會經常變化。為了達到“成功識別”的目的,就只能調整配置參數。
對不同輸入,將配置不同的參數值。最后,在結果統(tǒng)計中取一組均衡且識別率高的參數值。這組參數值是訓練后得到的結果,是訓練的過程,也叫模型訓練。
一、深度學習框架在其中發(fā)揮的作用是?
首先用tensorflow、pytorch或者paddlepaddle寫一段python代碼組建一個神經網絡模型,然后對其進行訓練,達到一定精度后保存模型,最后基于訓練好的模型做圖像識別、語音識別等任務。那么問題來了,這一切都是誰來計算的呢?答案是后臺框架。所寫的python代碼,無非是前端API,真正調用后端C或C++計算邏輯,而前端python API和后端計算邏輯通過pybind綁定。
深度學習框架的基本功能是提供一系列的算子,支持前向計算和反向梯度更新。如此說來,框架應該很簡單。然而由于OP數量很大,比如卷積,全連接,各種激活函數(如Relu,Sigmoid),各種梯度更新算法(如Adam,RMS)等。其次,在組建神經網絡模型時,需要提供靜態(tài)圖模式和動態(tài)圖模式。動態(tài)圖模式是我們平時寫代碼的邏輯,do A ->do B ->do C,按流程順序執(zhí)行任務,每寫一行代碼就能得到相應的結果。靜態(tài)圖模式即用戶寫的代碼只是為了建一個圖,在圖建好之后就會執(zhí)行。圖形執(zhí)行后就可以得到結果,而不是像動態(tài)圖那樣實時得到結果。靜態(tài)圖有什么好處?答案是促進性能優(yōu)化。通過優(yōu)化這個圖的結構,程序執(zhí)行效率更高。
靜態(tài)圖中的“圖”也叫SSA Graph,是一種有向無環(huán)單靜態(tài)賦值圖。這個圖是怎么構造的?怎么形容呢?如何將其序列化為二進制字節(jié)流并在不同進程間傳遞?是如何實現的?是如何優(yōu)化的?還有,如何存儲樣本數據?內存?緩存?SSD?
更重要的是,隨著模型越來越大,參數規(guī)模達到百億、千億,甚至萬億,這對模型的訓練性能提出了非常高的要求。一個高性能的訓練框架不僅可以大大縮短訓練時間,還可以大大節(jié)省硬件資源。另外,在推薦領域,大規(guī)模的稀疏參數需要大量的存儲空間,不是單機能夠容納的,需要分布式文件系統(tǒng)的幫助。
考慮到各種不同廠商的AI芯片,如英偉達的GPU,華為的昇騰、百度的昆侖等芯片,想要充分利用這些高性能AI硬件的能力,軟件必須與這些硬件兼容,它們的編程語法和編譯方法與Intel的x86 CPU不同,如cuda編程等。而且硬件涉及到通訊問題,比如nccl。自然,CPU參數服務器演變成了異構參數服務器。參數系統(tǒng)中涉及到多種并行優(yōu)化策略,如數據并行、模型并行、流水線并行、混合并行、自動并行等。
二、AI模型如何訓練?
訓練模型需要AI框架,如MindSpore。具體怎么訓練一個AI模型?昇思mindspore之前發(fā)布了一個詳細的案例,訓練模型是LeNet5模型,用于分類手寫數字圖片。MindSpore是華為推出的全場景AI計算框架。2020年3月28日,MindSpore正式宣布開源。
首先是安裝MindSpore,為用戶提供Python接口。安裝時,選擇合適的版本、硬件平臺、操作系統(tǒng)、編程語言和安裝方法。其次是定義模型,安裝完成后,可以導入MindSpore提供的算子(卷積、全連接、池化等函數)來構建模型。
接下來是導入訓練數據集,什么是訓練數據集呢,剛剛定義好的模型是不能對圖片進行正確分類的,要通過訓練過程來調整模型的參數矩陣的值。訓練過程就需要用到訓練樣本,也就是打上了正確標簽的圖片。這就好比教小孩兒認識動物,需要拿幾張圖片給他們看,告訴他們這是什么,教了幾遍之后,小孩兒就能認識了。
其次是導入訓練數據集。什么是訓練數據集呢?新定義的模型不能正確分類圖片。需要通過訓練過程來調整模型的參數矩陣的值。訓練過程需要訓練樣本,即正確標注的圖片。
這里需要用MNIST數據集來訓練LeNet5模型。這個數據集由訓練集(6萬張圖片)和測試集(1萬張圖片)兩部分組成,都是從0到9的黑白手寫數字圖片。
再接下來就是訓練模型,訓練數據集和模型定義完成后,就可以開始訓練模型了。在訓練之前,還需要從MindSpore導入兩個函數:損失函數,就是衡量預測結果和真實標簽之間的差距的函數;優(yōu)化器,用來求解損失函數關于模型參數的更新梯度的。準備好之后,開始訓練,把前面定義好的模型、損失函數、優(yōu)化器封裝成一個Model,使用model.train接口就可以訓練LeNet5模型了。最后就是測試訓練后的模型準確率。
然后是訓練模型,訓練數據集和模型的定義完成后,就可以開始訓練模型了。訓練前需要從MindSpore導入兩個函數:loss function,是衡量預測結果與真實標簽差距的函數;優(yōu)化器,用于求解損失函數相對于模型參數的更新梯度。準備好了,就開始訓練。將先前定義的模型、損失函數和優(yōu)化器封裝到一個模型中,并使用model.train接口來訓練LeNet5模型。最后,對訓練后模型的準確性進行了檢驗。
市面上AI繪畫模型有哪些?
今年以來, 輸入文本描述自動生成圖片的AI繪畫神器突然如雨后春筍似的冒了出來。下面分別對Disco Diffusion、Midjourney、DALL·E 2、Imagen、Parti、Stable Diffusion等技術進行簡單介紹。
一、Disco Diffusion
Disco Diffusion 是在今年 2 月初開始爆紅的一個 AI 圖像生成程序,可以根據描述場景的關鍵詞渲染出對應的圖像。
Disco Diffusion(DD)是一個CLIP指導的AI圖像生成技術,簡單來說,Diffusion是一個對圖像不斷去噪的過程,而CLIP模型負責對圖像的文本描述。
二、Midjourney
相較于Disco Diffusion,Midjourney界面更友好(不需要任何代碼)生成時間更短(一張一分鐘左右)細節(jié)更精細、完整度更高。如果Disco Diffusion基本等于初級原畫師的能力,或者僅限于創(chuàng)作者進行頭腦風暴;那Midjourney或許已經達到了可以直接生產工業(yè)級高質量成品的地步。
三、DALL·E 2
DALL·E 2基于CLIP/unCLIP 機制的。首先,為了獲得完整的圖像生成模型,將CLIP 圖像嵌入到解碼器和先驗模型中,該先驗模型根據給定的文本標題生成可能的CLIP 圖像嵌入。將完整文本條件圖像生成堆棧稱為 unCLIP,因為它通過顛倒 CLIP 圖像編碼器來生成圖像。訓練數據集由圖像X及其對應標題y的對(X,y)組成,設zi和zt分別為其 CLIP 圖像和文本嵌入。
DALL·E 2 快速發(fā)展的背后,其實是人工智能由感知智能到認知智能的全面升級,而這其中的創(chuàng)造性是 AI 今后發(fā)展的最大助力,比如金融行業(yè)的呼叫中心需要分析客戶的語氣,以快速處理投訴類案例;出行類 APP 遇到客戶說出某些關鍵詞時,則需要立刻與 110 聯動報警。這些應用場景其實都需要 AI 模型放棄原先死板僵硬的計算,而發(fā)展出某種活性。而一旦 AI 擁有創(chuàng)意,那么就可以和二次元特性進行結合,尤其是 90、00 后的年輕人們,在對話當中經常使用表情圖、動態(tài)圖等方式來表達情感,而將這些非語言信息的語義提取并翻譯出來,就需要一定的創(chuàng)意了。再進一步,AI 未來很可能會達到比你自己更懂你的程度。比如前段時間小藍經常熬夜加班,結果打開淘寶會發(fā)現總給我推薦防脫洗發(fā)水。
雖然短期來看,創(chuàng)造性 AI 還略顯遙不可及,但是 DALL·E 2 的出現,讓我們看到了希望,讓我們做好準備迎接新一代認知 AI 產品的到來。
四、Imagen
Imagen是由谷歌推出的一款新的AI系統(tǒng),可以將文字描述轉化為逼真圖像的人工智能技術。Imagen擴散模型可根據用戶的書面提示輸出繪圖、油畫、CGI 渲染等。Imagen 的開發(fā)者谷歌研究團隊表示,基于變壓器和圖像擴散模型,Imagen實現了前所未有的真實感。谷歌聲稱,對比其它模型,在圖像保真度和圖像-文本匹配方面,人類評估者更喜歡 Imagen。
不過,谷歌也表示,Imagen 是在從網絡上抓取的數據集上進行訓練的,雖然已經過濾了很多不良內容如色情圖像、污穢語言等,但仍有大量不當的內容數據集,因此也會存在種族主義誹謗和有害的社會刻板印象。
五、Parti
研究人員表示,用文本生成圖像非常有趣,它允許我們創(chuàng)建從未見過甚至不存在的場景。但這帶來許多益處的同時,也存在一定風險,并對偏見和安全、視覺傳達、虛假信息,以及創(chuàng)造力和藝術產生潛在影響。
此外,一些潛在的風險與模型本身的開發(fā)方式有關,對于訓練數據尤其如此。像 Parti 這樣的模型,通常是在嘈雜的圖像文本數據集上進行訓練的。這些數據集已知包含對不同背景的人的偏見,從而導致 Parti 等模型產生刻板印象。比如,在將模型應用于視覺傳達(例如幫助低識字率的社會群體輸出圖片)等用途時,會帶來額外的風險和擔憂。
六、Stable Diffusion
Stable Diffusion是一個文本到圖像的潛在Diffusion Model,由CompVis、Stability AI和LAION的研究人員和工程師創(chuàng)建。它使用來自LAION-5B數據庫子集的512x512圖像進行訓練。使用這個模型,可以生成包括人臉在內的任何圖像,因為有開源的預訓練模型,所以也可以在自己的機器上運行。
AI繪畫發(fā)展歷程
一、AI繪畫發(fā)展歷程
AI 繪畫實際上并不是近幾年才出現的新詞語。從 Google 趨勢提供的搜索指數來看,2004 年至 2007 年期間,“AI painting”就已經成為檢索熱詞;2008年之后,檢索熱度開始下降并進入平緩期;直到 2017 年 5 月, AI 繪畫再一次成為大眾的關注熱點。
從廣義上來講,AI 繪畫早在上個世紀就已經出現了。1973年,Harold Cohen 就已經開始嘗試和電腦程序 “AARON” 攜手進行繪畫創(chuàng)作。與當下 AI 繪畫不同之處在于,ARRON 使用機械手臂在畫布上進行繪畫,而非數字繪圖。進入 20 世紀 80 年代,ARRON 學會了對三維空間物體的繪畫表現方法;90 年代,ARRON學會了使用多種顏色進行繪畫。ARRON 已經繪制出了很多不同的作品,直到今天,它仍在進行創(chuàng)作。
從 python 語言逐漸流行開始,一個名為 “turtle” 的繪圖庫逐漸進入人們的視線。turtle 繪圖庫的概念最初來自 Wally Feurzig 和 Seymour Papert 于 1966 年所創(chuàng)造的 Logo 編程語言,通過編寫程序,這個庫也能夠幫助我們進行一些圖像的繪畫。
我們現在所說的 AI 繪畫,實際更多指代的是基于機器學習模型進行自動數字繪圖的計算機程序。這類繪畫方式的發(fā)展要稍晚一些。
2012 年,吳恩達和 Jeff Dean 使用 Google Brain 的 1.6 萬個 CPU 訓練了一個大型神經網絡,用于生成貓臉圖片。在當時的訓練中,他們使用了 1000 萬個來自 Yotube 視頻中的貓臉圖片,模型訓練用了整整三天。最終得到的模型,也只能生成一個非常模糊的貓臉。
與現在的模型相比,這個模型的訓練幾乎毫無效率可言。但對于計算機視覺領域而言,這次嘗試開啟了一個新的研究方向,也就是我們目前所討論的 AI 繪畫。
二、AI繪畫現狀
在2014年, AI學術界提出了一個非常重要的深度學習模型即對抗生成網絡GAN (Generative Adverserial Network, GAN)。
正如同其名字"對抗生成", 這個深度學習模型的核心理念是讓兩個內部程序 "生成器(generator)" 和"判別器(discriminator)" 互相PK平衡之后得到結果。GAN模型一經問世就風靡AI學術界, 在多個領域得到了廣泛的應用。同時也隨即成為很多AI繪畫模型的基礎框架, 其中生成器用來生成圖片, 而判別器用來判斷圖片質量。GAN的出現大大推動了AI繪畫的發(fā)展。
但是, 用基礎的GAN模型進行AI繪畫也有比較明顯的缺陷, 一方面是對輸出結果的控制力很弱, 容易產生隨機圖像, 而AI繪畫的輸出應該是穩(wěn)定的。另外一個問題是生成圖像的分辨率比較低。
分辨率的問題還好說, GAN在“創(chuàng)作"這個點上還存在一個問題, 這個問題恰恰是其自身的核心特點: 根據GAN基本架構,判別器要判斷生成的圖像是否和已經提供給判別器的其他圖像是同一個類別的, 這就說明輸出的圖像就是對現有作品的模仿, 而不是創(chuàng)新......
在對抗生成網絡GAN之外, 研究人員也開始利用其他種類的深度學習模型來嘗試訓練AI繪畫。一個比較著名的例子是2015年 Google發(fā)布的一個圖像工具深夢(Deep Dream)。深夢發(fā)布了一系列畫作, 一時吸引了很多眼球。谷歌甚至為這個深夢的作品策劃了一場畫展。但如果深究一下, 深夢與其說是AI繪畫, 更像是一個高級版AI濾鏡。
這個模型之所以受到廣泛關注的原因是Google把相關源代碼開源了, 第三方開發(fā)者可以基于該模型開發(fā)有趣的AI簡筆畫。其中一個在線應用叫做 “Draw Together with a Neural Network” ,隨意畫幾筆,AI就可以自動幫你補充完整個圖形。值得注意的是, 在AI繪畫模型的研究過程中, 各龍頭互聯網企業(yè)成了主力, 除上述Google所做的研究之外,比較有名的是2017年7月,Facebook聯合羅格斯大學和查爾斯頓學院藝術史系三方合作得到的新模型, 號稱創(chuàng)造性對抗網絡 (CAN, Creative Adversarial Networks)。
從下圖的作品集可以看出,這個創(chuàng)造性對抗網絡CAN在嘗試輸出一些像是藝術品的圖畫,它們是獨一無二的,而不是現存藝術作品的仿品。
CAN模型生成作品里所體現的創(chuàng)造性讓當時的開發(fā)研究人員都感到震驚, 因為這些作品看起來和藝術圈子流行的抽象畫非常類似。于是研究人員組織了一場圖靈測試,請觀眾們去猜這些作品是人類藝術家的作品,還是人工智能的創(chuàng)作。
結果, 53%的觀眾認為CAN模型的AI藝術作品出自人類之手, 這是歷史上類似的圖靈測試里首次突破半數。但CAN AI繪畫, 僅限于一些抽象表達, 而且就藝術性評分而言, 還遠遠達不到人類大師的水平。
三、AI 學習繪畫的四個挑戰(zhàn)
對于機器學習模型而言,讓 AI 學會繪畫的過程就是一個模型的構建和參數訓練過程。在模型訓練中,每一副圖畫都使用一個大小為 mxn 的像素點矩陣表示,對于彩色圖畫,每個像素點都由 RGB(red、green、blue)三個顏色通道組成。要讓計算機學會繪畫,就相當于訓練一個可以逐個產生像素的機器學習模型。
這聽起來或許很簡單,但實際上,這一過程并沒有我們想象得那么容易。在一篇論文《Learning to Paint with Model-based Deep Reinforcement Learning》中,提到了訓練 AI 學習繪畫的四個挑戰(zhàn),包括:
1、模型需要訓練的參數集合非常龐大
繪畫中的每一筆都涉及位置、形狀、顏色等多個方面的參數確定,對于機器學習模型來說,這將產生一個非常龐大的參數集合。
2、筆畫之間關系的確定,會導致更加復雜的計算
一副紋理豐富自然的畫作往往由很多筆畫完成。如何對筆畫進行組合、確定筆畫間的覆蓋關系,將是一個很重要的問題。
3、難以將 AI 接入一個現有的繪畫軟件
畫作的渲染等操作將導致非常高昂的數據獲取代價。
4、AI 除了模仿已有畫作的內容和風格以外,還需自創(chuàng)風格
AI 除了模仿已有畫作的內容和風格以外,還能夠自創(chuàng)風格,模型訓練的難度會進一步加大。一個原因是“創(chuàng)造”是一個非常抽象的概念,使用模型來表達比較困難;另一個原因是訓練數據的內容和風格終究是有限的。
藍海大腦深度學習AI繪畫一體機采用 Intel 、AMD處理器,突破傳統(tǒng)風冷散熱模式,采用風冷和液冷混合散熱模式——服務器內主要熱源 CPU 利用液冷冷板進行冷卻,其余熱源仍采用風冷方式進行冷卻。通過這種混合制冷方式,可大幅提升服務器散熱效率,同時,降低主要熱源 CPU 散熱所耗電能,并增強服務器可靠性;支持VR、AI加速計算;深受廣大深度學習AI繪畫工作者的喜愛。
AI繪畫為何可以快速發(fā)展關鍵技術有哪些?
一、GAN+CLIP 解決跨模態(tài)問題
1 、生成式對抗網絡
圖像到圖像的生成 GAN(Generative Adversarial Nets,生成式對抗網絡)在 2014 年提出后,是生成器和判別器的一代代博弈。生成器通過輸入數據生成圖像,并將其混入原始數據中送交判別器區(qū)分。判別器依據二分類網絡,將生成器生成圖像作為負樣本,真實圖像作為正樣本。雙方的訓練過程交替進行,對抗的過程使得生成器生成的圖像越來越逼真,判別器的分辨能力也越來越強。
GAN 的三個不足之處:
1)GAN 對輸出結果的控制力較弱,容易產生隨機圖像
對此,CGAN 通過把無監(jiān)督的 GAN 變成半監(jiān)督或者有監(jiān)督的模型,為訓練加上目標,而 DCGAN 通過縮小 CNN 在監(jiān)督學習與無監(jiān)督學習之間的差距使得訓練過程更加穩(wěn)定和可控
2)GAN 生成的圖像分辨率較低
對此,PGGAN 逐漸的向生成器和判別器網絡中添加層,以此增加生成圖片的空間分辨率,StyleGAN 則能夠生成極其逼真的圖像數據并且做到了高層特征可控
3)由于 GAN 需要用判別器來判斷產生的圖像是否與其他圖像屬于同一類別
導致生成的圖像是對現有作品的模仿和微調,不能通過文字提示生成新圖像,因此 CLIP 被引入
2、可對比語言-圖像預訓練算法 CLIP—文字到圖像生成
CLIP(Contrastive Language-Image Pre-training)是 OpenAI 在 2021 年提出的多模態(tài)預訓練的算法,建于 NLP(Natural Language Processing,自然語言理解)和 CV(Computer Vision,計算機視覺)相結合的基礎上。算法使用已經標注好的“文字-圖像”數據對訓練。一邊對文字進行模型訓練,一邊對圖像進行模型訓練,不斷調整參數,使得輸出的文字特征集和圖像特征集相匹配。
CLIP 方法具有結構簡單,訓練速度快,效果好等諸多優(yōu)良特性。CLIP 具有非常好的遷移學習能力,預訓練好的模型可以在任意一個視覺分類數據集上取得不錯的效果。而且算法是 Zero-Shoot 的,即不需要再去新數據集上做訓練,就能得到不錯的結果。
現被廣泛應用的 StyleCLIP 融合了 StyleGAN 和 CLIP 雙方的特性。之前的 StyleGAN 的語義控制發(fā)現方法會涉及手動檢查、大量帶注釋的數據、或者需要預訓練的分類器,且只能按照預設的語義方向操作圖像,嚴重限制了用戶的創(chuàng)造力和想象力,若需要添加一個未映射的方向,需要大量的手工工作或大量的注釋數據。StyleCLIP 支持普通用戶基于文本的直觀語義圖像操作,也不限于預設的操作方向。
二、深度學習助力 AI 畫技進步
AI 繪畫的實際操作大體可以分為四個步驟:加噪點、去噪點、復原圖片和作畫。其中,加噪點即添加高斯噪聲或者關鍵詞,通過固定公式來實現,這方面,快速更新迭代的 MIM 方法表現出色。去噪點即仿生物視覺神經網絡在去噪過程中開展學習(透視、顏色等),目前 Transformer 正取代 CNN 卷積神經網絡成為主流方法。而在復原圖片和作畫方面,AI 的“畫技”主要由擴散模型 Diffusion Model 和神經輻射場模型 NeRF 決定。
1、圖像掩碼建模 MIM — 高效簡潔的預訓練方法
MIM(Masked Image Modeling,圖像掩碼建模)是一種自監(jiān)督表征學習算法。主要思路是,對輸入圖像進行分塊和隨機掩碼操作,然后對掩碼區(qū)域做一些預測,進而猜測全圖。掩碼信號建模在多個模型中應用發(fā)展,例如 OpenAI 的 iGPT 模型(通過馬賽克進行信號的遮蔽和轉換)、ViT 模型等。
基于 MIM 的模型在不同類型和復雜程度的廣泛視覺任務上實現了非常高的微調精度,使得 AI 作畫從生成不完整圖像進步到可生成完整圖像的跨越。MIM 在語義較弱的幾何運動任務或細粒度分類任務中的表現明顯優(yōu)于有監(jiān)督模型;對于有監(jiān)督模型擅長的任務,MIM 模型仍然可以取得極具競爭力的遷移性能。目前較受認可的 MAE 模型產自何愷明對 MIM 的優(yōu)化。
MIM 在預訓練圖像編碼器的時候,太關注細節(jié)損失了高維抽象能力。MAE 的非對稱編碼器-解碼器結構,使模型分工明確,編碼器負責抽取高維表示,解碼器則負責細粒度還原;MAE 同時對輸入圖像進行高比例遮蔽。將以上兩種設計結合,結果用來訓練大模型:訓練速度提升三倍以上,同時保持高準確率,具備很好的泛化能力。MAE 廣泛應用于人臉識別等多個領域。例如,FaceMAE 作為隱私保護人臉識別范式,同時考慮了人臉隱私和識別性能,可以適配任何人臉數據集,以降低隱私泄露風險。
2、特征處理器 Transformer — 優(yōu)化的自然語言處理模型
Transformer 是當前綜合表現最優(yōu)的特征提取器。模型首創(chuàng)于 2017 年的 Google 論文《Attention is All You Need》。它的性能優(yōu)于傳統(tǒng)的 RNN 和 CNN 特征提取器。
Transformer 為視覺領域帶來了革新性的變化,它讓視覺領域中目標檢測、視頻分類、圖像分類和圖像生成等多個領域實現了很大的進步。2020 年 10 月,谷歌提出了 Vision Transformer(ViT),它是 Transformer 用于 CV 領域的杰出例子,它在大型數據集中處于領先地位。2021 年 1 月,OpenAI 用的 DALL·E 和 CLIP 兩個模型都利用 Transformer 達到了較好效果,前者可以基于本文直接生成圖像,后者則能完成圖像與文本類別的匹配。
Transformer 的研究才剛剛起步,因此仍有很大研究和發(fā)展空間。在研究領域,CNN 研究已趨向于成熟,考慮到模型成熟度和性價比,CNN 在短期內仍不會被淘汰。原因如下:
1)現有的 Visual Transformer 參數量和計算量過大,內存占用量超過可承受范圍,效率方面還需要提升,亟需開發(fā)高效 Transformer for CV
2)現有的 Visual Transformer 都還是將 NLP 中 Transformer 的結構套到視覺任務做了一些初步探索,未來針對 CV 的特性設計更適配視覺特性的 Transformer 將會帶來更好的性能提升
3)現有的 Visual Transformer 一般是一個模型做單個任務,近來有一些模型可以單模型做多任務,比如 IPT,我們期待未來出現世界模型,處理全局任務
3、擴散模型 Diffusion Model — 新一代圖像生成主流模型
Diffusion Model 代指擴散模型,擁有比 GAN 更優(yōu)的能力并快速崛起。相關研究最早可以追溯到 2015 年,奠基研究是 2020 年《Denoising Diffusion Probabilistic Models》。
2022 年,借助 AI 繪畫應用,擴散模型在圖像生成領域展現卓越實力。擴散模型的工作原理,是通過連續(xù)添加高斯噪聲來破壞訓練數據,然后通過反轉這個噪聲過程,來學習恢復數據。一幅畫當中,衣服的紋樣、樹葉、云彩等帶有很多細節(jié)紋理的地方,其實細節(jié)越多,越接近一個隨機的噪點。對于這些地方,也許只需要幾次高斯噪點的摻入(可理解為高斯模糊),就能破壞原來的紋樣,接近正態(tài)分布。訓練后,可以使用 擴散模型將隨機采樣的噪聲傳入模型中,通過學習去噪過程來生成數據。都是給定噪聲 xT 生成圖片 x0,相比 GAN,Diffusion 所需數據更少,生成效果更優(yōu)。
擴散模型在計算機視覺、自然語言處理、波形信號處理、多模態(tài)學習、分子圖生成、時間序列以及對抗學習等七大應用方向中都有應用。
在 AI 繪畫領域,除 Disco Diffusion,最先進的文本生成圖像系統(tǒng) OpenAI 的 DALL·E 2 和 Google 的 Imagen,都是基于擴散模型來完成的。擴散模型還在發(fā)展中,改進研究在采樣速度提升、最大似然增強和數據泛化增強等領域持續(xù)進步。
4、神經輻射場 NeRF — 順應 3D 內容消費趨勢
NeRF(neural implicit representation,神經輻射場)利用深度學習完成計算機圖形學中的 3D 渲染任務。這一技術從 2019 年開始興起,在 2020 年 NeRF 獲得 ECCV best paper 之后受到了廣大關注。NerF 在很大程度上克服了樣本特征受限的問題。此前,2D 到 3D 生成的領域也包含 GAN 方面的嘗試,比如英偉達20-21 年推出的 GANverse3D 能夠自定義對象和交換背景。但由于 GAN 在對抗訓練中會受限于樣本特征,該模型當時僅適用于汽車、馬匹和鳥類。
NeRF 模型的基本原理是:將場景的體積表示優(yōu)化為向量容數,該函數由位置和視圖方向組成的連續(xù) 5D 坐標定義。具體而言,是沿相機射線采樣 5D 坐標來合成圖像,將場景表示參數化為一個完全連接深度網絡(MLP),該網絡將通過 5D 坐標信息,輸出對應的顏色和體積密度值。NeRF 對于虛擬人創(chuàng)建、3D 訓練環(huán)境構建、增強現實、線上游戲及電影特效等都具有重要意義。
自 NeRF 在 ECCV2020 提出后,NeRF 模型也持續(xù)在生成范圍、生成效果,乃至所需基礎數據上進行改進。例如陸續(xù)支持光影變化效果、動態(tài) NeRF、類實時生成、全場景 NeRF、單張生成模型和3D 幾何數據生成。
在 AI 繪畫中,NeRF 通過將場景表示為隱式的神經輻射場,渲染時通過神經網絡查詢位置上的場景信息生成新視角圖像。直觀來講,渲染就是用計算機模擬照相機拍照,它們的結果都是生成一張照片。NeRF 將場景表示為空間中任何點的容積密度和顏色值,有了以 NeRF 形式存在的場景表示后,可以對該場景進行渲染,生成新視角的模擬圖片。
NeRF 使用經典體積渲染(volume rendering)的原理,求解穿過場景的任何光線的顏色,從而渲染合成新的圖像。在 NeRF 之后,有人提出了 GRAF,引入了 GAN 來實現神經輻射場,并使用 Conditional GAN 實現對渲染內容的可控性。在 GRAF 之后,GIRAFFE 實現了構成。在 NeRF、GRAF 中,一個神經輻射場表示一個場景。而在 GIRAFFE 中,一個神經輻射場只表示一個物體(背景也算一個物體)。這樣做可以隨意組合不同場景的物體,可以改變同一場景中不同物體間的相對位置,渲染生成更多訓練數據中沒有的全新圖像。
未來 NeRF 發(fā)展主要是基于 NeRF 問題的改進。NeRF 的簡潔性具有優(yōu)勢,但也因此帶來一些問題:
1)計算量大導致耗時長
NeRF 生成圖像時,每個像素都需要近 200 次 MLP 深度模型的前向預測。盡管單次計算規(guī)模不大,但完成整幅圖像渲染的計算量還是很可觀的,NeRF 針對每個場景進行訓練的耗時較長。對此,迭代過后的 Depth-supervised NeRF 能夠實現更少的視角輸入和更快的訓練速度。
2)只針對靜態(tài)場景
對于無法拓展到動態(tài)場景的問題,主要和單目視頻做結合,從單目視頻中學習場景的隱式表示。Neural Scene Flow Fields 將動態(tài)場景建模為外觀、幾何體和三維場景運動的時變連續(xù)函數。該方法只需要一個已知攝像機姿勢的單目視頻作為輸入。
3)泛化性差
NeRF 無法直接擴展到沒有見過的場景,這顯然與人們追求泛化性的目標 相違背。因此一些文章開始對 NeRF 進行泛化性的改進。GRF 學習 2D 圖像中每個像素的局部特征,然后將這些特征投影到 3D 點,從而產生通用和豐富的點表示。與之類似的還有 IBRnet、pixelNeRF 等,比較核心的想法都是卷積與 NeRF 相結合。目前這種泛化都還不夠成熟,無法在復雜場景中取得理想效果。
4)需要大量視角
盡管 NeRF 方法能夠實現出色的視角合成效果,但是它需要大量的(數百張)視角來進行訓練,這限制了它在現實中的應用。針對視角數量的改進,目前還局限在比較封閉的測試環(huán)境下,如合成物體或者單個物體。擴展其在實操中的可 用性也是未來的一大方向。
AI繪畫的突破對人類意味著什么?
2022年的AI領域,基于文本生成圖像的AI繪畫模型是風頭正勁的主角。從2月份的Disco Diffusion開始,4月DALL-E 2和MidJourney邀請內測,5月和6月Google發(fā)布了Imagen和Parti兩大模型,然后在7月底,Stable Diffusion橫空出世。
接下來AI繪畫,或者更廣泛地說,AI生成的內容領域(圖像、聲音、視頻、3D內容等)將會發(fā)生什么,讓我們拭目以待。
其實不用等未來,經歷了以 Stable Diffusion 為代表的最先進的AI繪畫模式所能達到的藝術高度,基本可以確認,曾經充滿神秘主義色彩的“想象力”和“創(chuàng)造力”是可以被技術解構的。
像 Stable Diffusion 這樣的AI生成模型的一個核心思想,或者說很多深度學習AI模型的核心思路,就是把人類創(chuàng)造的內容,在某個高維或者低維的數學空間里,表達成一個向量(更簡單的理解,一串數字)。如果這個“內容->向量”的變換設計足夠合理,那么人類所有的創(chuàng)造性內容都可以表示為某個數學空間中的部分向量。而存在于這個無限的數學空間中的其他向量,不過是那些理論上人類可能創(chuàng)造出來,但還沒有被創(chuàng)造出來的內容。
通過“矢量->內容”的逆向轉化,這些還沒有被創(chuàng)造出來的內容被AI挖掘出來。這正是目前的中途,這些最新的AI繪畫模型所做的穩(wěn)定擴散。AI可以說是在創(chuàng)造新的內容,也可以說是新繪畫的搬運工。AI產生的新畫,在數學意義上一直是客觀存在的,只是被AI用巧妙的方式從數學空間還原出來而已。
審核編輯黃昊宇
-
AI
+關注
關注
87文章
31054瀏覽量
269407 -
深度學習
+關注
關注
73文章
5506瀏覽量
121265
發(fā)布評論請先 登錄
相關推薦
評論