近日DeepMind發(fā)布VQ-VAE-2算法,也就是之前VQ-VAE算法2代,這個(gè)算法從感觀效果上來(lái)看比生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN)的來(lái)得更加真實(shí),堪稱AI換臉界的大殺器,如果我不說(shuō),相信讀者也很難想象到上面幾幅人臉圖像都是AI自動(dòng)生成出來(lái)的。
不過(guò)如此重要的論文,筆者還沒(méi)看到專業(yè)性很強(qiáng)的解讀,那么筆者就將VQ-VAE-2算法分為VQ,VAE,VQVAE2三部分來(lái)介紹原理,權(quán)當(dāng)拋磚引玉。
什么是VQ
VQ是vector quantisationk(一般譯作矢量量化)的縮寫,他的主要思想是通過(guò)k-means算法進(jìn)行聚類,將相近的點(diǎn)全部近似點(diǎn)簇的重心,從而在不損失太多信息的情況下對(duì)輸入進(jìn)行壓縮。
k-means聚類算法:我在之前博客《終于把軟微BING搜索-SPTAG算法的原理搞清了(https://blog.csdn.net/BEYONDMA/article/details/90578111)
也曾經(jīng)介紹過(guò)k-means算法。算法先隨機(jī)指定選取K個(gè)點(diǎn)做為初始聚集的簇心,分別計(jì)算每個(gè)樣本點(diǎn)到 K個(gè)簇核心的余弦距離,找到距離最近的核心點(diǎn),將它歸屬到對(duì)應(yīng)的簇,所有點(diǎn)都?xì)w屬到簇之后, M個(gè)點(diǎn)就分為了 K個(gè)簇。之后重新計(jì)算每個(gè)簇的重心,將其定為新的“核心”,重復(fù)上述步驟直到新核心不再改變?yōu)橹够蛘吒淖兙嚯x達(dá)到一定值后中止。那么最終的K個(gè)簇就是最終的聚類結(jié)果。
k-means算法試圖最小化失真,其定義為每個(gè)觀測(cè)向量與其主質(zhì)心之間距離的平方之和。通過(guò)迭代地將觀測(cè)結(jié)果重新分類為星系團(tuán),并重新計(jì)算中心體,直到得到一個(gè)中心體穩(wěn)定的構(gòu)型,從而達(dá)到最小值。
那么VQ實(shí)際就是先把輸入的圖像進(jìn)行-means聚類,完成后只保留最終留下的K個(gè)簇質(zhì)心,簇上的其它點(diǎn)全部近似化為質(zhì)心來(lái)進(jìn)行存儲(chǔ),用這樣的方式來(lái)進(jìn)行壓縮。
什么是VAE
VAE是variational auto encoding(一般譯作變分自動(dòng)編碼),不過(guò)筆者感覺(jué)譯為隱變更自動(dòng)編碼可能更貼切。VAE的主要思想是他認(rèn)為圖像、聲音等信息是由多個(gè)隱變量(latent arrtibute),比如對(duì)于人的面部圖像來(lái)說(shuō)就由笑容,膚色、發(fā)色、發(fā)型等變量決定,那么VAE網(wǎng)絡(luò)就先把圖像中的笑容,膚色、發(fā)色、發(fā)型等變量識(shí)別出來(lái),然后將這些變量傳遞給解碼器生成圖像。具體工作原理圖如下:
VQ-VAE1代算法整體的工作方式
簡(jiǎn)單來(lái)講VQ-VAE1代算法,在Encoder層計(jì)算latent arrtibute(隱向量)的向量族z,然后傳遞給隱層,在隱層按照剛剛所述的VQ算法進(jìn)行壓縮,然后輸出給Decoder進(jìn)行生成,其具體原理見(jiàn)下圖。
如果要進(jìn)行換臉,那么只要將人臉A的Encoder進(jìn)行編碼計(jì)算latent arrtibute(隱向量),然后輸出給FaceB的Decoder進(jìn)行生成即可完成。
VQ-VAE2代算法的更新
VQ-VAE2代其實(shí)總體和1代差別不大,主要將latent arrtibute(隱向量)分為top和bottom兩層,其中top層記錄整體細(xì)節(jié)主要是明亮度、色調(diào)等信息,而bottom層主要記錄細(xì)節(jié)信息,從實(shí)際效果上看甚至包括了發(fā)絲、瞳孔等超級(jí)細(xì)微的層面。具體原理圖如下:
VQ-VAE-2將AI換臉的技術(shù)提升到了真假難辯的高度
我在之前的博客《終于把AI換臉的原理搞清了》(https://blog.csdn.net/BEYONDMA/article/details/88365203)曾經(jīng)介紹過(guò)deepfakes等項(xiàng)目的原理,不過(guò)之前那些換臉?biāo)惴▽?duì)于細(xì)節(jié)的把握程度遠(yuǎn)遠(yuǎn)達(dá)不到VQ-VAE-2的程度,從DeepMind的論文中可以看到,其生成效果之好、分辨率之高已經(jīng)到達(dá)了刷新了筆者的認(rèn)知極限。所以筆者最后也再次呼吁,不要將AI換臉技術(shù)用在歪路上。
-
AI
+關(guān)注
關(guān)注
87文章
31364瀏覽量
269765 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
10901
原文標(biāo)題:AI換臉技術(shù)再創(chuàng)新高度,DeepMind發(fā)布的VQ-VAE二代算法有多厲害?
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論