說起“教授”計(jì)算機(jī)如何完成人類工作,生成式對抗系統(tǒng)(GAN)是現(xiàn)有最有效的手段之一。雖然人們一直被告知“競爭可以激發(fā)出更好的表現(xiàn)”,但是只有在有了生成式對抗系統(tǒng)之后這一“從競爭中學(xué)習(xí)”的邏輯才被發(fā)展到了造福產(chǎn)業(yè)生產(chǎn)的高度。
具體來說,生成式對抗系統(tǒng)是由不同的AI實(shí)體彼此競爭,以達(dá)到更好地解決自己任務(wù)的目的。想象一下,如果有一個(gè)惡意軟件程序和一個(gè)安保機(jī)器人程序同時(shí)對抗,彼此都毫不放松的想要在對方的制約下更好的完成自己的職責(zé)。那么在這個(gè)過程中,他們雙方都可以將自己的任務(wù)(入侵VS保護(hù))完成的越來越好。
生成式對抗系統(tǒng)最初是由蒙特利爾大學(xué)的 Ian Goodfellow 首先創(chuàng)造出來。而最近,它已經(jīng)向人們顯示出了“無監(jiān)督學(xué)習(xí)”的強(qiáng)大威力。
那么究竟生成式對抗系統(tǒng)是如何工作的呢?
每個(gè)生成式對抗系統(tǒng)都有兩個(gè)相互競爭的神經(jīng)網(wǎng)絡(luò)。其中一個(gè)將噪音錄入并且生成樣本(生成器)。而另一網(wǎng)絡(luò)則能夠分辨正常的實(shí)驗(yàn)數(shù)據(jù)和從生成器獲得的樣本(分辨器)。這兩個(gè)網(wǎng)絡(luò)在進(jìn)行一個(gè)持續(xù)的游戲,生成器會一直學(xué)習(xí)如何能夠成功欺騙分辨器,而分辨器則能逐步增強(qiáng)自己分辨兩種數(shù)據(jù)的能力。這兩個(gè)系統(tǒng)同時(shí)接受長期的訓(xùn)練,終于在百萬次的“對抗”之后,生成器生成的樣本已經(jīng)和真實(shí)的數(shù)據(jù)幾乎沒有差異。
簡單來說,生成器就是一個(gè)造假者不斷想要制造虛假的資料,而分辨器則是警察,其職責(zé)就是將虛假的資料分辨出來。因?yàn)檎麄€(gè)過程都是被現(xiàn)有計(jì)算機(jī)器自動化執(zhí)行的,生成式對抗系統(tǒng)已經(jīng)可以實(shí)現(xiàn)許多令人驚嘆的任務(wù)。而以下就是至今為止生成式對抗系統(tǒng)最為驚艷世界的應(yīng)用。
1
當(dāng)機(jī)器有了想象力
谷歌的Deep Dream可以制造出有著幻覺效果的圖像
Google Brain的研究者已經(jīng)找到了可以從視覺上展現(xiàn)他們的精神網(wǎng)絡(luò),Google Net,如何看待事物本質(zhì)的方法。而通過這種方法,生成式對抗系統(tǒng)制造出了可以被稱為有著迷幻效果圖像。
其實(shí),這些如夢似幻的圖片,是一個(gè)給圖片分類的功能刻意過度處理圖像時(shí)產(chǎn)生的副產(chǎn)品。而在這個(gè)過程中涉及到的主要系統(tǒng)就是Deep Dream。
Deep Dream究竟是如何工作的呢?你首先要給他一個(gè)圖像,然后他會主動去尋找他在之前訓(xùn)練中學(xué)會的認(rèn)識的一切。神經(jīng)網(wǎng)絡(luò)可能會發(fā)現(xiàn)一些類似于一只狗,一個(gè)房子這一類的意象。而Google Deep Dream就可能強(qiáng)化這些被認(rèn)出來的事物。
打個(gè)比方,如果現(xiàn)有的認(rèn)知網(wǎng)絡(luò)在你輸入一個(gè)圖像時(shí)會認(rèn)為“看,這個(gè)圖像有40%的可能是一只狗”,那么,下一次,它會在自動完善后說:“看,這有60%的可能性是一只狗?!边@個(gè)過程會一直持續(xù)到被輸入的圖片可以被轉(zhuǎn)化成在神經(jīng)系統(tǒng)看來完全就是一只狗或者其他事物為止。并且,在這樣不斷轉(zhuǎn)化被分類的圖像的過程中,系統(tǒng)創(chuàng)造了看起來超脫塵世的迷幻圖像。
Google的Deep Dream以這樣的方式逆轉(zhuǎn)了我們傳統(tǒng)認(rèn)識中,輸入一個(gè)圖形就會生成一個(gè)對應(yīng)輸出結(jié)果的固定思維。如今,每個(gè)輸入的圖像都會被認(rèn)知系統(tǒng)不斷改進(jìn),直到它可以完全的理解并進(jìn)行最佳分類。
2
讓機(jī)器模仿人類
通過生成式對抗系統(tǒng)模仿學(xué)習(xí)的過程
一群AI研究人員希望能夠用不同的方式去建構(gòu)能自學(xué)的人工智能,而不是沿用傳統(tǒng)的建立在獎(jiǎng)勵(lì)機(jī)制上的方法。
他們給了人工智能一套真實(shí)的展示數(shù)據(jù)作為輸入指令,而根據(jù)這套數(shù)據(jù),人工智能就可以學(xué)習(xí)并且嘗試模仿同樣的動作。
在這個(gè)模型中,Jonathan Ho和Stefano Ermon展示了一種全新的模仿學(xué)習(xí)的方法。在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)系統(tǒng)中,人們總是要設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)功能來向人工智能描述他們應(yīng)該做出怎樣的行為。然而,在實(shí)際操作中,這會需要昂貴的“實(shí)驗(yàn)-糾錯(cuò)“的過程來將保證細(xì)節(jié)的正確。但是,在模仿學(xué)習(xí)的設(shè)定下,人工智能可以直接向樣本的展示如何去學(xué)習(xí),從而完全消除了去設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)功能的需要。
3
指馬為斑馬,變冬為夏
圖像到圖像的生成
通過已有的圖像來生成新的圖像是生成系統(tǒng)的一個(gè)非常有趣的應(yīng)用。在試驗(yàn)中,研究者們已經(jīng)可以改變視頻中的動物,或者圖片中的季節(jié)。
這一任務(wù)的目標(biāo)是學(xué)習(xí)如何通過一整套圖像對(image pair)去充分認(rèn)識輸入與輸出的圖像的聯(lián)系與區(qū)別。然而,在多數(shù)情況中,成對的訓(xùn)練數(shù)據(jù)并不好找。而解決這一問題的方法就是使用兩個(gè)完全相對的映像,一方的輸出圖像被設(shè)定成正好是對方的輸入圖像。以這樣的方法,人們得以用非常少量的數(shù)據(jù)讓人工智能認(rèn)識到兩個(gè)圖像的真實(shí)聯(lián)系(無監(jiān)督學(xué)習(xí))。
4
將簡略素描變成豐滿畫作
通過輪廓生成圖像
逼真的圖像處理是一項(xiàng)艱巨的任務(wù),因?yàn)樗枰斯ぶ悄芡ㄟ^一個(gè)被用戶設(shè)定的角度去豐富圖像的表現(xiàn),但同時(shí)他也要能夠確保最終輸出的逼真效果。這著實(shí)需要相當(dāng)高超的技巧。而一個(gè)藝術(shù)家可能需要數(shù)年的持續(xù)訓(xùn)練才可以達(dá)到這樣的程度。
研究此項(xiàng)技術(shù)的人工智能研究人員之前一直是如何做的呢?他們創(chuàng)造了一個(gè)模型。當(dāng)人們給這個(gè)模型一個(gè)物體的輪廓時(shí),他可以成功認(rèn)出這個(gè)物體,然后基于輪廓生成一個(gè)逼真的實(shí)際圖像。
然而,在近期的一篇論文中,一位作者提議使用Generative Adversarial Neural Network(生成式對立神經(jīng)網(wǎng)絡(luò))來使人工智能可以直接通過自然圖像背后的數(shù)據(jù)進(jìn)行學(xué)習(xí)。這樣的模型自動調(diào)節(jié)了輸出圖像的編輯,使其盡可能逼真。同時(shí),這樣的處理可在約束優(yōu)化的條件下實(shí)現(xiàn)近乎于實(shí)時(shí)的執(zhí)行。這項(xiàng)技術(shù)如果可以進(jìn)一步發(fā)展,那我們可以期待,未來,人工智能可以將人們的草稿變成新的圖形,又或者是將一幅固定圖像改變地與目標(biāo)圖像無限接近。
5
看字畫圖
從字到圖的自動合成
根據(jù)文本自動合成逼真圖片的技術(shù)令人向往。最近,深度卷積生成式對抗網(wǎng)絡(luò)已經(jīng)可以識別某些特定種類的文章然后生成非常引人注目的圖片,例如面龐,唱片封面和房間內(nèi)部裝飾。
這個(gè)模型被同時(shí)包含文本和他們相應(yīng)圖片的樣本數(shù)據(jù)喂養(yǎng)著。當(dāng)人們提供了任何一個(gè)事物的描述時(shí),這個(gè)模型就會開始自動生成對應(yīng)的圖像。
在這一技術(shù)中,從文本到圖像的合成其實(shí)基于兩個(gè)步驟:首先,人工智能需要學(xué)習(xí)并識別文本中展現(xiàn)出重要視覺細(xì)節(jié)的部分,然后,通過這些特定的特點(diǎn)來合成一個(gè)足以欺騙人類的逼真圖像。
6
讓電腦因?yàn)楹闷娑鴮W(xué)習(xí)
好奇會是深層神經(jīng)網(wǎng)絡(luò)持續(xù)探索的真實(shí)動因
在現(xiàn)實(shí)社會中,人工主體可以收到的外部獎(jiǎng)勵(lì)基本不存在。而一個(gè)被動的程序是無法主動進(jìn)化并學(xué)習(xí)的。因此,好奇心能夠作為一個(gè)內(nèi)在獎(jiǎng)勵(lì)的信號幫助人工主體去探索他的周圍環(huán)境并且學(xué)習(xí)之后對其有用的技能——積極的學(xué)習(xí)者一定比那些被動懶惰的人表現(xiàn)得好得多。
在這樣一個(gè)模型里,好奇心其實(shí)是每當(dāng)AI預(yù)測到自己的未來行動時(shí)就會發(fā)出錯(cuò)誤預(yù)警。
這樣的機(jī)器人程序也可以同時(shí)通過程序員建造的獎(jiǎng)勵(lì)系統(tǒng)來幫助他學(xué)習(xí)。
如果我們將人工主體想象成一個(gè)幼兒。一個(gè)沒有父母監(jiān)督的孩子非??赡軙滩蛔∪ビ|碰發(fā)燙的鍋,隨即領(lǐng)悟到這個(gè)東西這么燙讓我這么疼,所以之后我一定不能夠再碰了。好奇心驅(qū)使他去探索,而獎(jiǎng)勵(lì)機(jī)制可以告訴他這件事情是好是壞。
這樣一個(gè)“好奇心”驅(qū)動的學(xué)習(xí)是基于以下幾點(diǎn)判斷建造的:
1)極少的外部獎(jiǎng)勵(lì)會使得好奇心與外界環(huán)境接觸并達(dá)成目標(biāo)的欲望極具減弱
2)比起沒有外部獎(jiǎng)勵(lì)的探索,好奇心驅(qū)動的人工主體可以在學(xué)習(xí)時(shí)更加有效率
3)對于未知情景進(jìn)行概括,可以使人工主體將它們之前有過的經(jīng)歷和知識轉(zhuǎn)化為面對新環(huán)境的智慧,而不是兩眼一抹黑地從頭開始學(xué)習(xí)
這一方法也可以在以下兩個(gè)游戲環(huán)境中來檢驗(yàn):VizDoom和超級瑪麗兄弟。
7
AI設(shè)計(jì)游戲
使用生成式對抗系統(tǒng)來設(shè)計(jì)游戲的用戶界面
想想如果我們可以生成令人信服的視頻游戲的圖像界面,那么我們就可以復(fù)制粘貼這些界面的一些元素然后為我所用。
這一技術(shù)的目標(biāo)是生成一組風(fēng)格統(tǒng)一的游戲圖像。為了達(dá)到這個(gè)目的,這個(gè)程序需要集結(jié)不同游戲的一系列圖像。然后, 通過已有圖像的各個(gè)部分來生成新的獨(dú)特的圖形,作為新游戲的背景界面。
8
預(yù)測視頻中下一步會發(fā)生什么
基于場景動態(tài)特性生成視頻
理解物體的運(yùn)動趨勢和場景動態(tài)特性是計(jì)算機(jī)視覺的核心問題。為了實(shí)現(xiàn)視頻識別和視頻生成,我們需要一個(gè)場景轉(zhuǎn)換的模型。然而,制造這樣一個(gè)動態(tài)模型太有挑戰(zhàn)性,畢竟物體和場景都有無數(shù)種改變的方向。
而這樣看似不可能的任務(wù)被一個(gè)分割了前景和背景的模型實(shí)現(xiàn)了。這個(gè)模型強(qiáng)調(diào)了背景的固定性,從而將神經(jīng)網(wǎng)絡(luò)的大部分精力集中在了學(xué)習(xí)前景物體的移動方向上。同時(shí),這些場景也被分門別類地分割開來,使得人工主體對于前景物體移動方向的預(yù)測更為準(zhǔn)確。
9
生成逼真的人工臉
神經(jīng)識別人聯(lián)系統(tǒng)
“Neural Faces”是一種可以生成人工(而不是真實(shí)的)人臉的一款人工智能技術(shù)。他的基礎(chǔ)就是由Facebook 的AI團(tuán)隊(duì)開發(fā)的深度卷積生成式對抗網(wǎng)絡(luò)。
這個(gè)AI團(tuán)隊(duì),使用包含了100個(gè)0到1之間的實(shí)數(shù)的Z向矢量來生成一幅圖像。之后,這個(gè)生成器就可以逐步學(xué)習(xí)人類圖像的分布。它可以逐步學(xué)會如何生成可以蒙混分辨器的新臉,而分辨器也同時(shí)在分辨生成臉和真實(shí)人臉上越來越熟練。
10
改變照片中的面部表情和特征
使用生成式對抗網(wǎng)絡(luò)的向量運(yùn)算
在一次實(shí)驗(yàn)中,研究人員通過一系列的樣本圖像就已經(jīng)可以成功生成人臉的各種表情。比如說,他可以把一張沒有笑的臉變成微笑的,在臉上添加裝飾品,或者強(qiáng)調(diào)面部的一些特征。
這一功能的基礎(chǔ)方法,是將圖像的每一列以 X 向矢量代表,然后通過 X 的平均數(shù)來生成 Y 向矢量的中位數(shù)。之后,在 Y 向矢量上進(jìn)行例如添加和減少的算術(shù)運(yùn)算,從而形成一個(gè)新的 Z 向矢量,即新圖像。將 Z 向矢量輸入生成器從而生成上面最右邊的結(jié)果圖。
我們可以自信的進(jìn)行其他的屬性操作,例如放大縮小,轉(zhuǎn)換方向等等。為了達(dá)到這樣的目的,我們需要將看向左邊和右邊的人臉的圖像樣本平均為一個(gè)人臉的左右向矢量。然后,通過加入對應(yīng)著圖像矢量的軸的“插值“,我們就可以成功地對這些人臉進(jìn)行這些更高級的改變了。
結(jié)論
我們現(xiàn)在還處于生成式對抗網(wǎng)絡(luò)發(fā)展的初期。以上的這些例子,雖然現(xiàn)在看起來已經(jīng)頗為令人鼓舞,但是這仍然非?;?。對于我們工程師來說,它給予了我們一個(gè)訓(xùn)練 Neural Nets 來完成任何復(fù)雜的人類任務(wù)的光明路徑。它也同時(shí)可以證明創(chuàng)造力已經(jīng)不是一個(gè)只有人類才有的特征了。
-
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269217 -
GaN
+關(guān)注
關(guān)注
19文章
1936瀏覽量
73535
原文標(biāo)題:盤點(diǎn) AI 驚艷世界的10個(gè)瞬間
文章出處:【微信號:melux_net,微信公眾號:人工智能大趨勢】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論