NVIDIA研究人員利用全新GPU加速的深度學(xué)習(xí)技術(shù),能夠?qū)D片中的美洲豹同時(shí)轉(zhuǎn)換為貓咪、老虎,甚至是狗狗。這項(xiàng)技術(shù)對(duì)于視頻也同樣適用。
將一幅圖像或一段視頻轉(zhuǎn)化為多幅圖像或多段視頻的能力可以幫助游戲開發(fā)人員和電影制作人員加快速度、降低成本,為用戶創(chuàng)造出更豐富的體驗(yàn)。除此之外,還可以更快、更輕松地生成各種訓(xùn)練數(shù)據(jù),提升自動(dòng)駕駛汽車的能力,助其應(yīng)對(duì)更多的路況。
一生萬(wàn)物
在去年12月的神經(jīng)信息處理系統(tǒng)大會(huì)和研討會(huì)(NIPS)中,NVIDIA進(jìn)行了圖像轉(zhuǎn)換工作成果的相關(guān)演示。NIPS論文中介紹的方法采用的是一對(duì)一的方式,將一幅圖像或一段視頻轉(zhuǎn)換成另一幅圖像或另一段視頻。如今他們能夠在此基礎(chǔ)上更上一層樓。
近日發(fā)布的論文中(Multimodal Unsupervised Image-to-Image Translation)披露的新技術(shù)叫做“多模態(tài)”(Multimodal)技術(shù),能夠同時(shí)將一幅圖像轉(zhuǎn)化為多幅圖像。
多模態(tài)圖像轉(zhuǎn)換僅是一個(gè)最新的典例,展現(xiàn)了NVIDIA 200 人的研究團(tuán)隊(duì)其中的一項(xiàng)突破性成果。NVIDIA的研究人員分布在全球11個(gè)不同的地點(diǎn),致力于推動(dòng)機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自動(dòng)駕駛汽車、機(jī)器人、圖形、計(jì)算機(jī)架構(gòu)、編程系統(tǒng)和其他領(lǐng)域的技術(shù)進(jìn)步。
陰郁天氣里的一抹陽(yáng)光
與NIPS展示的研究類似,多模態(tài)圖像轉(zhuǎn)換依賴于無(wú)監(jiān)督式學(xué)習(xí)和生成式對(duì)抗網(wǎng)絡(luò) (GAN) 這兩項(xiàng)深度學(xué)習(xí)技術(shù),賦予設(shè)備更多“想象力”,例如“想象”一條陽(yáng)光普照的街道在暴風(fēng)雨或冬季時(shí)的景象。
現(xiàn)在,將一段夏季駕車視頻轉(zhuǎn)換為一段冬季駕車視頻,這樣的技術(shù)已然過(guò)時(shí)。研究人員推陳出新,他們現(xiàn)在能夠創(chuàng)建一系列不同的冬季駕車視頻,展現(xiàn)降雪量各異的情景。該技術(shù)也適用于一天內(nèi)不同的時(shí)段以及其他不同的天氣條件,能夠在陰云密布的天氣中營(yíng)造出一縷陽(yáng)光,或者將黑夜轉(zhuǎn)換為黎明、下午或黃昏時(shí)分。該項(xiàng)技術(shù)在自動(dòng)駕駛領(lǐng)域?qū)⒕哂蟹浅4蟮膬r(jià)值,能夠幫助訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。
在游戲領(lǐng)域,多模態(tài)圖像轉(zhuǎn)換可以為工作室提供更快捷、更簡(jiǎn)單的方式來(lái)創(chuàng)建新角色或新環(huán)境。藝術(shù)家無(wú)須再費(fèi)心處理比較繁冗的任務(wù),而是能夠?qū)P娜ラ_發(fā)更豐富、更復(fù)雜的故事。
多模態(tài)無(wú)監(jiān)督式圖像到圖像轉(zhuǎn)換框架(簡(jiǎn)稱 MUNIT)的工作原理是將圖像內(nèi)容與樣式分離開來(lái)。以一張貓咪的圖片為例,貓咪的姿勢(shì)就是內(nèi)容,而品種屬于樣式。姿勢(shì)是固定的。如果要將一只家貓的圖像轉(zhuǎn)換為一只美洲豹或狗狗的圖像,那么動(dòng)物的姿勢(shì)必須保持一致。發(fā)生變化的是品種或物種,比如說(shuō),短毛家貓、美洲豹或牧羊犬。
沒(méi)有數(shù)據(jù)?不必?fù)?dān)心
這項(xiàng)研究以深度學(xué)習(xí)方法為基礎(chǔ),這種深度學(xué)習(xí)方法能夠生成視覺數(shù)據(jù)。GAN使用兩個(gè)互相博弈的神經(jīng)網(wǎng)絡(luò):一個(gè)用于生成圖像,另一個(gè)則用于判別生成的圖像是真是假。在數(shù)據(jù)不足的情況下,GAN尤其有用。
通常,圖像轉(zhuǎn)換需要相應(yīng)圖像的數(shù)據(jù)集——在此案例中,即牧羊犬、拉布拉多巡回犬或老虎的圖片,并且其位置應(yīng)與原始的貓咪圖片完全相同。這種數(shù)據(jù)很難找到,甚至可能根本無(wú)法找到。MUNIT的優(yōu)勢(shì)就在于,即使沒(méi)有這些數(shù)據(jù),它也可以正常工作。
MUNIT也可以方便地為自動(dòng)駕駛汽車生成訓(xùn)練數(shù)據(jù),而無(wú)需在拍攝點(diǎn)、視角、對(duì)向交通和其他細(xì)節(jié)均處于完全相同的前提下拍攝相同的鏡頭。
此外,借助GAN,人們無(wú)需再為每幅圖像或每段視頻的內(nèi)容加標(biāo)簽,而這本是一項(xiàng)需要大量時(shí)間和人力的任務(wù)。
論文的其中一位作者劉洺堉表示:“我的目標(biāo)是,讓機(jī)器具有類似于人類的想象力。人類能夠想象冬天會(huì)是什么景象,無(wú)論樹木是只剩光禿禿的枝干,還是被白雪所覆蓋。我希望開發(fā)出具有相同想象力的人工智能?!?/p>
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5055瀏覽量
103372 -
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239246 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121345
原文標(biāo)題:NVIDIA研究新進(jìn)展:利用多模態(tài)圖像轉(zhuǎn)換AI技術(shù)將貓咪變身成小狗、雄獅和老虎
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論