0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用一張圖像合成動(dòng)圖,讓蒙娜麗莎開口說話

電子工程師 ? 來源:YXQ ? 2019-05-27 13:58 ? 次閱讀

蒙娜麗莎開口說話你見過嗎?這位神秘的畫中人也能做出各種 gif 表情?來自三星莫斯科 AI 中心和 Skolkovo 科學(xué)技術(shù)研究所的研究人員創(chuàng)建了一個(gè)模型,利用這個(gè)模型可以從一張圖像中生成人物頭像的動(dòng)圖,而且是開口說話的動(dòng)圖。而且,這一模型沒有采用 3D 建模等傳統(tǒng)方法。

開口說話的蒙娜麗莎好像看著沒那么高冷。

除了蒙娜麗莎,研究人員還生成了風(fēng)情萬種的瑪麗蓮·夢(mèng)露。

他們生成的名人頭部動(dòng)畫包括瑪麗蓮·夢(mèng)露、愛因斯坦、蒙娜麗莎以及 Wu Tang Clan 的 RZA 等。

近年來出現(xiàn)了很多利用 AI 模擬人臉的研究。2018 年,華盛頓大學(xué)的研究人員分享了他們創(chuàng)建的 ObamaNet,它是一種基于 Pix2Pix 的唇語口型模型,以美國前總統(tǒng)奧巴馬的視頻進(jìn)行訓(xùn)練。去年秋天,加州大學(xué)伯克利分校的研究人員開發(fā)出一個(gè)模型,使用 YouTube 視頻來訓(xùn)練 AI 數(shù)據(jù)集,生成的人物可以做跳舞或后空翻等雜技動(dòng)作。

為了創(chuàng)建個(gè)性化模型,上面這些研究需要在大量個(gè)人數(shù)據(jù)上進(jìn)行訓(xùn)練。但是,在許多實(shí)際場(chǎng)景中,我們需要從個(gè)人的少量甚至是一張圖像中學(xué)習(xí)。因此在這項(xiàng)研究中,三星和 Skolkovo 研究所的研究人員只用少量甚至一張圖像或畫作就合成了人物開口說話狀態(tài)的頭部動(dòng)畫。

研究人員利用了 Few-shot learning 等技術(shù),主要合成頭部圖像和面部 landmark,可應(yīng)用于電子游戲、視頻會(huì)議或者三星 Galaxy S10 上現(xiàn)在可用的數(shù)字替身(digital avatar)。這種虛擬現(xiàn)實(shí)項(xiàng)目的數(shù)字替身技術(shù)可用于創(chuàng)建 deepfake 圖像和視頻。

Few-shot 學(xué)習(xí)意味著該模型在僅使用幾幅甚至一幅圖像的情況下模擬人臉。研究人員使用 VoxCeleb2 視頻數(shù)據(jù)集進(jìn)行元訓(xùn)練(meta trainning)。在元學(xué)習(xí)過程中,系統(tǒng)創(chuàng)建了三種神經(jīng)網(wǎng)絡(luò):將幀映射到向量的嵌入器網(wǎng)絡(luò)、在合成視頻中映射面部特征點(diǎn)的生成器網(wǎng)絡(luò)以及評(píng)估生成圖像真實(shí)性和姿態(tài)的判別器網(wǎng)絡(luò)。

聯(lián)合三種網(wǎng)絡(luò),該系統(tǒng)能在大型視頻數(shù)據(jù)集上執(zhí)行長(zhǎng)時(shí)間的元學(xué)習(xí)過程。待元學(xué)習(xí)收斂后,就能構(gòu)建 few-shot 或 one-shot 的神經(jīng)頭像特寫模型。該模型將未見過的目標(biāo)任務(wù)視為對(duì)抗學(xué)習(xí)問題,這樣就能利用已學(xué)習(xí)的高質(zhì)量生成器與判別器。

論文作者表示:「至關(guān)重要的一點(diǎn)是,盡管需要調(diào)整數(shù)千萬參數(shù),該系統(tǒng)能夠因人而異地初始化生成器和判別器參數(shù),因此訓(xùn)練可以在僅借助幾幅圖像的情況下快速完成。這種方法能夠快速學(xué)習(xí)新面孔甚至是人物肖像畫和個(gè)性化的頭像特寫模型。」

該論文已被 2019 CVPR 會(huì)議接收,本屆會(huì)議將于六月份在加利福尼亞州的長(zhǎng)灘舉行。

新穎的對(duì)抗學(xué)習(xí)架構(gòu)

在這項(xiàng)研究中,研究者提出了一種新系統(tǒng),可以只使用少量圖像(即Few shot learning)和有限的訓(xùn)練時(shí)間,構(gòu)建「頭像特寫」模型。實(shí)際上,研究者的模型可以基于單張圖像(one-shot learning)生成合理的結(jié)果,而且在添加少量新樣本后,模型能生成保真度更高的個(gè)性化圖像。

與很多同類工作相同,研究者的模型使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建頭像特性,它通過一個(gè)序列的卷積運(yùn)算直接合成視頻幀,而不是通過變形(warping)。研究者模型創(chuàng)建的頭像特寫可以實(shí)現(xiàn)大量不同的姿態(tài),其性能顯著高于基于變形(warping-based)的系統(tǒng)。

通過在頭像特寫語料庫上的大量預(yù)訓(xùn)練(meta-learning),模型能獲得 few-shot 學(xué)習(xí)的能力。當(dāng)然這需要語料庫足夠大,且頭部特寫視頻對(duì)應(yīng)不同的說話者與面孔。在元學(xué)習(xí)過程中,研究者的系統(tǒng)模擬了 few-shot 學(xué)習(xí)任務(wù),并學(xué)習(xí)將面部 landmark 位置轉(zhuǎn)換到逼真的個(gè)性化照片。在 few-shot 學(xué)習(xí)中,他們只需要提供轉(zhuǎn)換目標(biāo)的少量訓(xùn)練圖像就可以。

隨后,轉(zhuǎn)換目標(biāo)的少量圖像可視為一個(gè)新的對(duì)抗學(xué)習(xí)問題,其高復(fù)雜度的生成器與判別器都通過元學(xué)習(xí)完成了預(yù)訓(xùn)練。新的對(duì)抗問題最終會(huì)完成收斂,即在少量訓(xùn)練迭代后能生成真實(shí)和個(gè)性化的圖像。

元學(xué)習(xí)架構(gòu)

下圖 2 展示了研究者方法中的元學(xué)習(xí)階段,簡(jiǎn)單而言它需要訓(xùn)練三個(gè)子網(wǎng)絡(luò)。注意,若我們有 M 個(gè)視頻序列,那么 x_i(t) 表示第 i 個(gè)視頻的第 t 幀。

第一個(gè)子網(wǎng)絡(luò) embedder E:它會(huì)輸入視頻幀 x_i(s) 以及對(duì)應(yīng)的 landmark 圖像 y_i(s),該網(wǎng)絡(luò)會(huì)將輸入映射到 N 維向量 e hat_i(s) 中。

第二個(gè)子網(wǎng)絡(luò) generator G:它會(huì)輸入新的 landmark 圖像 y_i(t),且 embedder 看不到其對(duì)應(yīng)的視頻幀;該網(wǎng)絡(luò)還會(huì)輸入 embedder 輸出的 e hat_i,并希望能輸出合成的新視頻幀 x hat_i(t)。

第三個(gè)子網(wǎng)絡(luò) discriminator D:它會(huì)輸入視頻幀 x_i(t)、對(duì)應(yīng)的 landmark 圖像 y_i(t),以及訓(xùn)練序列的索引 i。該網(wǎng)絡(luò)希望判斷視頻幀 x_i(t) 到底是不是第 i 個(gè)視頻中的內(nèi)容,以及它到底匹不匹配對(duì)應(yīng)的 landmark 圖像 y_i(t)。

圖 2:元學(xué)習(xí)架構(gòu)的整體結(jié)構(gòu),主要包含嵌入器(embedder)、生成器和判別器三大模塊。

嵌入器網(wǎng)絡(luò)希望將頭像特寫圖像與對(duì)應(yīng)的人臉 landmark 映射到嵌入向量,該向量包含獨(dú)立于人臉姿態(tài)的信息。生成器網(wǎng)絡(luò)通過一系列卷積層將輸入的人臉 landmark 映射到輸出幀中,其生成結(jié)果會(huì)通過嵌入向量以及自適應(yīng)實(shí)例歸一化進(jìn)行調(diào)整。在元學(xué)習(xí)中,研究者將相同視頻一組視頻幀傳遞到嵌入器,并對(duì)嵌入向量求均值以便預(yù)測(cè)生成器的自適應(yīng)參數(shù)。

隨后,研究者將不同幀的 landmark 輸入到生成器中,并對(duì)比標(biāo)注圖像和生成圖像之間的差別。模型的整體優(yōu)化目標(biāo)包括感知和對(duì)抗兩種損失函數(shù),后者通過條件映射判別器實(shí)現(xiàn)。

此外,元學(xué)習(xí)的三大子網(wǎng)絡(luò)在原論文中都有具體的表達(dá)式,讀者可具體查閱原論文 3.2 章。

Few-shot 學(xué)習(xí)過程

一旦元學(xué)習(xí)完成收斂,那么系統(tǒng)就能學(xué)習(xí)到如何合成新目標(biāo)的頭像特寫序列,即使元學(xué)習(xí)中不曾見過這個(gè)人。當(dāng)然,除了要提供新目標(biāo)的一些圖像樣本,我們還需要提供新目標(biāo)的 landmark,合成過程是以這些目標(biāo) landmark 為條件的。

很自然地,我們可以使用元學(xué)習(xí)收斂后的嵌入器(embedder),用來估計(jì)新頭像特寫序列的嵌入向量:

一種比較直觀的想法是使用上面的嵌入向量,以及預(yù)訓(xùn)練的生成器生成新的視頻幀與對(duì)應(yīng) landmark 圖像。理論上這樣也能生成真實(shí)的圖像,但真實(shí)性并不是太強(qiáng)。為此,研究者還需要一個(gè)精調(diào)過程以生成更完美的圖像,即 few-shot 學(xué)習(xí)過程。

精調(diào)過程可視為前面元學(xué)習(xí)過程的簡(jiǎn)化版,它只在單個(gè)視頻序列和較少的幀上完成訓(xùn)練。精調(diào)過程主要包含判別器與生成器兩個(gè)模塊,這里嵌入器是不需要調(diào)整的。

其中生成器還是根據(jù) landmark 合成視頻幀,只不過對(duì)應(yīng)具體人物的生成器參數(shù) ψ'會(huì)和原來一般人物參數(shù)ψ共同優(yōu)化,以學(xué)習(xí)生成目標(biāo)人物的某些特征。判別器和元學(xué)習(xí)階段也差不多,只不過會(huì)增加一個(gè)新參數(shù)以學(xué)習(xí)更好地預(yù)測(cè)真實(shí)度分?jǐn)?shù)。

實(shí)驗(yàn)

研究者在定性和定量評(píng)估實(shí)驗(yàn)中用到了兩個(gè)數(shù)據(jù)集:VoxCeleb1 和 VoxCeleb2。后者的視頻數(shù)量大約是前者的 10 倍。VoxCeleb1 用于與基線和控制變量研究作對(duì)比,VoxCeleb2 用于展示本文中所提方法的全部潛力。實(shí)驗(yàn)結(jié)果如下表所示:

如表 1 所示,基線模型在兩個(gè)相似度度量標(biāo)準(zhǔn)上始終優(yōu)于三星的方法。三星研究人員認(rèn)為,這是方法本身所固有的:X2Face 在優(yōu)化期間使用 L_2 損失函數(shù),因此 SSIM 得分較高。另一方面,Pix2pixHD 只最大化了感知度量,沒有 identity preservation 損失,導(dǎo)致 FID 最小化,但從 CSIM 一欄中可以看出,Pix2pixHD 的 identity 不匹配更大。

此外,這些度量標(biāo)準(zhǔn)和人類的感知并沒有特別緊密的關(guān)聯(lián),因?yàn)檫@些方法都會(huì)產(chǎn)生恐怖谷偽影(uncanny valley artifact),這從圖 3 和用戶研究結(jié)果中可以看出。另一方面,余弦相似度與視覺質(zhì)量有更好的相關(guān)性,但仍然傾向于模糊、不太真實(shí)的圖像,這也可以通過表 1 與圖 3 中的結(jié)果對(duì)比來看出。

圖 3:在 VoxCeleb1 數(shù)據(jù)集上的結(jié)果。對(duì)于每一種對(duì)比方法,研究者在一個(gè)元訓(xùn)練或預(yù)訓(xùn)練期間未見過的人物視頻上執(zhí)行 one-shot 和 few-shot 學(xué)習(xí)。他們將訓(xùn)練的幀數(shù)設(shè)為 T(最左邊的數(shù)字)。Source 列顯示了訓(xùn)練幀之一。

接下來,研究者擴(kuò)展了可用的數(shù)據(jù),開始在視頻數(shù)目更多的 VoxCeleb2 上訓(xùn)練模型。他們訓(xùn)練了兩種模型:FF(前饋)和 FT。前者訓(xùn)練 150 個(gè) epoch,沒有嵌入匹配損失 LMCH,因此用的時(shí)候不進(jìn)行微調(diào)。后者訓(xùn)練 75 個(gè) epoch,但有 LMCH,支持微調(diào)。

他們對(duì)這兩種模型都進(jìn)行了評(píng)估,因?yàn)樗鼈兛梢栽?few-shot 學(xué)習(xí)速度和結(jié)果質(zhì)量之間進(jìn)行權(quán)衡。與在 VoxCeleb1 上訓(xùn)練的小型模型相比,二者都得到了很高的分?jǐn)?shù)。值得注意的是,F(xiàn)T 模型在 T=32 的設(shè)定下達(dá)到了用戶研究準(zhǔn)確率的下界,即 0.33,這是一個(gè)完美的分?jǐn)?shù)。兩種模型的結(jié)果如圖 4 所示:

圖 4:三星最好的模型在 VoxCeleb2 數(shù)據(jù)集上的結(jié)果。

最后,研究者展示了模型在照片或畫像上的結(jié)果。為此,研究者評(píng)估了在 one-shot 設(shè)定下訓(xùn)練的模型,任務(wù)姿態(tài)來自 VoxCeleb2 數(shù)據(jù)集的測(cè)試視頻。他們使用 CSIM 度量給這些視頻排序,并在原始圖像和生成圖像之間進(jìn)行計(jì)算。這使得研究者可以發(fā)現(xiàn)擁有相似標(biāo)志幾何特征的人臉,并將它們由靜態(tài)變?yōu)閯?dòng)態(tài)。結(jié)果見圖 5 和圖 1.

圖 5:使靜止的照片栩栩如生。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 三星電子
    +關(guān)注

    關(guān)注

    34

    文章

    15865

    瀏覽量

    181056
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47372

    瀏覽量

    238858

原文標(biāo)題:[機(jī)器人頻道|大V說]蒙娜麗莎開口說話了:三星新研究用一張圖像合成動(dòng)圖,無需3D建模

文章出處:【微信號(hào):robovideo,微信公眾號(hào):機(jī)器人頻道】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    10動(dòng):秒懂各種常用通信協(xié)議原理

    這絕對(duì)是個(gè)寶藏級(jí)別的動(dòng),這些顯示電子系統(tǒng)中信號(hào)波形的動(dòng),有助于幫助我們理解傳輸?shù)臋C(jī)理。Chrent1、SPI傳輸▲
    的頭像 發(fā)表于 11-07 08:06 ?466次閱讀
    10<b class='flag-5'>張</b><b class='flag-5'>動(dòng)</b><b class='flag-5'>圖</b>:秒懂各種常用通信協(xié)議原理

    請(qǐng)查收!一張來自南京會(huì)“發(fā)光”的城市名片 智慧路燈 物聯(lián)網(wǎng)太陽能路燈

    請(qǐng)查收!一張來自南京會(huì)“發(fā)光”的城市名片 智慧路燈 物聯(lián)網(wǎng)太陽能路燈
    的頭像 發(fā)表于 10-28 14:48 ?301次閱讀
    請(qǐng)查收!<b class='flag-5'>一張</b>來自南京會(huì)“發(fā)光”的城市名片 智慧路燈 物聯(lián)網(wǎng)太陽能路燈

    如何維修一張電腦顯卡型號(hào)是amd的rx580 燒壞的部位?

    大家好!我在維修一張電腦顯卡型號(hào)是amd的rx580 燒壞的部位是個(gè)電感情況如下圖 我覺得應(yīng)該用飛線方法補(bǔ)焊盤再接電感 但是直找不到1伏的兩個(gè)相連的元器件
    發(fā)表于 09-13 03:07

    2024年芯片行業(yè)有多難?數(shù)據(jù)說話

    2024年芯片行業(yè)有多難?數(shù)據(jù)說話
    的頭像 發(fā)表于 08-10 18:20 ?4359次閱讀

    LM358P和IRF631搭建了個(gè)恒流源,運(yùn)放出來的波形失真嚴(yán)重,為什么?

    一張是恒流源的原理,第二圖片是我Multisim仿真的波形,仿真結(jié)果是:運(yùn)放出來的波形失真嚴(yán)重,mos的源極電流也失真很嚴(yán)重,
    發(fā)表于 08-01 06:18

    安卓設(shè)備接收iPhone GIF動(dòng)成靜態(tài)

    據(jù)Reddit社區(qū)、X平臺(tái)和9to5Google等媒體透露,安卓設(shè)備接收iPhone發(fā)送的GIF動(dòng)時(shí),有部分用戶反映其變?yōu)殪o態(tài)圖像并伴有明顯的像素化現(xiàn)象。
    的頭像 發(fā)表于 05-28 11:50 ?2459次閱讀

    打破壁壘,共建網(wǎng)絡(luò):“一張網(wǎng)”理念下的IPv6部署策略

    盤棋”、“一張網(wǎng)”是對(duì)IPv6發(fā)展布局的形象描述。在推進(jìn)IPv6的發(fā)展過程中,需要從全局出發(fā),進(jìn)行統(tǒng)規(guī)劃和部署,就像下盤棋樣,各方
    的頭像 發(fā)表于 05-08 09:03 ?385次閱讀
    打破壁壘,共建網(wǎng)絡(luò):“<b class='flag-5'>一張</b>網(wǎng)”理念下的IPv6部署策略

    幫忙畫一張詳細(xì)的電路,謝謝

    能幫忙畫一張詳細(xì)的電路嗎,謝謝了。因?yàn)樯婕暗酵獠挎溄?,怕被誤會(huì)發(fā)廣告,所以詳細(xì)的需求放在附件里面了 *附件:幫忙謝謝.rar
    發(fā)表于 05-04 22:59

    一張看懂睿創(chuàng)微納2023年年報(bào)

    一張看懂睿創(chuàng)微納2023年年報(bào)
    的頭像 發(fā)表于 04-23 10:38 ?490次閱讀
    <b class='flag-5'>一張</b><b class='flag-5'>圖</b>看懂睿創(chuàng)微納2023年年報(bào)

    NFC手機(jī)作為一張卡片進(jìn)行交易時(shí),發(fā)射的功率是多少?

    NFC手機(jī)作為一張卡片進(jìn)行交易時(shí),NFC芯片發(fā)射的功率是多少?
    發(fā)表于 03-29 09:16

    鴻蒙原生應(yīng)用元服務(wù)開發(fā)-WebGL網(wǎng)頁圖形庫開發(fā)接口說

    、場(chǎng)景介紹 WebGL主要幫助開發(fā)者在前端開發(fā)中完成圖形圖像的相關(guān)處理,比如繪制彩色圖形等。目前該功能僅支持使用兼容JS的類Web開發(fā)范式開發(fā)。 二、接口說明 表1 WebGL主要接口列表 本文參考引用HarmonyOS官方開
    發(fā)表于 03-11 15:51

    谷歌模型合成工具怎么

    谷歌模型合成工具主要是指Dreamfusion,這是Google的大型AI圖像模型Imagen與NeRF的3D功能相結(jié)合的種技術(shù)。Dreamfusion是Dream Fields的演變,Dream Fields是谷歌于2021
    的頭像 發(fā)表于 02-29 17:33 ?818次閱讀

    【RISC-V開放架構(gòu)設(shè)計(jì)之道|閱讀體驗(yàn)】本別出心裁的RISC-V架構(gòu)之書(第章)

    的計(jì)算機(jī)體系架構(gòu)專 別出心裁地按照RISC-V模塊化的指令來組織內(nèi)容 對(duì)比x86、ARM 和MIPS 的設(shè)計(jì),通過對(duì)比分析,突顯RISC-V 的優(yōu)勢(shì) 可以作為從業(yè)者隨時(shí)翻閱的案頭參考書 開頭的蒙娜麗莎
    發(fā)表于 01-24 19:06

    【RISC-V開放架構(gòu)設(shè)計(jì)之道|閱讀體驗(yàn)】先睹為快-學(xué)習(xí)RISC-V的案頭好書

    蒙娜麗莎人想到的就是優(yōu)雅,這也契合RISC-V的設(shè)計(jì)哲學(xué)。本書從電子發(fā)燒友申請(qǐng)到,扉頁有電子發(fā)燒友的簽名。 前面附錄了RISC-V的指令集參考卡,這個(gè)比較有用,有時(shí)看下匯編代碼可以參考。參考卡
    發(fā)表于 01-20 22:37

    再建一張全國性5G網(wǎng)絡(luò),運(yùn)營商是它?!

    目前馬來西亞第一張全國性5G網(wǎng)絡(luò)(由DNB公司建設(shè))在人口稠密區(qū)域的覆蓋率已經(jīng)達(dá)到80.2%。馬來西亞政府去年5月份宣布,上述數(shù)值旦超過80%,就將著手在2024年建設(shè)該國第二全國性5G網(wǎng)絡(luò)。
    的頭像 發(fā)表于 01-18 16:07 ?752次閱讀