0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

“3D實時換臉”PyTorch實現(xiàn)改進(jìn)版,每張圖的推理時間只需0.27毫秒!

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2018-11-28 16:53 ? 次閱讀

此前,中科院自動化所的一篇論文《所有姿態(tài)范圍內(nèi)的面部替換:3D解決方案》引起廣泛關(guān)注。近日,中科院的一位博士生對“3D實時換臉”論文PyTorch實現(xiàn)改進(jìn)版,使得每張圖的推理時間只需0.27毫秒,同時還增加了實時培訓(xùn)等功能。

2018年4月,針對如何解決所有姿勢范圍內(nèi)的面部替換,中科院自動化所的研究人員發(fā)表了一篇論文,提出了3D實時解決方法。

近日,Github一位作者cleardusk(主頁:https://github.com/cleardusk,目前是中科院自動化所的在讀博士生)將“3D實時換臉”PyTorch實現(xiàn)改進(jìn)版,每張圖的推理時間只需0.27毫秒!

這一改進(jìn)版本幫助Pytorch改進(jìn)了論文《所有姿態(tài)范圍內(nèi)的面部替換:3D解決方案》中提到的方法。該論文的作者之一是來自中科院自動化所的Xiangyu Zhu,根據(jù)其個人主頁上的信息,他和cleardusk博士期間的導(dǎo)師均是李子青教授,二人可以說是同門師兄弟。

面部對齊使面部模型適合圖像并提取面部像素點的語義,已成為計算機(jī)視覺領(lǐng)域中的一個重要主題。此前,大多數(shù)算法都是針對中小姿態(tài)(偏角小于45度)的面部而設(shè)計的,缺乏在高達(dá)90度的大幅度姿態(tài)中對齊面部的能力,這一論文就是針對所有姿態(tài)范圍內(nèi)的面部替換所提出來的方法。

而此次這位博士生提出的改進(jìn)版本還增加了一些額外的工作,包括實時培訓(xùn)、培訓(xùn)策略等,而不僅僅是重新實現(xiàn)“3D實時換臉”。更詳細(xì)的內(nèi)容未來將會發(fā)布在相關(guān)博客中,包括一些重要的技術(shù)細(xì)節(jié)。到目前為止,這個改進(jìn)版本發(fā)布了預(yù)訓(xùn)練第一階段的pytorch模型,其中包括MobileNet-V1結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)集和代碼。在GeForce GTX TITAN X上,每張圖像的推理時間約為0.27毫秒(輸入批量為128 的情況下)。

以下是關(guān)于ALFW-2000數(shù)據(jù)集的幾個訓(xùn)練結(jié)果(根據(jù)模型phase1_wpdc_vdc.pth.tar進(jìn)行推斷):

那么,改進(jìn)版能實現(xiàn)哪些應(yīng)用呢?

首先,它能夠?qū)崿F(xiàn)面部對齊。

其次是面部重塑,實現(xiàn)“變臉”!

如何入門:要求與用法

如果要著手嘗試改進(jìn)版,那么你需要:

PyTorch >= 0.4.1

Python >= 3.6 (Numpy, Scipy, Matplotlib)

Dlib (Dlib用于檢測面部和標(biāo)志。如果你可以提供面部邊框線和標(biāo)志,則無需使用Dlib??蛇x擇性地,你可以使用兩步推理策略而無需初始化這些數(shù)據(jù)。)

OpenCV(Python版,用于圖像IO操作。)

# 安裝順序:

sudo pip3 安裝torch torchvision。更多選擇點擊:https://pytorch.org

sudo pip3 安裝numpy,scipy,matplotlib

sudo pip3 安裝dlib==19.5.0 # 19.15+ 版本,這可能會導(dǎo)致與pytorch沖突,大概需要幾分鐘

sudo pip3 安裝opencv-python版

此外,強(qiáng)烈建議使用Python3.6 +而不是舊版,這樣可以實現(xiàn)更好的設(shè)計。

接下來具體用法如下:

1、復(fù)制下面這個改進(jìn)版(這可能需要一些時間,因為它有點大)

https://github.com/cleardusk/3DDFA.git或者git@github.com:cleardusk/3DDFA.gitcd 3DDFA

2、使用任意圖像作為輸入,運行main.py:python3 main.py -f samples/test1.jpg

如果你可以在終端中看到這些輸出記錄,就可以成功運行它:

Dump tp samples/test1_0.ply

Dump tp samples/test1_0.mat

Save 68 3d landmarks to samples/test1_0.txt

Dump tp samples/test1_1.ply

Dump tp samples/test1_1.mat

Save 68 3d landmarks to samples/test1_1.txt

Save visualization result to samples/test1_3DDFA.jpg

因為test1.jpg有兩張人臉,因此有兩個mat(存儲密集面頂點,可以通過Matlab渲染)和ply文件(可以由Meshlab或Microsoft 3D Builder渲染)預(yù)測。

結(jié)果samples/test1_3DDFA.jpg如下所示:

附加示例:

python3 ./main.py -f samples/emma_input.jpg --box_init=two --dlib_bbox=false

當(dāng)輸入批量為128 的情況下,MobileNet-V1的推理時間約為34.7毫秒,平均每張圖像的推理時間約為0.27毫秒。

評估與訓(xùn)練資源

首先,你需要下載壓縮的測試集ALFW和ALFW-2000-3D(下載鏈接:https://pan.baidu.com/s/1DTVGCG5k0jjjhOc8GcSLOw) ,下載后解壓并將其放在根目錄中。接下來,通過提供訓(xùn)練的模型路徑來運行基準(zhǔn)代碼。我已經(jīng)在models目錄中提供了四個預(yù)先訓(xùn)練的模型。這些模型在第一階段使用不同的損失進(jìn)行訓(xùn)練。由于MobileNet-V1結(jié)構(gòu)的高效率,模型大小約為13M。

在第一階段,不同損失的有效性依次為:WPDC> VDC> PDC,使用VDC來微調(diào)WPDC的方法取得了最好的結(jié)果,預(yù)訓(xùn)練模型的性能如下所示:

訓(xùn)練腳本位于training目錄中,相關(guān)資源如下:

1、train.configs(217M),鏈接:

https://pan.baidu.com/s/1ozZVs26-xE49sF7nystrKQ#list/path=%2F,該目錄與3DMM參數(shù)和訓(xùn)練數(shù)據(jù)集的文件列表相對應(yīng);

2、train_aug_120x120.zip(2.15G),鏈接:

https://pan.baidu.com/s/19QNGst2E1pRKL7Dtx_L1MA,增強(qiáng)訓(xùn)練數(shù)據(jù)集的裁剪圖像;

3、test.data.zip(151M),鏈接:

https://pan.baidu.com/s/1DTVGCG5k0jjjhOc8GcSLOw,AFLW和ALFW-2000-3D測試集的裁剪圖像;

4、model_refine.mat(160M),鏈接:

https://pan.baidu.com/s/1VhWYLpnxNBrlBg5_OKTojA,BFM模型

準(zhǔn)備好訓(xùn)練數(shù)據(jù)集和配置文件后,進(jìn)入training目錄并運行bash腳本進(jìn)行訓(xùn)練。訓(xùn)練參數(shù)都以bash腳本呈現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動化
    +關(guān)注

    關(guān)注

    29

    文章

    5575

    瀏覽量

    79272
  • 計算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1698

    瀏覽量

    45993
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13225

原文標(biāo)題:3D實時換臉又有新進(jìn)展!中科院博士生提出改進(jìn)版本,每張圖推理只需0.27毫秒

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    設(shè)計一個延時100毫秒的延時程序

    我是個初學(xué)者由于不是很懂得那些機(jī)器周期還有用法算法問題:設(shè)計一個延時100毫秒的延時程序。的簡單延時程序,只寫出延時部分就ok了,C和匯編都要
    發(fā)表于 06-09 15:05

    單片機(jī)延時3分88毫秒,用你的準(zhǔn)確度向3·8婦女節(jié)致敬!

    ,那就是用單片機(jī)延時3分88毫秒,看誰的更準(zhǔn)。用你的準(zhǔn)確度向3·8婦女節(jié)致敬!采用51單片機(jī),晶振12M,到時參賽者把自己的代碼上傳,鷹哥會用KEIL軟仿測試
    發(fā)表于 03-06 17:24

    求arduino nano3.0改進(jìn)版(換了u***芯片)的原理???

    哪位大神有arduino nano3.0改進(jìn)版(換了u***芯片)的原理啊?
    發(fā)表于 04-22 22:27

    pwm輸出控制直流電機(jī)。在軟啟動時占空比是變化的,每10毫秒輸出一次?為什么pwm是每10毫秒輸出一次?

    程序大概是這樣的:motor_duty=2;sum_duty=1;if(timer_10ms++>=2)// 定時器中斷時間為5毫秒 {motor_duty + = sum_duty
    發(fā)表于 09-17 09:26

    最快的定時器中斷能實現(xiàn)毫秒

    最快的定時器中斷能實現(xiàn)毫秒嗎?我在運行默認(rèn)時鐘。系統(tǒng)時鐘為403.2兆赫。 以上來自于百度翻譯 以下為原文Is the fastest timer interrupt I can achieve
    發(fā)表于 04-23 06:49

    什么叫3D微波技術(shù)

    當(dāng)3D電影已成為影院觀影的首選,當(dāng)3D打印已普及到雙耳無線藍(lán)牙耳機(jī),一種叫“3D微波”的技術(shù)也悄然而生。初次聽到“3D微波”,你可能會一
    發(fā)表于 07-02 06:30

    3D TOF深度剖析

    這段時間以來,最熱的話題莫過于iPhone X的Face ID,關(guān)于用它刷的段子更是滿天飛。其實iPhone X 實現(xiàn)3D視覺刷是采用了
    發(fā)表于 07-25 07:05

    PYNQ框架下如何快速完成3D數(shù)據(jù)重建

    的。為了與下一節(jié)中實現(xiàn)的自定義方法進(jìn)行比較,使用Mesh Lab可視化三維點云。從下圖可以看出,渲染是準(zhǔn)確的。使用PYNQ板生成3D點云耗時42.973997。這說明視差和點云生成
    發(fā)表于 01-07 17:25

    15芯片延時一毫秒軟件實現(xiàn)

    )// 15芯片延時一毫秒軟件實現(xiàn) { uint a;for(;ms>0;ms--){for(a=845;a>0;a--); ...
    發(fā)表于 01-12 08:18

    微軟自研觸控技術(shù) 可實現(xiàn)延遲低于1毫秒

    微軟的應(yīng)用科學(xué)團(tuán)隊最近發(fā)布了一個自行研發(fā)的觸控技術(shù),并放出與當(dāng)前技術(shù)相比較兩者輸入延遲時間長短的視頻,微軟自己的技術(shù)是希望在觸摸輸入延遲上可以實現(xiàn)低于1毫秒。
    發(fā)表于 03-12 10:16 ?702次閱讀

    HTC回應(yīng)無線套件延遲問題:2毫秒以下無疑

    HTC Vive的無線套件公開后,其“延遲”究竟表現(xiàn)如何引發(fā)人們廣泛關(guān)注。HTC日前作出官方回應(yīng),稱之前網(wǎng)站上的15毫秒延遲是過時數(shù)據(jù),低于2毫秒才是實際情況。
    發(fā)表于 11-16 09:40 ?754次閱讀

    奧比中光3D人臉識別技術(shù)助力中國地鐵首次實現(xiàn)乘車

    3D人臉識別閘機(jī),依托3D技術(shù),市民可直接刷乘車。 開辟特別通道,3D直接進(jìn)站 據(jù)了解
    發(fā)表于 04-02 22:06 ?616次閱讀

    AOC冠捷發(fā)布兩款新游戲顯示器 均為TN面板以及0.5毫秒超快響應(yīng)時間

    AOC冠捷今天發(fā)布了兩款新的游戲顯示器,24.5英寸的AG251FZ2、27英寸的AG271FZ2,都具備0.5毫秒的超快響應(yīng)時間。
    的頭像 發(fā)表于 07-04 09:15 ?5429次閱讀

    奧比中光3D門鎖解決方案亮相廣州建博會

    近日,“亞洲建材第一展” 中國(廣州)國際建筑裝飾博覽會在廣州開幕。本屆博覽會中,3D門鎖成為一大熱點,眾多知名廠商首次亮相的3D門鎖均采用奧比中光
    的頭像 發(fā)表于 07-11 08:56 ?4130次閱讀

    Adobe提出DMV3D3D生成只需30!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標(biāo)是實現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型,能直接根據(jù)模型文字或單張圖片的輸入,生成
    的頭像 發(fā)表于 01-30 16:20 ?860次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成<b class='flag-5'>只需</b>30<b class='flag-5'>秒</b>!讓文本、圖像都動起來的新方法!