0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR2019新作:一種基于視頻流的自監(jiān)督特征表達(dá)方法

nlfO_thejiangme ? 來源:lq ? 2019-10-01 16:31 ? 次閱讀

本文為新欄目——將門好聲音第5期。

作者是來自將門計(jì)算機(jī)視覺社群的群友、中科院計(jì)算技術(shù)研究所VIPL課題組博士生——李勇。本文中,他將為大家介紹中科院計(jì)算所VIPL組的CVPR2019新作:一種基于視頻流的自監(jiān)督特征表達(dá)方法,通過利用巧妙的自監(jiān)督約束信號(hào),得到提純的面部動(dòng)作特征用于微表情識(shí)別。

如果你也想與廣大群友分享自己的研究工作、文章觀點(diǎn)、出坑經(jīng)驗(yàn),隨時(shí)與群主小姐姐聯(lián)系!只要內(nèi)容合適,我“門”送你頭條出道!

著名心理學(xué)家Paul Ekman和研究伙伴W.V.Friesen,通過對(duì)臉部肌肉動(dòng)作與對(duì)應(yīng)表情關(guān)系的研究,于1976年創(chuàng)制了“面部運(yùn)動(dòng)編碼系統(tǒng)”,而利用微表情的“讀心術(shù)”正是基于這一研究體系。由于該領(lǐng)域有限的數(shù)據(jù)集和高昂的標(biāo)注成本,有監(jiān)督學(xué)習(xí)的方法往往會(huì)導(dǎo)致模型過擬合。本文中,將為大家介紹中科院計(jì)算所VIPL組的CVPR2019新作:作者提出了一種基于視頻流的自監(jiān)督特征表達(dá)方法,通過利用巧妙的自監(jiān)督約束信號(hào),得到提純的面部動(dòng)作特征用于微表情識(shí)別。

李勇,中國科學(xué)院計(jì)算技術(shù)研究所視覺信息處理與課題組博士研究生,導(dǎo)師為常虹副研究員以及山世光研究員,研究方向?yàn)殚_放場景下的人臉表情分析。在攻讀博士學(xué)位期間,李勇在 CVPR, TIP 等會(huì)議及期刊上發(fā)表過多篇學(xué)術(shù)論文,其已發(fā)表的會(huì)議文章均被錄取為口頭報(bào)告。此外,李勇獲得ACM Multimedia 2017 親屬關(guān)系識(shí)別國際競賽冠軍。

論文信息:

Yong Li, Jiabei Zeng, Shiguang Shan, Xilin Chen. “Self-Supervised Representation Learning From Videos for Facial Action Unit Detection”, CVPR 2019, pp. 10924-10933, Long Beach, California, USA, June 16-20, 2019.

論文鏈接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Self-Supervised_Representation_Learning_From_Videos_for_Facial_Action_Unit_Detection_CVPR_2019_paper.pdf

一、研究背景

面部運(yùn)動(dòng)編碼系統(tǒng)(FACS,F(xiàn)acial Action Coding System)從人臉解剖學(xué)的角度,定義了44個(gè)面部動(dòng)作單元(Action Unit,簡稱AU)用于描述人臉局部區(qū)域的肌肉運(yùn)動(dòng)。

圖1. 面部動(dòng)作單元示例

如圖1所示,AU9表示“皺鼻”,AU12表示“嘴角拉伸”。各種動(dòng)作單元之間可以自由組合,對(duì)應(yīng)不同的表情。如“AU4(降低眉毛)+AU5(上眼瞼上升)+AU24(嘴唇相互按壓)”這一組合對(duì)應(yīng)“憤怒”這一情緒狀態(tài)。

面部動(dòng)作單元能夠客觀、精確、細(xì)粒度地描述人臉表情。然而昂貴的標(biāo)注代價(jià)在很大程度上限制了AU識(shí)別問題的研究進(jìn)展,其原因在于不同的AU分布在人臉的不同區(qū)域,表現(xiàn)為不同強(qiáng)度、不同尺度的細(xì)微變化。具體來說,為一分鐘的人臉視頻標(biāo)注一個(gè)AU,需要耗費(fèi)一名AU標(biāo)注專家30分鐘。目前學(xué)術(shù)界已發(fā)布的AU數(shù)據(jù)集只包含了有限的采集對(duì)象,以及有限的人臉圖像(如2017年CMU發(fā)布的GFT數(shù)據(jù)集有96個(gè)人,約35,000張人臉圖像)。

當(dāng)前已有的工作多采用人臉區(qū)域分塊、注意力機(jī)制等方法學(xué)習(xí)人臉局部區(qū)域的AU特征,這類方法在訓(xùn)練階段需要利用精確標(biāo)注的AU標(biāo)簽,由于目前業(yè)界發(fā)布的AU數(shù)據(jù)集人數(shù)及圖像總量不足,采用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的模型往往呈現(xiàn)出在特定數(shù)據(jù)集上的過擬合現(xiàn)象,這無疑限制了其實(shí)際使用效果。

我們提出了一種能夠在不依賴AU標(biāo)簽的前提下,從人臉視頻數(shù)據(jù)中自動(dòng)學(xué)習(xí)AU表征的方法(Twin-Cycle Autoencoder,簡稱TCAE)。TCAE用于后續(xù)的AU識(shí)別任務(wù)時(shí),只需要利用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)分類器即可,顯著減少了所需的訓(xùn)練數(shù)據(jù),并提升了模型的泛化能力。

二、方法概述

如圖2所示,該方法以兩幀人臉圖像(源圖,目標(biāo)圖)之間的運(yùn)動(dòng)信息為監(jiān)督信號(hào),驅(qū)使模型提取出用于解碼運(yùn)動(dòng)信息的圖像特征。這個(gè)方法的理念在于,模型只有感知并理解了人臉圖像中各個(gè)面部動(dòng)作單元的狀態(tài)(AU是否激活),才能夠?qū)⒃磮D的面部動(dòng)作轉(zhuǎn)換為目標(biāo)圖像的面部動(dòng)作。

圖2. TCAE 設(shè)計(jì)圖

考慮到兩幀人臉圖像之間的運(yùn)動(dòng)信息包含了AU以及頭部姿態(tài)的運(yùn)動(dòng)分量,TCAE通過利用巧妙的自監(jiān)督約束信號(hào),使得模型能夠分離出AU變化引起的運(yùn)動(dòng)分量,以及頭部姿態(tài)變化引起的運(yùn)動(dòng)分量,從而得到提純的AU特征。與其他監(jiān)督方法,TCAE可以利用大量的無標(biāo)注人臉視頻,這類視頻是海量的。與半監(jiān)督或者弱監(jiān)督方法相比, TCAE采用了自監(jiān)督信號(hào)進(jìn)行模型訓(xùn)練,避免了對(duì)數(shù)據(jù)或者標(biāo)簽的分布做出任何假設(shè)。

三、算法詳解

如圖3所示,TCAE包含四個(gè)階段,分別是特征解耦,圖像重建,AU循環(huán)變換,以及姿態(tài)(pose)循環(huán)變換。

圖3. TCAE的四個(gè)階段示意圖,四個(gè)階段分別是特征解耦,圖像重建,AU循環(huán)變換,以及姿態(tài)循環(huán)變換。

給定兩張人臉圖像,TCAE在特征解耦階段使用編碼器得到每張圖像的AU特征以及姿態(tài)特征,隨后,兩幀圖像的AU特征被送入AU解碼器,用于解碼出AU位移場;兩幀圖像的姿態(tài)特征被送入姿態(tài)解碼器,用于解碼出姿態(tài)位移場??紤]到AU的變化是稀疏的,且AU位移場的數(shù)值與姿態(tài)位移場相比更小,我們?yōu)锳U位移場添加了L1約束:

在目標(biāo)圖重建階段,TCAE通過線性組合AU位移場和pose位移場,得到源圖和目標(biāo)圖之間的整體位移場,進(jìn)行圖像重建:

在AU循環(huán)變換階段,僅變換了AU的人臉圖像被重新變換到源圖,由此我們獲得一個(gè)像素層面的一致性約束:

另外,對(duì)于變換了AU的人臉圖像,其AU特征應(yīng)該接近目標(biāo)圖像的AU特征,其姿態(tài)特征應(yīng)該和源圖的姿態(tài)特征一致,由此我們獲得一個(gè)特征層面的一致性約束:

同理,在pose循環(huán)變化階段,我們同樣可以獲得類似的像素及特征層面的一致性約束:

四、實(shí)驗(yàn)結(jié)果

多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明,TCAE能夠成功提取出人臉圖像的AU及姿態(tài)特征。如圖4所示,給定兩張人臉圖像(源圖,目標(biāo)圖),TCAE能夠僅僅改變?cè)磮D的AU或者頭部姿態(tài)??梢暬腁U位移場呈現(xiàn)出運(yùn)動(dòng)方向的多樣性。

圖4. 可視化結(jié)果在AU識(shí)別任務(wù)上,TCAE取得了與監(jiān)督方法可比的性能。

表1及表2的結(jié)果表明,TCAE明顯優(yōu)于其他自監(jiān)督方法。在GFT數(shù)據(jù)集(該數(shù)據(jù)集存在大范圍的頭部姿態(tài)變化)上,TCAE的性能優(yōu)于其他監(jiān)督方法。

表1. BP4D及DISFA數(shù)據(jù)集評(píng)測(cè)結(jié)果

(評(píng)測(cè)標(biāo)準(zhǔn):F1 值 (%))

表2. GFT及EmotioNet數(shù)據(jù)集評(píng)測(cè)結(jié)果(評(píng)測(cè)標(biāo)準(zhǔn):F1 值 (%) )

五、總結(jié)與展望

TCAE通過自監(jiān)督的方法學(xué)習(xí)到了魯棒的AU表征,實(shí)驗(yàn)證明該AU表征是魯棒的,適用于AU分類任務(wù)的??梢暬Y(jié)果表明,TCAE具有潛在的人臉表情編輯價(jià)值。另外,TCAE在訓(xùn)練階段使用了大量的無標(biāo)簽數(shù)據(jù)(近6000人,約10,000,000張圖像),由此可見使用自監(jiān)督方法訓(xùn)練模型時(shí)數(shù)據(jù)利用的效率需要進(jìn)一步提高,這一點(diǎn)在BERT的實(shí)驗(yàn)分析中也得到了印證:

Good results on pre-training is 》1,000x to 100,000 more expensive than supervised training.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:將門好聲音 | CVPR2019 “識(shí)面知心”——基于自監(jiān)督學(xué)習(xí)的微表情特征表達(dá)

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中的故障檢測(cè)對(duì)其可維護(hù)性和安全性至關(guān)重要。然而,系統(tǒng)監(jiān)測(cè)變量往往具有復(fù)雜的聯(lián)系,很難表征它們的關(guān)系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)(HGCAN),以提高復(fù)雜
    的頭像 發(fā)表于 11-12 09:52 ?365次閱讀
    <b class='flag-5'>一種</b>基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    一種提升無人機(jī)小物體跟蹤精度的方法

    這篇文章提出了一種新穎的目標(biāo)跟蹤方法SFTrack,針對(duì)無人機(jī)(UAV)視頻中的獨(dú)特挑戰(zhàn),采用了三簡單有效的策略,尤其是在處理低置信度檢測(cè)、小規(guī)模物體和無人機(jī)運(yùn)動(dòng)方面表現(xiàn)出色。通過在
    的頭像 發(fā)表于 11-01 10:23 ?331次閱讀
    <b class='flag-5'>一種</b>提升無人機(jī)小物體跟蹤精度的<b class='flag-5'>方法</b>

    一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    本文提出了一種動(dòng)態(tài)軌跡預(yù)測(cè)方法,通過結(jié)合歷史幀和歷史預(yù)測(cè)結(jié)果來提高預(yù)測(cè)的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測(cè)注意力模塊,以編碼連續(xù)預(yù)測(cè)之間的動(dòng)態(tài)關(guān)系,并通過三重因子注意力模塊實(shí)現(xiàn)了最先進(jìn)的性能。本方法能夠生成準(zhǔn)確且穩(wěn)定的未來軌跡,這
    的頭像 發(fā)表于 10-28 14:34 ?500次閱讀
    <b class='flag-5'>一種</b>創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)<b class='flag-5'>方法</b>

    一種簡單高效配置FPGA的方法

    本文描述了一種簡單高效配置FPGA的方法,該方法利用微處理器從串行外圍接口(SPI)閃存配置FPGA設(shè)備。這種方法減少了硬件組件、板空間和成本。
    的頭像 發(fā)表于 10-24 14:57 ?790次閱讀
    <b class='flag-5'>一種</b>簡單高效配置FPGA的<b class='flag-5'>方法</b>

    特征工程實(shí)施步驟

    數(shù)據(jù)中提取數(shù)值表示以供無監(jiān)督模型使用的方法(例如,試圖從之前非結(jié)構(gòu)化的數(shù)據(jù)集中提取結(jié)構(gòu))。特征工程包括這兩情況,以及更多內(nèi)容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學(xué)習(xí)算法
    的頭像 發(fā)表于 10-23 08:07 ?353次閱讀
    <b class='flag-5'>特征</b>工程實(shí)施步驟

    一種利用wireshark對(duì)遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包方法

    一種利用wireshark對(duì)遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包方法
    的頭像 發(fā)表于 09-21 08:03 ?3497次閱讀
    <b class='flag-5'>一種</b>利用wireshark對(duì)遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包<b class='flag-5'>方法</b>

    華芯微電子取得一種保護(hù)電路專利

    創(chuàng)新引領(lǐng),技術(shù)突破!蘇州華芯微電子股份有限公司近日榮獲《一種保護(hù)電路》發(fā)明專利,標(biāo)志著公司在微電子領(lǐng)域再攀新高峰!
    的頭像 發(fā)表于 08-19 15:03 ?496次閱讀

    一種無透鏡成像的新方法

    使用OAM-HHG EUV光束對(duì)高度周期性結(jié)構(gòu)進(jìn)行成像的EUV聚光顯微鏡 為了研究微電子或光子元件中的納米級(jí)圖案,一種基于無透鏡成像的新方法可以實(shí)現(xiàn)近乎完美的高分辨率顯微鏡。 層析成像是一種強(qiáng)大的無
    的頭像 發(fā)表于 07-19 06:20 ?436次閱讀
    <b class='flag-5'>一種</b>無透鏡成像的新<b class='flag-5'>方法</b>

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,從而提取有用的特征表示。這種訓(xùn)練方
    的頭像 發(fā)表于 07-09 18:06 ?882次閱讀

    rup是一種什么模型

    RUP(Rational Unified Process,統(tǒng)建模語言)是一種軟件開發(fā)過程模型,它是一種迭代和增量的軟件開發(fā)方法。RUP是由Rational Software公司(現(xiàn)為
    的頭像 發(fā)表于 07-09 10:13 ?1380次閱讀

    人臉檢測(cè)的五種方法各有什么特征和優(yōu)缺點(diǎn)

    人臉檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的個(gè)重要研究方向,主要用于識(shí)別和定位圖像中的人臉。以下是五常見的人臉檢測(cè)方法及其特征和優(yōu)缺點(diǎn)的介紹: 基于膚色的方法
    的頭像 發(fā)表于 07-03 14:47 ?946次閱讀

    接觸器的鎖接線方法

    接觸器是一種用于控制大功率設(shè)備或電路的自動(dòng)開關(guān),廣泛應(yīng)用于工業(yè)自動(dòng)化、電力系統(tǒng)、家用電器等領(lǐng)域。接觸器的鎖接線方法是指在接觸器的控制電路中加入鎖回路,使得接觸器在接通后能夠保持閉合
    的頭像 發(fā)表于 06-30 09:15 ?1726次閱讀

    介紹一種用于絕對(duì)定量的微腔式數(shù)字PCR微控芯片

    本文提出一種微腔式數(shù)字PCR微控芯片。作者將兩層微結(jié)構(gòu)背對(duì)背堆疊在起使得在不改變芯片平面面積的情況下使腔室數(shù)量和試劑容量增加倍,極大提升了檢測(cè)靈敏度。
    的頭像 發(fā)表于 03-04 10:15 ?945次閱讀
    介紹<b class='flag-5'>一種</b>用于絕對(duì)定量的微腔式數(shù)字PCR微<b class='flag-5'>流</b>控芯片

    mapgis屬性篩選表達(dá)

    篇文章中,我們將詳細(xì)討論MapGIS的屬性篩選表達(dá)式,包括語法、操作符和函數(shù)等。 屬性篩選表達(dá)式是一種在MapGIS中用于指定要素選擇條件的代碼。它由組操作符、函數(shù)和屬性字段組成,用
    的頭像 發(fā)表于 02-25 10:58 ?1750次閱讀

    Meta發(fā)布新型無監(jiān)督視頻預(yù)測(cè)模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無監(jiān)督視頻預(yù)測(cè)模型,名為“V-JEPA”。這模型在視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)?/div>
    的頭像 發(fā)表于 02-19 11:19 ?1069次閱讀