0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

鏡像翻轉(zhuǎn)的圖像,能不變?

算法與數(shù)據(jù)結(jié)構(gòu) ? 來源:算法與數(shù)據(jù)結(jié)構(gòu) ? 2020-08-03 16:58 ? 次閱讀

在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候,經(jīng)常會(huì)出現(xiàn)「缺數(shù)據(jù)」的情況。

這時(shí)候,就需要「數(shù)據(jù)增強(qiáng)」來獲取更多數(shù)據(jù)。而近幾年,鏡像反轉(zhuǎn)成了最為常用的方法之一。

轉(zhuǎn)一次,獲得2倍數(shù)據(jù),真香!

然而,事情卻沒有想像中的那么簡(jiǎn)單——當(dāng)翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時(shí),神經(jīng)網(wǎng)絡(luò)所擬合的函數(shù),還能代表原先的圖像分布么?

針對(duì)這一問題,來自康奈爾大學(xué)的研究員,首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,圖片「翻轉(zhuǎn)不變性」(flip-invariant) 的這一假設(shè)。

研究的題目叫做視覺手性(Visual Chirality),并在CVPR 2020中獲得了最佳論文提名。

注:手性的定義為「一個(gè)物體無法與其鏡像相重合」?!敢曈X手性」一詞啟發(fā)自手性,意指「計(jì)算機(jī)視覺領(lǐng)域中圖像分布與其鏡像分布的區(qū)別」。

而該研究的一作,是此屆CVPR大會(huì)上年紀(jì)最小的獲獎(jiǎng)?wù)?,年僅21歲的華人科研新秀——林之秋。

這項(xiàng)研究在多種領(lǐng)域(人臉,互聯(lián)網(wǎng)圖片,數(shù)字處理圖像)上利用卷積神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)了許多常人難以捕捉的「視覺手性」線索。

通過自監(jiān)督訓(xùn)練,在多項(xiàng)數(shù)據(jù)集上達(dá)到了60%,甚至到90%的精度。

鏡像翻轉(zhuǎn)的圖像,能不變?

為了理解這一鏡像翻轉(zhuǎn)話題,我們先來看下這樣的一個(gè)例子:

在上面這張圖中,你能判斷出哪些圖像被翻轉(zhuǎn)了嗎?答案如下:

圖一:鏡像翻轉(zhuǎn)(線索:文字)。我們可以很容易看出來文字被翻轉(zhuǎn)過了。

圖二:沒有翻轉(zhuǎn)(線索:紐扣)。男士襯衫的紐扣一般位于身體右側(cè)。

圖三:鏡像翻轉(zhuǎn)(線索:吉他)。吉他手的主手應(yīng)當(dāng)在吉他右側(cè)。

鏡像翻轉(zhuǎn)對(duì)于人類而言并沒有多少區(qū)別(如圖二和圖三),因而難以判斷。

然而,神經(jīng)網(wǎng)絡(luò)卻可以通過自監(jiān)督訓(xùn)練的方法在這個(gè)任務(wù)上達(dá)到非常高的精度,并能指出圖片中哪些區(qū)域可以被用于識(shí)別鏡像翻轉(zhuǎn)。

手性代表著單個(gè)圖片的翻轉(zhuǎn)不對(duì)稱性,而視覺手性(Visual Chirality)則是針對(duì)圖像分布所定義的翻轉(zhuǎn)不對(duì)稱性。

當(dāng)一個(gè)圖像分布具備視覺手性時(shí),使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強(qiáng)方法,將不可避免的改變一個(gè)數(shù)據(jù)集所代表的分布。

換句話說,只有當(dāng)一個(gè)圖像分布不具備視覺手性的時(shí)候,才能在不改變?cè)葓D像分布的前提下,使用鏡像翻轉(zhuǎn)來增強(qiáng)數(shù)據(jù)集。

然而,視覺手性是大部分視覺領(lǐng)域都擁有的屬性。正如此篇文章作者,谷歌AI科學(xué)家Noah Snavely教授所說:

在計(jì)算機(jī)視覺的研究中,我們常把這個(gè)世界視為”翻轉(zhuǎn)不變“的,鏡像翻轉(zhuǎn)因而是一個(gè)常規(guī)的數(shù)據(jù)增強(qiáng)方法。

然而,當(dāng)你翻轉(zhuǎn)圖片后,文字將被顛倒,左手變?yōu)橛沂?,而螺旋意大利面也將朝相反方向旋轉(zhuǎn)。

那么,這項(xiàng)研究又是如何挑戰(zhàn)了,人們先前在計(jì)算機(jī)視覺中,對(duì)于「翻轉(zhuǎn)不變性」假設(shè)的呢?

實(shí)驗(yàn)過程

這項(xiàng)研究利用了自監(jiān)督學(xué)習(xí)方法來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。

對(duì)于任何一個(gè)數(shù)據(jù)集,只需要將其原有的圖片標(biāo)記為「無翻轉(zhuǎn)」,并將鏡像翻轉(zhuǎn)過的圖片標(biāo)記為「有翻轉(zhuǎn)」,即可訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別鏡像翻轉(zhuǎn)這個(gè)二分類任務(wù)(binary classification)。

同時(shí),可以根據(jù)神經(jīng)網(wǎng)絡(luò)在驗(yàn)證集的表現(xiàn),來評(píng)估這一圖像分布是否具備視覺手性:

如果驗(yàn)證集上的精度要顯著大于50%,便有充足的證據(jù)來證明視覺手性的存在。

這項(xiàng)研究利用了ResNet-50作為基本的網(wǎng)絡(luò)結(jié)構(gòu),并使用SGD方法來訓(xùn)練網(wǎng)絡(luò)。

為了了解神經(jīng)網(wǎng)絡(luò)學(xué)到了哪些視覺手性線索,研究人員利用了類激活映射(CAM:Class Activation Map)方法,在原有圖片上對(duì)于視覺手性敏感的區(qū)域進(jìn)行了高亮。

同時(shí)因?yàn)槟茉斐梢曈X手性的現(xiàn)象有很多,研究人員還推出了一個(gè)簡(jiǎn)單的基于類激活映射的聚類方法——手性特征聚類(Chiral Feature Clustering)。

在互聯(lián)網(wǎng)圖片集上,神經(jīng)網(wǎng)絡(luò)在鏡像翻轉(zhuǎn)識(shí)別上取得了高達(dá)60%-80%的精度。

研究人員在Instagram圖片集上進(jìn)行了手性特征聚類,并挑選了一系列與人們生活相關(guān)的典型視覺手性現(xiàn)象進(jìn)行討論。

手機(jī):對(duì)著鏡子自拍是人們最愛做的事。此類照片具有視覺手性,因?yàn)槭謾C(jī)的攝像頭一般固定在手機(jī)背面的一側(cè)(因品牌而異),同時(shí)由于多數(shù)人是右撇子,一般都以右手持手機(jī)進(jìn)行自拍。

吉他:幾乎大多數(shù)的吉他手都以右手撥弦,左手持把。

手表:手表一般都被帶在人們的右手側(cè)。

為了深入了解人臉的視覺手性現(xiàn)象,研究人員在人臉數(shù)據(jù)集上進(jìn)行了孤立訓(xùn)練。

在Flickr-Faces-HQ (FFHQ)人臉數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并在測(cè)試集上取得了高達(dá)81%的精度,還利用手性特征聚類對(duì)人臉中的視覺手性現(xiàn)象進(jìn)行了初步的探討:

劉海分界處:人們一般用右手來分理劉海,這會(huì)導(dǎo)致劉海的朝向向一側(cè)偏移,并出現(xiàn)視覺手性現(xiàn)象。

眼睛:人們?cè)诳聪蛭矬w時(shí)傾向于用一只主視眼進(jìn)行瞄準(zhǔn),這樣會(huì)導(dǎo)致人們的目光在進(jìn)行拍攝時(shí)出現(xiàn)偏移。多數(shù)人的主視眼為右眼,而這一現(xiàn)象可能是導(dǎo)致視覺手性現(xiàn)象的成因。

胡子:與頭發(fā)一樣,可能與人們習(xí)慣于用右手理胡子有關(guān)。

文中對(duì)以上的視覺手性現(xiàn)象的討論均為初步的分析,而人臉中任有大量的視覺手性線索值得被發(fā)掘。

除此之外,研究人員還對(duì)數(shù)字圖像處理過程(例如去馬賽克和圖片壓縮)中產(chǎn)生的視覺手性現(xiàn)象進(jìn)行了分析。

舉個(gè)例子,當(dāng)研究人員首次利用神經(jīng)網(wǎng)絡(luò),在Instagram數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練時(shí),發(fā)現(xiàn)沒有使用隨機(jī)剪裁(random cropping)的神經(jīng)網(wǎng)絡(luò)。

但在部分圖片上,類激活映射所得到的熱圖更著重關(guān)注圖片的邊緣部分,如下圖所示:

而在使用隨機(jī)剪裁之后,研究人員得到的新的熱圖,則更關(guān)注來自于圖片中物體本身的線索。

研究人員提出:當(dāng)數(shù)字圖像處理過程和鏡像翻轉(zhuǎn)不具備「交換律」時(shí),視覺手性將會(huì)憑空產(chǎn)生在一個(gè)圖像分布上。

作者通過概率論與群論(group theory),對(duì)此假設(shè)進(jìn)行了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)論證,并通過神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)驗(yàn)證了這一現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。

而此類的線索往往不能被肉眼可見,卻在圖片中存在固定的模式,因而為圖像識(shí)偽的應(yīng)用創(chuàng)造了可能性。

98年華人科學(xué)新秀

這項(xiàng)研究的第一作者,是98年生的華人科學(xué)新秀——林之秋。

林之秋17歲便考入美國(guó)“常春藤”盟?!的螤柎髮W(xué),而這也是他「開掛人生」的開始。

林之秋僅用兩年時(shí)間就全部修完計(jì)算機(jī)和數(shù)學(xué)兩個(gè)專業(yè)的本科課程,并從大二開始選修博士課程,同時(shí)跟隨計(jì)算機(jī)系的教授從事科研工作。

他在多項(xiàng)專業(yè)課上,例如多元微積分、線性代數(shù)、高等抽象代數(shù)、人工智能、計(jì)算機(jī)操作系統(tǒng)等都取得過第一名。

由于成績(jī)極為優(yōu)異,自大二起林之秋就接受計(jì)算機(jī)系里邀請(qǐng),以助教身份給高年級(jí)同學(xué)講課,為康奈爾科技學(xué)院編寫碩士生的預(yù)修課程,甚至在高階機(jī)器學(xué)習(xí)課上給博士生的試卷打分。

而這篇「CVPR 2020最佳論文提名」的研究,是林之秋從大二就開始著手準(zhǔn)備的項(xiàng)目,這也顯示了他「超級(jí)大學(xué)霸」的真實(shí)實(shí)力。

如今,本科畢業(yè)的林之秋,總成績(jī)?cè)趯W(xué)院數(shù)千名學(xué)生中名列前三,并受院長(zhǎng)邀請(qǐng)?jiān)诋厴I(yè)典禮上代表學(xué)院舉旗。之后,他即將前往卡內(nèi)基梅隆機(jī)器人學(xué)院,攻讀計(jì)算機(jī)視覺博士學(xué)位。

在此,也預(yù)祝林之秋同學(xué),能夠在科研的道路上,繼續(xù)乘風(fēng)破浪!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:21歲華人本科生,憑什么拿下CVPR 2020最佳論文提名?

文章出處:【微信號(hào):TheAlgorithm,微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Docker-鏡像的分層-busybox鏡像制作

    目錄 知識(shí)點(diǎn)1:鏡像的分層 示例:進(jìn)入 docker hub查看Jenkins的Dockerfile 知識(shí)點(diǎn)2:base鏡像 知識(shí)點(diǎn)3:scratch鏡像 scratch 鏡像是什么?
    的頭像 發(fā)表于 01-15 10:44 ?59次閱讀
    Docker-<b class='flag-5'>鏡像</b>的分層-busybox<b class='flag-5'>鏡像</b>制作

    華為云 X 實(shí)例的鏡像管理詳解

    前言 隨著云計(jì)算的不斷普及,云服務(wù)器成為企業(yè)和開發(fā)者日常工作中的重要工具。為了提升工作效率和降低運(yùn)維成本,云服務(wù)器鏡像的管理尤為重要。鏡像作為服務(wù)器或磁盤的模板,預(yù)裝了操作系統(tǒng)、軟件及配置,是快速
    的頭像 發(fā)表于 01-07 17:01 ?106次閱讀
    華為云 X 實(shí)例的<b class='flag-5'>鏡像</b>管理詳解

    Dockerfile鏡像制作與Docker-Compose容器編排

    Dockerfile鏡像制作 docker/podman中, 鏡像是容器的基礎(chǔ),每次執(zhí)行docker run的時(shí)候都會(huì)指定哪個(gè)基本鏡像作為容器運(yùn)行的基礎(chǔ)。我們之前的docker的操作都是使用來
    的頭像 發(fā)表于 01-07 11:01 ?97次閱讀
    Dockerfile<b class='flag-5'>鏡像</b>制作與Docker-Compose容器編排

    OpenHarmony通過掛載鏡像來修改鏡像內(nèi)容,RK3566鴻蒙開發(fā)板演示

    OpenHarmony通過掛載鏡像來修改鏡像內(nèi)容的教程,提高修改鏡像內(nèi)容效率!
    的頭像 發(fā)表于 01-03 14:21 ?145次閱讀
    OpenHarmony通過掛載<b class='flag-5'>鏡像</b>來修改<b class='flag-5'>鏡像</b>內(nèi)容,RK3566鴻蒙開發(fā)板演示

    先進(jìn)封裝中的翻轉(zhuǎn)芯片技術(shù)概述

    引言 翻轉(zhuǎn)芯片技術(shù)已成為半導(dǎo)體行業(yè)中不可或缺的封裝方法,在性能、尺寸減小和功能增加方面具有優(yōu)勢(shì)。本文概述翻轉(zhuǎn)芯片技術(shù),包括晶圓凸塊制作工藝、組裝方法和進(jìn)展。 翻轉(zhuǎn)芯片技術(shù)簡(jiǎn)介 翻轉(zhuǎn)芯片
    的頭像 發(fā)表于 11-27 10:58 ?544次閱讀
    先進(jìn)封裝中的<b class='flag-5'>翻轉(zhuǎn)</b>芯片技術(shù)概述

    詳解寄存器模型鏡像

    DUT的配置寄存器的值是實(shí)際值,reg_model有鏡像值、期望值的概念。
    的頭像 發(fā)表于 10-23 09:43 ?343次閱讀
    詳解寄存器模型<b class='flag-5'>鏡像</b>值

    手動(dòng)構(gòu)建Docker鏡像的方法

    不推薦使用docker commit命令,而應(yīng)該使用更靈活、更強(qiáng)大的dockerfile來構(gòu)建docker鏡像
    的頭像 發(fā)表于 08-05 15:30 ?560次閱讀
    手動(dòng)構(gòu)建Docker<b class='flag-5'>鏡像</b>的方法

    esp32能不能直接跑opencv?有沒有在板子上面做圖像處理的庫?

    esp32能不能直接跑opencv,有沒有在板子上面做圖像處理的庫
    發(fā)表于 06-13 06:59

    adxl367在進(jìn)行參考活動(dòng)檢測(cè)時(shí),能不能讓參考值不變

    adxl367在進(jìn)行參考活動(dòng)檢測(cè)時(shí),參考值是實(shí)時(shí)一直變化的,能不能讓參考值不變
    發(fā)表于 06-03 08:41

    華中科技大學(xué)開源鏡像站上線44個(gè)軟件鏡像,歡迎下載

    此站早在去年11月即在學(xué)校內(nèi)部試運(yùn)行,正式開放之前,已積累大量開放資源,包括44款開源軟件的最新版本。截至目前,該鏡像庫已有超40TB的有效鏡像數(shù)據(jù)。
    的頭像 發(fā)表于 05-09 15:53 ?624次閱讀

    國(guó)產(chǎn)芯片POL8903圖像處理芯片-LVDS轉(zhuǎn)MIPI帶旋轉(zhuǎn)

    處理引擎 支持圖像鏡像翻轉(zhuǎn)處理;支持圖像 90°/270°旋轉(zhuǎn)處理; 封裝形式 LFBGA196(10mm*10mm) 系統(tǒng) 高性能
    的頭像 發(fā)表于 04-09 15:16 ?1167次閱讀
    國(guó)產(chǎn)芯片POL8903<b class='flag-5'>圖像</b>處理芯片-LVDS轉(zhuǎn)MIPI帶旋轉(zhuǎn)

    AD軟件原理圖中怎么鏡像元器件呢?

    原理圖中只是電氣性能在圖紙上的表示我,可以對(duì)繪制圖形進(jìn)行水平或者垂直翻轉(zhuǎn)而不影響電氣屬性。
    的頭像 發(fā)表于 03-18 09:06 ?1725次閱讀
    AD軟件原理圖中怎么<b class='flag-5'>鏡像</b>元器件呢?

    求助,關(guān)于STM32F103翻轉(zhuǎn)使用的疑問求解

    通用定時(shí)器輸出比較TIM2,F(xiàn)103.根據(jù)參考手冊(cè)輸出比較是CNT與CRR比較。CNT=CRR翻轉(zhuǎn)。程序設(shè)置:定時(shí)器時(shí)鐘72M,預(yù)分頻系數(shù)71,ARR=999.CRR為499.實(shí)際仿真波形和示波器輸出波形1ms翻轉(zhuǎn)一次。為什么不是0.5ms
    發(fā)表于 03-11 07:47

    谷歌模型怎么PS打開文件格式不變

    要將谷歌模型與Photoshop結(jié)合使用,并保持文件格式不變,這通常涉及將谷歌模型生成的圖像或圖形導(dǎo)入到Photoshop中進(jìn)行進(jìn)一步編輯或處理。
    的頭像 發(fā)表于 02-29 18:09 ?909次閱讀

    instance是何時(shí)翻轉(zhuǎn)的?每次有多少instance在翻轉(zhuǎn)

    在run dynamic vectorless IR時(shí),instance是何時(shí)翻轉(zhuǎn)的?每次有多少instance在翻轉(zhuǎn)?
    的頭像 發(fā)表于 01-26 09:31 ?592次閱讀
    instance是何時(shí)<b class='flag-5'>翻轉(zhuǎn)</b>的?每次有多少instance在<b class='flag-5'>翻轉(zhuǎn)</b>?