国产亚洲欧美日韩综合旡码一区,色婷婷狠狠18禁久久yyy☆

還是做一些背景介紹。已經(jīng)是很熱的深度學(xué)習(xí)，大家都看到不少精彩的故事，我就不一一重復(fù)。

簡單的回顧的話，2006年Geoffrey Hinton的論文點燃了“這把火”，現(xiàn)在已經(jīng)有不少人開始潑“冷水”了，主要是AI泡沫太大，而且深度學(xué)習(xí)不是包治百病的藥方。

計算機(jī)視覺不是深度學(xué)習(xí)最早看到突破的領(lǐng)域，真正讓大家大吃一驚的顛覆傳統(tǒng)方法的應(yīng)用領(lǐng)域是語音識別，做出來的公司是微軟，而不是當(dāng)時如日中天的谷歌。計算機(jī)視覺應(yīng)用深度學(xué)習(xí)堪稱突破的成功點是2012年ImageNet比賽，采用的模型是CNN，而不是Hinton搞的RBM和DBN之類，就是Hinton學(xué)生做出來以他命名的AlexNet。

（注：順便提一下，2010年的ImageNet冠軍是余凱/林元慶領(lǐng)導(dǎo)的NEC和UIUC Tom Huang組的合作團(tuán)隊，當(dāng)時采用的方法是基于sparse coding+SVM。）

當(dāng)然，真正一直在研究CNN的專家是Yann LeCun，小扎后來拉他去FB做AI research的頭。第一個CNN模型就是他搞出來的，即LeNet，原來就是做圖像數(shù)字識別。不得不說，CNN非常適合2-D信號的處理任務(wù)，RNN呢，是時域上的拓展。

現(xiàn)在CNN在計算機(jī)視覺應(yīng)用的非常成功，傳統(tǒng)機(jī)器學(xué)習(xí)方法基本被棄之不用。其中最大的一個原因就是，圖像數(shù)據(jù)的特征設(shè)計，即特征描述，一直是計算機(jī)視覺頭痛的問題，在深度學(xué)習(xí)突破之前10多年，最成功的圖像特征設(shè)計 (hand crafted feature)是SIFT，還有著名的Bag of visual words，一種VQ方法。后來大家把CNN模型和SIFT比較，發(fā)現(xiàn)結(jié)構(gòu)還蠻像的：），之后不是也有文章說RNN和CRF很像嗎。

CNN從AlexNet之后，新模型如雨后春筍，每半年就有新發(fā)現(xiàn)。這里隨便列出來就是，ZFNet (也叫MatNet)，VGGNet， NIN， GoogleNet (Inception)， Highway Network， ResNet， DenseNet，SE-Net（Squeeze and Excitation Net），。。?；旧隙际窃贗mageNet先出名的：）。

簡單回顧一下：

AlexNet應(yīng)該算第一個深度CNN；

ZFNet采用DeconvNet和visualization技術(shù)可以監(jiān)控學(xué)習(xí)過程；

VGGNet采用小濾波器3X3去取代大濾波器5X5和7X7而降低計算復(fù)雜度；

GoogleNet推廣NIN的思路定義Inception基本模塊（采用多尺度變換和不同大小濾波器組合，即1X1，3X3，5X5）構(gòu)建模型；

Highway Networks借鑒了RNN里面LSTM的gaiting單元；

ResNet是革命性的工作，借鑒了Highway Networks的skip connection想法，可以訓(xùn)練大深度的模型提升性能，計算復(fù)雜度變??；

Inception-V3/4用1X7和1X5取代大濾波器5X5和7X7，1X1濾波器做之前的特征瓶頸，這樣卷積操作變成像跨通道（cross channel）的相關(guān)操作；

DenseNet主要通過跨層鏈接解決vanishing gradient問題；

SE-Net是針對特征選擇的設(shè)計，gating機(jī)制還是被采用；

前段時間流行的Attention機(jī)制也是借鑒于LSTM，實現(xiàn)object-aware的context模型。

在具體應(yīng)用領(lǐng)域也出現(xiàn)了不少成功的模型，比如

detection問題的R-CNN，fast RCNN，faster RCNN，SSD，YOLO，RetinaNet，CornerNet等，

解決segmentation問題的FCN，DeepLab，Parsenet，Segnet，Mask R-CNN，RefineNet，PSPNet，U-Net等，

處理激光雷達(dá)點云數(shù)據(jù)的VoxelNet，PointNet，BirdNet，LMNet，RT3D，PIXOR，YOLO3D等，

實現(xiàn)激光雷達(dá)和圖像融合的PointFusion，RoarNet，PointRCNN，AVOD等，

做圖像處理的DeHazeNet，SRCNN (super-resolution)，DeepContour，DeepEdge等，

2.5 D視覺的MatchNet，DeepFlow，F(xiàn)lowNet等，

3-D重建的PoseNet，VINet，Perspective Transformer Net，SfMNet，CNN-SLAM，SurfaceNet，3D-R2N2，MVSNet等，

以及解決模型壓縮精簡的MobileNet，ShuffleNet，EffNet，SqueezeNet，

。。。

下面我們針對具體應(yīng)用再仔細(xì)聊。

先說圖像/視頻處理（計算機(jī)視覺的底層，不低級）。

圖像處理，還有視頻處理，曾經(jīng)是很多工業(yè)產(chǎn)品的基礎(chǔ)，現(xiàn)在電視，手機(jī)還有相機(jī)/攝像頭等等都離不開，是技術(shù)慢慢成熟了（傳統(tǒng)方法），經(jīng)驗變得比較重要，而且芯片集成度越來越高，基本上再去研究的人就少了。經(jīng)典的ISP，A3，都是現(xiàn)成的，當(dāng)然做不好的也很難和別人競爭，成本都降不下來。

這是一個典型成像處理的流程圖：

經(jīng)典的ISP流程圖如下：

圖像處理，根本上講是基于一定假設(shè)條件下的信號重建。這個重建不是我們說的3-D重建，是指恢復(fù)信號的原始信息，比如去噪聲，內(nèi)插。這本身是一個逆問題，所以沒有約束或者假設(shè)條件是無解的，比如去噪最常見的假設(shè)就是高斯噪聲，內(nèi)插實際是恢復(fù)高頻信號，可以假設(shè)邊緣連續(xù)性和灰度相關(guān)性，著名的TV（total variation）等等。

以前最成功的方法基本是信號處理，機(jī)器學(xué)習(xí)也有過，信號處理的約束條件變成了貝葉斯規(guī)則的先驗知識，比如sparse coding/dictionary learning，MRF/CRF之類，現(xiàn)在從傳統(tǒng)機(jī)器學(xué)習(xí)方法過渡到深度學(xué)習(xí)也正常吧。

1 去噪/去霧/去模糊/去鬼影；

先給出一個encoder-decoder network的AR-CNN模型（AR=Artifact Reduction）：

這是一個圖像處理通用型的模型框架：

2 增強(qiáng)/超分辨率（SR）；

Bilateral filter是很有名的圖像濾波器，這里先給出一個受此啟發(fā)的CNN模型做圖像增強(qiáng)的例子：

前面說過內(nèi)插的目的是恢復(fù)失去的高頻信息，這里一個做SR的模型就是在學(xué)習(xí)圖像的高頻分量：

3 修補(bǔ)/恢復(fù)/著色；

用于修補(bǔ)的基于GAN思想的Encoder-Decoder Network模型：

用于灰度圖像著色（8比特的灰度空間擴(kuò)展到24比特的RGB空間）的模型框架：

還有計算機(jī)視覺的預(yù)處理（2-D）。

計算機(jī)視覺需要圖像預(yù)處理，比如特征提取，包括特征點，邊緣和輪廓之類。以前做跟蹤和三維重建，首先就得提取特征。特征點以前成功的就是SIFT/SURF/FAST之類，現(xiàn)在完全可以通過CNN形成的特征圖來定義。

邊緣和輪廓的提取是一個非常tricky的工作，細(xì)節(jié)也許就會被過強(qiáng)的圖像線條掩蓋，紋理（texture）本身就是一種很弱的邊緣分布模式，分級（hierarchical）表示是常用的方法，俗稱尺度空間（scale space）。以前做移動端的視覺平臺，有時候不得不把一些圖像處理功能關(guān)掉，原因是造成了特征畸變?，F(xiàn)在CNN這種天然的特征描述機(jī)制，給圖像預(yù)處理提供了不錯的工具，它能將圖像處理和視覺預(yù)處理合二為一。

1 特征提取；

LIFT（Learned Invariant Feature Transform）模型，就是在模仿SIFT：

2 邊緣/輪廓提??；

一個輪廓檢測的encoder-decoder network模型：

3 特征匹配；

這里給出一個做匹配的模型MatchNet：

再說2.5-D計算機(jī)視覺部分（不是全3-D）。

涉及到視差或者2-D運動的部分一般稱為2.5-D空間。這個部分和前面的2-D問題是一樣的，作為重建任務(wù)它也是逆問題，需要約束條件求解優(yōu)化解，比如TV，GraphCut。一段時間（特別是Marr時代）計算機(jī)視覺的工作，就是解決約束條件下的優(yōu)化問題。

后來，隨機(jī)概率和貝葉斯估計大行其事，約束條件變成了先驗知識（prior），計算機(jī)視覺圈里寫文章要是沒有 P (Probability) 和 B (Bayes)，都不好意思發(fā)。像SVM， Boosting，Graphical Model，Random Forest，BP（Belief Propagation），CRF（Conditional Random Field），Mixture of Gaussians，MCMC，Sparse Coding都曾經(jīng)是計算機(jī)視覺的寵兒，現(xiàn)在輪到CNN出彩：）。

可以說深度學(xué)習(xí)是相當(dāng)“暴力”的，以前分析的什么約束呀，先驗知識呀在這里統(tǒng)統(tǒng)扔一邊，只要有圖像數(shù)據(jù)就可以和傳統(tǒng)機(jī)器學(xué)習(xí)方法拼一把。

1 運動/光流估計；

傳統(tǒng)的方法包括局部法和全局法，這里CNN取代的就是全局法。

這里是一個光流估計的模型：

2 視差/深度圖估計；

深度圖估計和運動估計是類似問題，唯一不同的是單目可以估計深度圖，而運動不行。

這里是一個雙目估計深度圖的模型：

而這個是單目估計深度圖的模型：巧妙的是這里利用雙目數(shù)據(jù)做深度圖估計的非監(jiān)督學(xué)習(xí)

另外一個單目深度估計的模型：也是利用雙目的幾何約束做非監(jiān)督的學(xué)習(xí)

3 視頻去隔行/內(nèi)插幀；

Deinterlacing和Framerate upconversion視頻處理的經(jīng)典問題，當(dāng)年Sony和Samsung這些電視生產(chǎn)商這方面下了很大功夫，著名的NXP（從Philips公司spin-off）當(dāng)年有個牛逼的算法在這個模塊掙了不少錢。

基本傳統(tǒng)方法都是采用運動估計和補(bǔ)償?shù)姆椒ǎ追QMEMC，所以我把它歸類為2.5-D。前面運動估計已經(jīng)用深度學(xué)習(xí)求解了，現(xiàn)在這兩個問題自然也是。

首先看一個做MEMC的模型：

這是做Deinterlacing的一個模型：

這是Nvidia的Framerate Upconversion方面模型：

因為它采用optic flow方法做插幀，另外附上它的flow estimation模型：就是一個沙漏（hourglass）模式

4 新視角圖像生成；

剛才介紹單目估計深度圖的時候，其實已經(jīng)看到采用inverse warping方法做新視角生成的例子，在IBR領(lǐng)域這里有一個分支叫Depth Image-based Rendering （DIBR）。

和上個問題類似，采用深度圖學(xué)習(xí)做合成圖像，也屬于2.5-D空間。在電視領(lǐng)域，曾經(jīng)在3-D電視界采用這種方法自動從單鏡頭視頻生成立體鏡頭節(jié)目。以前也用過機(jī)器學(xué)習(xí)，YouTube當(dāng)年采用image search方法做深度圖預(yù)測提供2D-3D的內(nèi)容服務(wù)，但性能不好?，F(xiàn)在感覺，大家好像不太熱衷這個了。

這是一個產(chǎn)生新視角的模型：

而這個是從單鏡頭視頻生成立體視頻的模型：

有做編碼/解碼的，也是采用運動或者相似變換為基礎(chǔ)，但性能不如傳統(tǒng)方法，這里忽略。

下面談?wù)?-D，基于多視角（MVS）/運動（SFM）的重建，后者也叫SLAM。

這部分就是經(jīng)典的計算機(jī)視覺問題：3-D重建。

基本上可以分成兩種路徑：一是多視角重建，二是運動重建。前一個有一個經(jīng)典的方法MVS（multiple view stereo），就是多幀匹配，是雙目匹配的推廣，這樣采用CNN來解決也合理。當(dāng)年CMU在Superbowl展示的三維重建和視角轉(zhuǎn)化，轟動一時，就是基于此路徑，但最終沒有被產(chǎn)品化（技術(shù)已經(jīng)轉(zhuǎn)讓了）。

后一個在機(jī)器人領(lǐng)域成為SLAM，有濾波法和關(guān)鍵幀法兩種，后者精度高，在稀疏特征點的基礎(chǔ)上可以采用BA（Bundle Adjustment），著名的方法如PTAM，ORB-SLAM1/2，LSD-SLAM，KinectFusion（RGB-D），LOAM和Velodyne SLAM（LiDAR）等。如今SLAM已經(jīng)成為AR產(chǎn)業(yè)的瓶頸，看看MagicLeap和HoloLens，大家不能總是在平面檢測基礎(chǔ)上安一個虛擬物體吧，真正的虛實結(jié)合是在一個普通的真實環(huán)境里才行。

想想像特征點匹配，幀間運動估計，Loop Closure檢測這些模塊都可以采用CNN模型解決，那么SLAM/SFM/VO就進(jìn)入CNN的探索區(qū)域。

1 標(biāo)定；

Calibration是計算機(jī)視覺的經(jīng)典問題，攝像頭作為傳感器的視覺系統(tǒng)首要任務(wù)就是要確定自己觀測數(shù)據(jù)和3-D世界坐標(biāo)系的關(guān)系，即標(biāo)定。攝像頭標(biāo)定要確定兩部分參數(shù)，一是內(nèi)參數(shù)，二是外參數(shù)。對于有多個傳感器的視覺系統(tǒng)，比如深度測距儀，以前有Kinect RGB-D，現(xiàn)在有Velodyne激光雷達(dá)，它們相互之間的坐標(biāo)系關(guān)系是標(biāo)定的任務(wù)。

外參數(shù)標(biāo)定的完成幫助是校準(zhǔn)數(shù)據(jù)，比如激光雷達(dá)的點云，RGB-D的深度圖，還有攝像頭的圖像像素集，它們一定存在一個最佳匹配標(biāo)準(zhǔn)，這就可以通過數(shù)據(jù)訓(xùn)練NN模型來完成。而標(biāo)定參數(shù)就是NN模型回歸輸出的結(jié)果。

這里是一個激光雷達(dá)和攝像頭標(biāo)定的系統(tǒng)框圖：

它的模型CalibNet結(jié)構(gòu)視圖：

2 Visual Odometry（VO）;

VO屬于SLAM的一部分，只是估計自身運動和姿態(tài)變化吧。VO是特斯拉的前Autopilot2.0負(fù)責(zé)人David Nister創(chuàng)立的，他之前以兩幀圖像計算Essential Matrix的“5點算法”而出名，現(xiàn)在是Nvidia的自動駕駛負(fù)責(zé)人，公司VP。

這里是一個和慣導(dǎo)數(shù)據(jù)結(jié)合的VIO（Visual-Inertial Odometry）NN模型：

這是著名的AR創(chuàng)業(yè)公司MagicLeap提出的VO模型：兩部分組成，即特征提取和匹配（Homography）。

順便加一個，激光雷達(dá)數(shù)據(jù)做Odometry的CNN模型：

3 SLAM (Mono, Stereo, RGB-D, LiDAR)/SFM；

運動恢復(fù)結(jié)構(gòu)是基于背景不動的前提，計算機(jī)視覺的同行喜歡SFM這個術(shù)語，而機(jī)器人的peers稱之為SLAM。SLAM比較看重工程化的解決方案，SFM理論上貢獻(xiàn)大。

先看一個單攝像頭的SFM系統(tǒng)框圖：

它的NN模型SFM-Net，包括Motion和Structure兩部分：

再附上一個SLAM的模型CNN-SLAM：主要是加上一個單目深度圖估計的CNN模塊。

這是一個用CNN的基于Lidar的localization方法：不僅需要點云數(shù)據(jù)，還輸入反射值灰度圖。

圖像像素運動是optic flow，而3-D場景的運動稱之為scene flow，如果有激光雷達(dá)的點云數(shù)據(jù)，后者的估計可以通過ICP實現(xiàn)，這里給出一個CNN模型的實現(xiàn)方法FlowNet3D，是PointNet的擴(kuò)展：

4 MVS：

MVS的傳統(tǒng)方法可以分成兩種：region growing和depth-fusion，前者有著名的PMVS，后者有KinectFusion，CNN模型求解MVS的方法就是基于此。

先看看一個做MVS任務(wù)的基于RNN中LSTM的3D-R2N2模型：

它的系統(tǒng)框圖如下：

UIUC/Facebook合作的DeepMVS模型：

這是他們的系統(tǒng)框圖：

現(xiàn)在看到的是Berkeley分校Malik組提出的LSM（Learnt Stereo Machine ）模型：

下面是最近香港權(quán)龍教授組提出的MVSNet模型：

核心部分是計算機(jī)視覺的高層：環(huán)境理解。

這部分是深度學(xué)習(xí)在計算機(jī)視覺最先觸及，并展示強(qiáng)大實力的部分。出色的工作太多，是大家關(guān)注和追捧的，而且有不少分析和總結(jié)文章，所以這里不會重復(fù)過多，只簡單回顧一下。

1 語義分割/實例分割（Semantic/Instance Segmentation）；

語義分割最早成功應(yīng)用CNN的模型應(yīng)該是FCN（Fully Convolution Network），由Berkeley分校的研究人員提出。它是一種pixel2pixel的學(xué)習(xí)方法，之后各種演變模型，現(xiàn)在都可以把它們歸類于Encoder-Decoder Network。

這里是去年CVPR的一片論文在總結(jié)自動駕駛的實時語義分割算法時給出的框圖：

其中Encoder部分特別采用了MobileNet和ShuffleNet。

實例分割是特殊的語義分割，結(jié)合了目標(biāo)檢測，可以說是帶有明確輪廓的目標(biāo)檢測，其代表作就是Mask R-CNN，應(yīng)該是何凱明去FB之后的第一個杰作。

這是一個借鑒目標(biāo)檢測算法SSD的實例分割模型：

而下面這個是從目標(biāo)檢測算法Faster-RCNN演變的實例分割模型MaskLab，論文發(fā)表在去年CVPR‘18：

這是它修正Mask的方法示意圖：

這是一個基于3-D點云的語義分割NN模型：

2 檢測/識別(特別例子：人臉)；

目標(biāo)檢測的開拓性工作應(yīng)該是Berkeley分校Malik組出來的，即兩步法的R-CNN（Region-based CNN），借用了傳統(tǒng)方法中的Region Proposal。之后不斷改進(jìn)的有fast RCNN和faster RCNN，每次都有新點子，真是“群星閃耀”的感覺。

一步法的工作，有名的就是SSD（Single Shot Detection）和YOLO（You Only Look Once)，期間何凱明針對one-stage和two-stage方法的各自優(yōu)缺點引進(jìn)一個Focal Loss，構(gòu)建的新方法叫RetinaNet，而后來YOLO3基本也解決了精度低的弱點。

這里我在紙上，手畫了一個算法發(fā)展草圖（其實還有一些方法沒有包括在里面，比如densebox，deepbox，R-FCN，F(xiàn)PN等等）。

ImageNet本身就是一個1000多種物體識別比賽，一般公布的是top 5的結(jié)果（可見最早精度有多低（：）。CNN在ImageNet的發(fā)展史，就是它在圖像識別的一段近5年的歷史了：）。

激光雷達(dá)點云數(shù)據(jù)的處理，無論識別還是分割，有PointNet以及改進(jìn)的CNN模型：

基于點云做目標(biāo)識別的例子有Apple公司研究人員發(fā)表的VoxelNet模型：

將點云和RGB圖像結(jié)合的目標(biāo)檢測CNN模型例子如下：

這里順便提一下人臉識別，因為是對人臉的個體屬性判別，所以這個課題應(yīng)該算fine grained recognition。就好像對狗或者馬這種動物繼續(xù)判別它的品種，都是細(xì)分的。

請注意，人臉識別分人臉驗證（face verification）和人臉確認(rèn)（face identification）；前者是指兩個人是不是同一個人，1-to-1 mapping，而后者是確定一個人是一群人中的某個，1-to-many ampping。以前經(jīng)常有報道機(jī)器的人臉識別比人強(qiáng)了，都是指前者，假如后者的話，那誰能像機(jī)器一樣識別上萬人的人臉數(shù)據(jù)庫呢？何況中國公安部的數(shù)據(jù)高達(dá)億的數(shù)量級。

一個完整的人臉識別系統(tǒng)，需要完成人臉檢測和人臉校準(zhǔn)（face alignment），而后者是需要人臉關(guān)鍵點（facial landmarks）的檢測，也是可以基于CNN模型來做。這里以FB的DeepFace模型為例吧，給出一個人臉識別的系統(tǒng)框圖：

這是不久前剛剛提出的人臉檢測模型： Selective Refinement Network

而這里給出一個基于facial landmarks做校準(zhǔn)的模型：

順便提一下曠世科技的Pyramid CNN模型和商湯科技的DeepID2模型（一共發(fā)布過4個DeepID版本）依次如圖：

3 跟蹤（特別例子：人體姿態(tài)/骨架）；

目標(biāo)跟蹤是一個遞推估計問題，根據(jù)以前的圖像幀目標(biāo)的信息推算當(dāng)前目標(biāo)的位置甚至大小/姿態(tài)。有一陣子，跟蹤和檢測變得渾為一體，即所謂tracking by detection，跟蹤也可以看出一個目標(biāo)分割（前后景而言）/識別問題。

跟蹤是短時（short term）鄰域的檢測，而一般的檢測是長時（long term）大范圍的檢測。跟蹤的困難在于目標(biāo)的遮擋（分部分還是全部），背景復(fù)雜（相似目標(biāo)存在），快速（fast）以及突變（agile）運動等等。比如，跟蹤人臉，當(dāng)轉(zhuǎn)90度成側(cè)臉時就會有以上這些問題。

跟蹤方法有一個需要區(qū)分的點，多目標(biāo)（MOT）還是單目標(biāo)（SOT）跟蹤器。單目標(biāo)不會考慮目標(biāo)之間的干擾和耦合，而多目標(biāo)跟蹤會考慮目標(biāo)的出現(xiàn)，消失以及相互交互和制約，保證跟蹤各個目標(biāo)的唯一性是算法設(shè)計的前提。

跟蹤目標(biāo)是多樣的，一般是考慮剛體還是柔體，是考慮單剛體還是鉸接式（articulated），比如人體或者手指運動，需要確定skeleton模型。跟蹤可以是基于圖像的，或者激光雷達(dá)點云的，前者還要考慮目標(biāo)在圖像中大小的變化，姿態(tài)的變化，難度更大。

基于以上特點，跟蹤可以用CNN或者RNN模型求解，跟蹤目標(biāo)的描述本身就是NN模型的優(yōu)勢，檢測也罷，分割或者識別也罷，都不是問題。運動特性的描述也可以借鑒RNN模型，不過目前看到的結(jié)果這部分不比傳統(tǒng)方法好多少。

先看一個單目標(biāo)跟蹤的CNN模型：

這個展示的模型是一個基于R-CNN檢測模型擴(kuò)展的單目標(biāo)跟蹤方法：

多目標(biāo)跟蹤模型有這么一個例子：

下面是一個基于RNN的多目標(biāo)跟蹤模型：

補(bǔ)充一個基于RGB圖像和3-D點云的目標(biāo)跟蹤NN模型：

順便談一下人體姿態(tài)和骨架跟蹤問題。以前傳統(tǒng)方法在人體姿態(tài)估計花了很大力氣但效果不好，提出了part-based目標(biāo)模型，比如constellation model, pictorial structure, implicit shape model, deformable model等等。

最近CMU提出一個方法，基于Part Affinity Fields（PAF）來估計人體姿態(tài)和骨架，速度非常快。PAF是一個非參數(shù)描述模型，用來將圖像像素和人體各肢體相關(guān)起來，看它的架構(gòu)如圖，采用的是two branch CNN結(jié)構(gòu)，聯(lián)合學(xué)習(xí)各肢體的相關(guān)性和位置。

下面這個是其中雙部圖形匹配(Bipartie matching)算法的示意圖。

這種多目標(biāo)快速姿態(tài)跟蹤的實現(xiàn)對人體行為的理解是非常重要的工具。

最后講一下計算機(jī)視覺的推廣領(lǐng)域。

這里我選了4個計算機(jī)視覺的應(yīng)用談?wù)勆疃葘W(xué)習(xí)對這些領(lǐng)域的推動，在CNN或者RNN“火”之前，這些應(yīng)用已經(jīng)存在，但在識別分類任務(wù)上性能有限罷了。自動駕駛的應(yīng)用在另外文章已經(jīng)提過了，在此忽略。

1內(nèi)容檢索；

CBIR（Content-based Image Retrieval）有兩波人搞，一波是計算機(jī)科學(xué)的，把這個問題當(dāng)數(shù)據(jù)庫看待；另一波人是電子過程的，認(rèn)為是圖像匹配問題。剛開始大家也是對這個問題的semantic gap比較頭疼，用了一些feature，比如顏色，紋理，輪廓，甚至layout，效果真不咋樣。

后來有了SIFT，用了Information Retrieval的概念Bag of Words，加上inverted Indexing，TF-IDF（term frequency–inverse document frequency），hashing之類的技術(shù)變得好多了，每年ACM MM會議上一堆的paper。深度學(xué)習(xí)進(jìn)來，主要就是扮演特征描述的角色。

這是一個CBIR采用CNN的框架：

這個展示的是image matching用于CBIR的CNN模型：

2 增強(qiáng)現(xiàn)實；

AR一開始就不好做，不說VR那部分的問題，主要是實時性要求高，無論識別還是運動/姿態(tài)估計，精度都不好。現(xiàn)在計算機(jī)硬件發(fā)展了，計算速度提高了，加上深度學(xué)習(xí)讓識別變得落地容易了，最近越來越熱，無論是姿態(tài)估計還是特征匹配（定位），都變得容易些了。希望這次能真正對社會帶來沖擊，把那些AR的夢想都實現(xiàn)。

這個框架是Google Glass的AR應(yīng)用平臺，其中幾個模塊都可以基于CNN實現(xiàn)：

下面給出的是camera motion 的encoder-decoder network框架：三個模型串聯(lián)，其中一個有迭代。

下面的模型展示了特征提取和描述的作用，AR中直接可以用做re-localization。

3 內(nèi)容加注/描述；

Captioning是計算機(jī)視覺和NLP的結(jié)合。你可以把它當(dāng)成一個“檢索”任務(wù)，也可以說是一個“翻譯”工作。深度學(xué)習(xí)，就是來幫助建立一個語言模型并取樣產(chǎn)生描述。

4 內(nèi)容問答（Q&A）。

Q&A 也是計算機(jī)視覺和NLP的結(jié)合，其實質(zhì)是在圖像描述和語言描述之間建立一個橋梁。有人說，Q&A是一個Turing Test的好問題，這里深度學(xué)習(xí)就是在幫助理解圖像的描述，問題的組成，以及它們模式之間的交互。

有些CNN的應(yīng)用還是需要進(jìn)一步改進(jìn)模型，性能并沒有達(dá)到滿意。不過，大家高興地看到深度學(xué)習(xí)已經(jīng)進(jìn)來了，以后隨著研究的深入性能會越來越好。

作者介紹：

黃浴奇點汽車美研中心首席科學(xué)家兼總裁，專業(yè)領(lǐng)域：圖像視頻處理，計算攝影，機(jī)器學(xué)習(xí)，計算機(jī)視覺和數(shù)據(jù)可視化。從事的工業(yè)界：安防，多媒體，電訊，半導(dǎo)體，互聯(lián)網(wǎng)。工作過的公司：OSI/Rapiscan，法國湯姆遜多媒體公司普林斯頓研究所，華為美研媒體網(wǎng)絡(luò)實驗室，三星美研數(shù)字媒體解決方案實驗室，Realtek瑞昱美研中心，Harmonic總部研發(fā)組，英特爾總部CCG/VPG，百度美研自動駕駛。學(xué)習(xí)過的高校：西安交通大學(xué)信息控制工程系，西安電子科技大學(xué)電子工程系，北京交通大學(xué)信息科學(xué)研究所，清華大學(xué)計算機(jī)系，德國埃爾朗根-紐倫堡大學(xué)計算機(jī)系，美國伊利諾伊大學(xué)香檳分校貝克曼研究所。干過的項目：視覺目標(biāo)跟蹤（人臉，手勢，體勢，運動員/球，車輛/行人），物體檢測（人臉/行人），場景分類/分割，全景圖生成，基于深度圖像的新視角圖像合成，體數(shù)據(jù)繪制（VR），圖像內(nèi)容檢索，圖像去噪/去霧/去模糊/增強(qiáng)/超分辨率，圖像修補(bǔ)/HDR/削光（matting），雙目圖像立體匹配/分割，視頻摘要瀏覽/去隔行掃描/插幀提高幀率，激光雷達(dá)-圖像的標(biāo)定/融合。發(fā)表學(xué)術(shù)會議期刊論文30多篇，獲得美國/歐洲專利13個，還有20個專利等待批準(zhǔn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

計算機(jī)視覺

計算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
46019
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5504

瀏覽量
121229
cnn

cnn

+關(guān)注

關(guān)注
3

文章
352

瀏覽量
22238

原文標(biāo)題：知薦 | 深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的應(yīng)用一覽

文章出處：【微信號：vision263com，微信公眾號：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

計算機(jī)視覺/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集匯總

、定位、檢測等研究工作大多基于此數(shù)據(jù)集展開。Imagenet數(shù)據(jù)集文檔詳細(xì)，有專門的團(tuán)隊維護(hù)，使用非常方便，在計算機(jī)視覺領(lǐng)域研究論文中應(yīng)用非常廣，幾乎成為了目前

發(fā)表于 08-29 10:36

請問計算機(jī)視覺與深度學(xué)習(xí)要看什么書？

計算機(jī)視覺與深度學(xué)習(xí)，看這本書就夠了

發(fā)表于 05-21 12:43

深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域圖像應(yīng)用總結(jié) 精選資料下載

突破的領(lǐng)域，真正讓大家大吃一驚的顛覆傳統(tǒng)方法的應(yīng)用領(lǐng)域是語音識別，做出來的公司是微軟，而不是當(dāng)時如日中天的谷歌。計算機(jī)視覺應(yīng)用

發(fā)表于 07-28 08:22

【A】超全！深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的應(yīng)用一覽精選資料分享

簡單回顧的話，2006年Geoffrey Hinton的論文點燃了“這把火”，現(xiàn)在已經(jīng)有不少人開始潑“冷水”了，...

發(fā)表于 07-28 08:45

超全！深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域應(yīng)用一覽（附鏈接）精選資料分享

這是一份深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的超全應(yīng)用預(yù)覽~簡單

發(fā)表于 07-28 07:35

超全！深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的應(yīng)用一覽精選資料分享

簡單回顧的話，2006年Geoffrey Hinton的論文點燃了“這把火”，現(xiàn)在已經(jīng)有...

發(fā)表于 07-28 07:05

計算機(jī)視覺論文速覽

AI視野·今日CS.CV 計算機(jī)視覺論文速覽transformer、新模型、視覺語言模型、多模態(tài)、clip、視角合成

發(fā)表于 08-31 08:46

深度學(xué)習(xí)與傳統(tǒng)計算機(jī)視覺簡介

文章目錄1 簡介1.1 深度學(xué)習(xí)與傳統(tǒng)計算機(jī)視覺1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計算機(jī)

發(fā)表于 12-23 06:17

技術(shù) | 深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的瓶頸已至

霍金的弟子，約翰霍普金斯大學(xué)教授Alan Yuille提出“深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的瓶頸已至。

發(fā)表于 07-05 10:07 ?2574次閱讀

深度學(xué)習(xí)在計算機(jī)視覺上的四大應(yīng)用

計算機(jī)視覺中比較成功的深度學(xué)習(xí)的應(yīng)用，包括人臉識別，圖像問答，物體檢測，物體跟蹤。

發(fā)表于 08-24 16:16 ?4840次閱讀

一片欣欣向榮背后，深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的瓶頸已至

深度學(xué)習(xí)能夠?qū)崿F(xiàn)的前提是大量經(jīng)過標(biāo)注的數(shù)據(jù)，這使得計算機(jī)視覺領(lǐng)域的研究人員傾向于在數(shù)據(jù)資源豐富的領(lǐng)域

發(fā)表于 04-18 10:11 ?1800次閱讀

深度學(xué)習(xí)和傳統(tǒng)計算機(jī)視覺技術(shù)在新興領(lǐng)域的比較

是不是深度學(xué)習(xí)就可以解決所有問題呢？是不是它就比傳統(tǒng)計算機(jī)視覺方法好呢？但是深度學(xué)習(xí)無法解決所有

發(fā)表于 11-28 11:01 ?1645次閱讀

淺談深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的三大瓶頸

深度學(xué)習(xí)能夠?qū)崿F(xiàn)的前提是大量經(jīng)過標(biāo)注的數(shù)據(jù)，這使得計算機(jī)視覺領(lǐng)域的研究人員傾向于在數(shù)據(jù)資源豐富的領(lǐng)域

發(fā)表于 06-11 10:22 ?442次閱讀

計算機(jī)視覺中的九種深度學(xué)習(xí)技術(shù)

計算機(jī)視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而，深度學(xué)習(xí)方法正在針對某些特定問題取得最新成果。在最基本的問題上，最有趣的不僅僅是

發(fā)表于 08-21 09:56 ?619次閱讀

深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)作為其中的核心技術(shù)之一，已經(jīng)在計算機(jī)視覺

發(fā)表于 07-01 11:38 ?828次閱讀