嫩草院一區二區亂碼,便利店店长的教育1—4,老色鬼在线精品视频在线播放

葉聰，現(xiàn)任騰訊云AI 產(chǎn)品中心高級(jí)研發(fā)工程師，前美國亞馬遜 AWS 人工智能技術(shù)經(jīng)理，負(fù)責(zé)領(lǐng)導(dǎo)開發(fā)了 Amazon Alexa 智能語音助手背后的AI云服務(wù)Lex。在多年的云計(jì)算系統(tǒng)研發(fā)經(jīng)歷中，負(fù)責(zé)了領(lǐng)導(dǎo)了多個(gè)百萬用戶級(jí)產(chǎn)品的架構(gòu)設(shè)計(jì)和開發(fā)，并且具有豐富的跨國團(tuán)隊(duì)和項(xiàng)目管理經(jīng)驗(yàn)。美國明尼蘇達(dá)大學(xué)電子工程及計(jì)算機(jī)系碩士，其后在斯坦福大學(xué)攻讀研究生證書。

朋友圈爆款活動(dòng)背后的秘密

很榮幸受到云加社區(qū)邀請來做這次分享。我們將主要分六個(gè)部分來介紹，首先我想和大家介紹一下最近風(fēng)靡朋友圈的爆款計(jì)算機(jī)視覺小游戲的背后是怎么回事兒。然后會(huì)由淺入深一步步從最基礎(chǔ)的計(jì)算機(jī)視覺技術(shù)知識(shí)，快速地帶大家去了解一些學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)需要哪些技術(shù)知識(shí)。之后會(huì)再談?wù)動(dòng)?jì)算機(jī)視覺技術(shù)的歷史和最近興起的深度學(xué)習(xí)方法。同時(shí)會(huì)告訴大家在這背后的云端AI能力是如何支撐的，最后會(huì)給不同層次的想要學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)的朋友們一些技能進(jìn)階的建議。

今年我們組織了一場五四青年節(jié)的活動(dòng)，大家上傳自己的照片，就能匹配到民國時(shí)期的一些人物。這個(gè)應(yīng)用背后就利用到了人臉匹配技術(shù)，我們會(huì)利用一些算法來匹配到跟你長相最相似的人物。這個(gè)活動(dòng)當(dāng)時(shí)反應(yīng)可以說是非常熱烈的，相信不少人也參與過這個(gè)活動(dòng)。

其實(shí)類似的活動(dòng)還有很多，比如軍裝照等，回到人臉融合等等。這些應(yīng)用都是運(yùn)用了人臉融合的技術(shù)。

計(jì)算機(jī)視覺基礎(chǔ)知識(shí)

如果我們想要去學(xué)習(xí)一些計(jì)算機(jī)視覺技術(shù)的話，我們要先從歷史上了解計(jì)算機(jī)視覺技術(shù)是如何從幕后走到臺(tái)前來的。首先計(jì)算機(jī)視覺定義是怎么樣的？其實(shí)從很多的書上不同的材料上都會(huì)對這些區(qū)別有不同的定義。

我比較喜歡的定義是從工程學(xué)的角度來講，計(jì)算機(jī)視覺是使機(jī)器模仿人的視覺的能力和任務(wù)變成自動(dòng)化。我們?nèi)丝梢酝ㄟ^我們的視覺去理解信息?，F(xiàn)在的計(jì)算機(jī)視覺機(jī)器學(xué)習(xí)算法，可以把這個(gè)流程變成一個(gè)自動(dòng)的形式。

計(jì)算機(jī)視覺其實(shí)呢包含很多的分支，包括比如物體識(shí)別、語義分割、運(yùn)動(dòng)追蹤、三維重建、視覺問答（VQA）、還有動(dòng)作識(shí)別等等。

隨著計(jì)算機(jī)視覺算法模型的日漸強(qiáng)大，它的使用面越來越廣，幾乎在所有我們?nèi)搜劭梢宰R(shí)別的領(lǐng)域，計(jì)算機(jī)視覺將會(huì)逐步的一個(gè)一個(gè)的去替換掉。所以從總體來說這個(gè)場景是非常廣闊的，潛力是非常巨大的。

底下有幾張照片，左下角那張呢是非常經(jīng)典的應(yīng)用叫人臉識(shí)別（Facial Recognition），中間的是現(xiàn)在非?；馃岬?a target="_blank">無人駕駛，右邊的就是是情景分割（Semantic Segmentation）。情景分割這個(gè)詞其實(shí)是有一些不同的含義的，在LP領(lǐng)域也有情景分割這個(gè)說法，不過他是對一句話中的不同的詞或詞性，甚至是一些語義進(jìn)行一些分割。

而計(jì)算機(jī)視覺領(lǐng)域的語義分割稍微有些不同，它是對一個(gè)圖像里的元素進(jìn)行像素層面的細(xì)致的區(qū)分。上面右邊這張圖我們可以看到比如植物是綠色的，道路是灰色的，人是紅色的，然后汽車是藍(lán)色的，這些都是一些非常細(xì)致的Pixel Level。

非常有意思件事是我們?nèi)祟惾チ私庖粋€(gè)東西的顏色，我們是可以通過我們的眼睛的視網(wǎng)膜成像的，但是機(jī)器它是怎么去讀這個(gè)圖像的呢？這就要提出一個(gè)叫做RGB的概念。

什么是RGB？RGB就是Red，Green and Blue紅綠藍(lán)三種顏色。理論上自然界的所有的色彩都可以用這三種顏色來進(jìn)行描述，計(jì)算機(jī)會(huì)把每種顏色給予一個(gè)八位的一個(gè)二進(jìn)制去表示，也就是25種不同的數(shù)字去描述一個(gè)像素點(diǎn)。

這就非常有意思了，3*8位是24位，那但是現(xiàn)在我們大家所說的這個(gè)真彩色是32位，那這里的八位是什么？其實(shí)它是一個(gè)叫Alpha channel。它是一個(gè)代表一個(gè)圖像，某個(gè)像素是不是透明的，它是一個(gè)透明值，所以就是3×8+8，最后就是32位。 24位的顏色我們以前叫做全彩色，而32位是真彩色，現(xiàn)在大家只要用RGB去表示圖像，那基本上我們說32位的話都是帶著個(gè)八位的Alpha Channel的。

我們可以看到PPT上面右邊有三張圖。最上面那張就是黑白的灰度圖，中間一張呢就是我們剛才說的全彩圖，而下面一張就是真彩圖，這張圖加了八位的透明Channel在里面。

計(jì)算機(jī)視覺的素材還是非常多的，不僅僅是剛才看到那些大家用手機(jī)單反相機(jī)拍攝出來的照片，我們還有很多在大氣天文醫(yī)療領(lǐng)域的。比如左邊是航拍熱成像圖，中間有我們的胸的這種ct圖X光圖，然后還有右下角的是一些超倍顯微鏡看到的一些非常小的細(xì)微的人眼無法看到的圖，這些都是計(jì)算機(jī)視覺可以去學(xué)習(xí)去應(yīng)用的素材。接下來聊一下計(jì)算機(jī)視覺的處理的分級(jí)。

（計(jì)算機(jī)視覺處理分級(jí)）

這個(gè)分級(jí)其實(shí)是為了幫助我們更好的去理解計(jì)算機(jī)視覺所要解決的一個(gè)任務(wù)，它分為Low Level, Mid Level和High Level.聽名字好像他們分別對應(yīng)的就是低中高三個(gè)級(jí)別，但其實(shí)Low Level意思是我們離這個(gè)問題的細(xì)節(jié)比較近，而High Level比較遠(yuǎn)，比如像Low Level中間有降噪這一項(xiàng)。大家可以試想一個(gè)場景，我們離這個(gè)照片的每個(gè)細(xì)節(jié)非常近的情況下，我們才可以處理這些噪點(diǎn)，反過來講High Level的話就比較高，比如像Scene Understanding就是對這個(gè)情景的理解，這種情況是需要我們要對整個(gè)圖有個(gè)宏觀理解才能進(jìn)行處理。

我們先來看看Low Level Processing中的一些常見例子，它包括降噪，強(qiáng)化，壓縮和標(biāo)記，可以說它的使用范圍已經(jīng)非常廣泛了。比如左邊一張是我們拍的胸部的X光圖。如果我們?nèi)メt(yī)院拍張片子，基本上就是我們看到的是下面一張圖，而不是上面那張。但上面那張其實(shí)是原片，計(jì)算機(jī)視覺的Low Level Processing可以利用各種算法對這個(gè)圖片的景深進(jìn)行加強(qiáng)，在一些暗部進(jìn)行強(qiáng)化，在一些亮部進(jìn)行減弱，從而使這張圖片變得很清晰。我們由一張比較混沌的圖片中間經(jīng)過優(yōu)化，可以看到他非常清晰的骨骼血管這些脈絡(luò)，這就是圖像處理的厲害的地方。

右邊是一個(gè)pcb板的圖，這是一個(gè)工業(yè)界的應(yīng)用，原片上面充滿了噪點(diǎn)。很多素質(zhì)并不高的照相機(jī)拍出來的效果基本上就是這樣，經(jīng)過降噪的處理之后，它就可以變成非常清晰的pcb的圖。我們可以清晰地看到每一條電路，每一個(gè)模塊。

底下一張是航拍圖，由于云和霧霾等各種因素，這種航拍圖是非常模糊的，那經(jīng)過將近十節(jié)的enhancement的強(qiáng)化之后，我們可以加強(qiáng)景深對比路，能夠很清晰地看到圖上對象的實(shí)體，包括建筑和機(jī)場。右邊是registration，它等于把兩張不同角度的圖給對應(yīng)上進(jìn)行匹配，這也是一個(gè)很常見的應(yīng)用。

Mid Level Processing包括Classification、Segmentation這些。我很喜歡左下角這張圖，這張圖是來源于斯坦福大學(xué)李飛飛教授的一門計(jì)算機(jī)視覺的入門課程，最左下角的這張圖計(jì)算機(jī)識(shí)別處理叫分類（Classification），它僅僅從圖片上識(shí)別出來這里有一只貓，并不知道這個(gè)貓的位置或者這只是什么貓，這是一個(gè)分類的問題，是屬于Classification。

進(jìn)一步的第二張圖有個(gè)紅色的框框，這個(gè)就是已經(jīng)對圖上的貓進(jìn)行了一個(gè)定位，是Classification加上Localization，就是對圖上的對象的定位。再進(jìn)一步的話，我們從圖上不僅看到了有貓，還有狗，還有小鴨子。整張圖所有的對象都被識(shí)別出來了，這是一個(gè)典型的Object Detection場景，也就是對象檢測。我們把圖片上所有的對象很清晰地識(shí)別了出來。再進(jìn)一步的話叫對象檢測Instance Segmentation，這個(gè)意思就是我們不單知道圖像上有哪些對象，我們還把它進(jìn)行了一些劃分。劃分的意思就是把一張圖上的不同的元素可以區(qū)分出來并標(biāo)注。

右邊是我剛才我們之前復(fù)用的一張情景識(shí)別的圖，它包括了行人，還有各種車輛。情景識(shí)別其實(shí)是左邊所有的這個(gè)應(yīng)用的一個(gè)更高層次的進(jìn)化。從左到右可以看出，我們從只知道這個(gè)圖上有什么發(fā)展到了我們能知道這個(gè)圖上有所有的東西，包括在什么位置都可以知道，這就是我們在Mid Level Processing中是怎么一步一步的把一個(gè)圖的所有信息給挖掘出來。

接下來我們會(huì)聊一下High Level Processing，這也是目前最火熱的一個(gè)部分，包括左邊的人臉識(shí)別。人臉識(shí)別其實(shí)就是根據(jù)我們?nèi)四樀囊恍┠Ｐ?，從臉上尋找到很多的特征點(diǎn)，即關(guān)鍵點(diǎn)，包括呢眉毛，眼睛的邊框，然后對它進(jìn)行匹配建模。

人臉底下是非常經(jīng)典的人無人駕駛的圖，這方面有非常多不同的實(shí)現(xiàn)方式，總體來說包括用激光雷達(dá)和無激光雷達(dá)兩種，無人駕駛也是未來的一個(gè)趨勢。現(xiàn)在全世界范圍內(nèi)做無人駕駛的公司非常多，國外比較出名的包括特斯拉，這是一家非常執(zhí)著于不使用激光雷達(dá)，只是用計(jì)算機(jī)視覺方式去解決無人駕駛問題的公司。其他用雷達(dá)公司就非常多，比如通用汽車福特，包括歐洲的一些公司，國內(nèi)的話也有很多。

中間這張呢是Scene Understanding，它其實(shí)就是對畫面里的所有的元素和它們之間的關(guān)系以及他的行為進(jìn)行全面識(shí)別。，和之前識(shí)別小貓小狗的區(qū)別在于，這張圖片上面呢我們不僅識(shí)別到了有兩個(gè)孩子，我們還識(shí)別到了他們手上拿的是什么，以及他在什么地方，甚至還有他們要做什么這一系列信息，，并把這些信息形成了一個(gè)對象樹，上面不同的顏色代表不同的詞性，比如誰在什么地方做什么，這些東西我們都從這個(gè)圖上獲得了。

這就是High Level Processing我們希望得到的一個(gè)結(jié)果。它不是簡單的對一個(gè)圖片或是單純的對象的一個(gè)匹配和識(shí)別，而是對整張圖片有一個(gè)全面的了解。

最右邊一張是醫(yī)學(xué)上心臟血管的這個(gè)造影圖，這好像是英國某大學(xué)和英國皇家醫(yī)學(xué)會(huì)合作做的一個(gè)項(xiàng)目。利用計(jì)算機(jī)識(shí)別的成像，可以在手術(shù)前讓醫(yī)生對患者的整個(gè)心血管有非常清晰的了解。因?yàn)樗梢灾烂總€(gè)血管的血寬，在哪里可能有風(fēng)險(xiǎn)，利用這個(gè)技術(shù)的話，醫(yī)生在做手術(shù)就可以大大的降低手術(shù)失敗的風(fēng)險(xiǎn)，也可以大大的降低后續(xù)并發(fā)癥的影響。這些都是High Level Processing的一些應(yīng)用。

其他常見的計(jì)算機(jī)視覺的例子有人臉識(shí)別，OCR文本的識(shí)別，圖上展示的是一個(gè)比較老的技術(shù)，它是用一個(gè)激光筆，可能比較老的一些公司會(huì)使用這種方式。用激光筆去掃描文字，然后把掃描的文字轉(zhuǎn)換成文本?，F(xiàn)在基本上已經(jīng)不需要這種方法了，因?yàn)镺CR技術(shù)已經(jīng)非常成熟，只要大家清晰的拍一張照片，不管是中文還是英文，它都可以轉(zhuǎn)換成一段非常清晰的文字，并沒有任何什么問題，而速度會(huì)非?？?。

右邊的車牌識(shí)別，就是大家如果吃罰單但沒看到交警，很多時(shí)候是由于這個(gè)技術(shù)。

接下來聊一個(gè)比較有趣的話題——目標(biāo)跟蹤。我對它評(píng)價(jià)是Full of potentials, but chanllenged.這個(gè)技術(shù)本身我覺得是非常有前景的，但是非常難。因?yàn)橹虚g過程會(huì)有很多的因素影響最后的效果，所以目前來說這是一個(gè)很多人都在研究的熱點(diǎn)，并且目前還沒有。

首先我們上面看到這是一場NBA球賽的視頻的截圖，假如我們想追蹤其中某一個(gè)球員的話，它會(huì)出現(xiàn)什么問題呢？首先它是在不斷的移動(dòng)的，對于攝像頭而言它的位置是不斷在變化的，所以會(huì)出現(xiàn)各種不同的形變，運(yùn)動(dòng)員的姿勢也是在變的。

右邊這張圖也是由于各種燈光角度的照射強(qiáng)弱的問題，運(yùn)動(dòng)員在視頻的截圖上的看起來的樣子是不一樣的，它的光感也是不一樣的，這也是一個(gè)匹配的難點(diǎn)。然后底下幾張圖顯示圖上可能會(huì)出現(xiàn)什么問題，比如人在快速移動(dòng)的時(shí)候，視頻中間會(huì)出現(xiàn)模糊，這是一個(gè)非常常見的現(xiàn)象，然后由于背景色可能跟前景色太過接近，背景可能會(huì)影響到前景色產(chǎn)生干擾，這也是非常常見的，那這幾種情況呢都會(huì)影響目標(biāo)跟蹤的效果。

右邊則是一些其他的例子，比如不同的角度，人的頭可以旋轉(zhuǎn)，可以遮擋，甚至在有些時(shí)候它會(huì)出在畫面之外，這些情況都可以讓一個(gè)目標(biāo)跟蹤算法的失敗。如果大家對這個(gè)領(lǐng)域很有興趣的話，可以考慮一下在這個(gè)領(lǐng)域做一些研究，因?yàn)槟壳皝碚f并沒有某一種算法可以很好很完美地解決這些問題，也說明這個(gè)方向的研究的潛力還是比較大的。

其實(shí)不僅是一個(gè)問題，我把這類問題統(tǒng)稱為多模態(tài)問題——Multi-modal Problem.意思就是在解決問題的時(shí)候，我們需要不止一種機(jī)器學(xué)習(xí)的能力，還需要結(jié)合多種能力去實(shí)現(xiàn)。比如左邊那個(gè)VQA，就是我們給出一張圖片，任何的人可以去問一個(gè)問題，我們的模型要從圖片中去識(shí)別，針對我們問的問題給出一個(gè)合理的答案。

比如這個(gè)右上角有兩個(gè)寶寶，一個(gè)坐在冰箱里，一個(gè)在媽媽的懷抱里。那如果我們問這個(gè)孩子坐在哪？首先第一步要有一個(gè)情景識(shí)別的一個(gè)引擎去理解這個(gè)圖片，知道這圖片里面有什么，比如有孩子，他在干什么，他坐在什么上，坐在冰箱里或者坐在媽媽懷抱里。另外呢還要有一個(gè)模型能去理解我們的這個(gè)問句，這個(gè)問題是什么？問的是在哪里？不是問是誰也不是問怎么樣。而且對象是這個(gè)孩子，需要知道他在哪里坐著。這個(gè)例子等于需要兩個(gè)模型來解決我們的問題，一個(gè)理解圖，一個(gè)理解文字，還需要去匹配他們，它是一系列的不同的模型結(jié)合在一起，一個(gè)這個(gè)圖像的識(shí)別的引擎，加上一個(gè)NLPU識(shí)別的引擎，還有一個(gè)匹配引擎，一起去協(xié)作才能解決這個(gè)問題。這就是很典型的一個(gè)多模態(tài)問題。

右邊是Caption Generation的示例。 Caption Generation.就是根據(jù)圖像自動(dòng)生成一段描述該圖像的文本語言。上面的這兩張圖片左邊是一個(gè)女士在一個(gè)沙灘邊散步，根據(jù)我們不同的情況，，輸入了不同的訓(xùn)練文本，我們就可以生成一些話去描述這個(gè)情景，右邊是在公園也是一樣的，后面我可以詳細(xì)再聊一下機(jī)器是如何實(shí)現(xiàn)。

如果要想了解到機(jī)器學(xué)習(xí)每一步的發(fā)展，首先我們就要聊一聊一些為我們實(shí)現(xiàn)這個(gè)目的一些算法，也就是機(jī)器學(xué)習(xí)的圖像應(yīng)用的傳統(tǒng)方法。

曾經(jīng)的圖像處理- 傳統(tǒng)方法

首先我們要去做圖像處理的時(shí)候，機(jī)器去理解圖像的時(shí)候無法像人類一樣去讀取信息，我們必須要把它轉(zhuǎn)化成機(jī)器能理解的這些數(shù)據(jù)，那應(yīng)該怎么做呢？

首先我們就需要用一些濾波器從這圖片中提取信息，把模擬的信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。這些濾波器并不僅僅是使用在圖像處理這個(gè)領(lǐng)域，包括信號(hào)處理，還有一些其他語音處理中間都會(huì)使用。常見的濾波器有幾種，比如空間，傅里葉，還有小波濾波器等等，這幾種是比較常見的。

那如果我們想要去對圖像進(jìn)一步的利用，我們還需要什么呢？首先我們要能夠理解到這個(gè)圖片中間它到底是怎么回事，達(dá)到這個(gè)目的的方式，就是我們要從這個(gè)圖片中抓取一些特征，我們首先要設(shè)計(jì)這個(gè)特征。設(shè)計(jì)特征的方法有很多種，包括比如像SIFT，對稱特性還有HOG。

拿到所有圖片的特征以后，我們會(huì)做進(jìn)一步的處理，使用的傳統(tǒng)方法包括，比如SVM，AdaBoost，Bayesian等等。這些算法本身也不是圖像識(shí)別領(lǐng)域而獨(dú)有的，也是在長時(shí)間的過程中間，我們在不同的領(lǐng)域，包括語音LP我們都會(huì)去使用這種類似的方法。

大家會(huì)發(fā)現(xiàn)最終我們解決問題是可以歸納成一些比較統(tǒng)一的問題的，再進(jìn)一步的話我們需要做這個(gè)圖像對象的劃分，還有識(shí)別的時(shí)候，還有一些很經(jīng)典的一些算法。

這是一個(gè)非常好用也非常簡單的一個(gè)提取圖像特征的方法，叫做Edge Detection邊緣檢測，比如說左邊這張圖片是一個(gè)很多硬幣的照片，我們可以其中提取到整個(gè)硬幣的邊緣，還有它其中花紋的邊緣，這樣我們就把這個(gè)圖片的最重要的信息提取出來了。

這個(gè)叫Haar特征，Haar特征適用的場景會(huì)跟精確一些，整張圖片在不同的地方會(huì)有不同的灰度變化，Haar特征其實(shí)就是描述反應(yīng)灰度變化的。

它一般會(huì)分為幾種描述的特征，包括邊緣特征，線性特征，還有中心和對角的特征，這種特征會(huì)用黑和白來表示。一般定義的這種模板特征，白色減去黑色就是它的特征值相似和。整個(gè)Haar特征其實(shí)是反映這個(gè)圖片的灰度變化的。

可能有人就會(huì)問了，說那很多時(shí)候圖像的灰度變化并不完全是水平和垂直，所以Haar特征其實(shí)有一個(gè)進(jìn)化的算法就是Haar like呢就是加入了45度角這個(gè)特性。

不管如何，它是有限度的方向，所以這就引出來后面幾種算法，在Haar特征的解決不了問題或者效果不好的情況下，這些算法可以發(fā)揮效果。

比如像這種叫Local Symmetric局部對稱性算法。局部對稱性算法可以解決很多Haar特征提取效果不好的情況。它是根據(jù)我們一個(gè)對象的重心點(diǎn)的位置，越靠近重心點(diǎn)的越亮，越靠近邊緣的話越暗，用一個(gè)重心的這個(gè)特征去代表這個(gè)對象。很多圖片實(shí)際上是有一定的對稱性的，比如像我們拍照的人，拍攝的一些房子，在物理上它都是有對稱的特性的。所以利用這種局部特征對稱性，就很容易提取這些照片中的一些有效信息。

下面聊聊到一個(gè)非常經(jīng)典的算法叫尺度不變性，這里可能就要牽扯到一個(gè)尺度的概念。

什么是尺度？尺度空間其實(shí)是描述我們?nèi)藦倪h(yuǎn)到近看待事物的一個(gè)過程。比如我們看一片樹林，我們只能看到樹的輪廓，我們看不到每片葉子。但如果我們慢慢的靠近這個(gè)樹，我們就能看到每個(gè)葉片，甚至能看到兩片葉片的區(qū)別，看到葉片上的紋路是什么樣的。其實(shí)這整個(gè)的變化就是一個(gè)尺度的一個(gè)變化。

尺度不變特性的使用方式是，我們會(huì)在這個(gè)圖片上面去提取一些關(guān)鍵的尺度的點(diǎn)，在變化的時(shí)候，我們就嘗試用這些不變的點(diǎn)去做匹配，在每個(gè)方向向量上去獲得一些參數(shù)。然后利用這樣的情況我們就可以去識(shí)別一些角度或是旋轉(zhuǎn)之后都不太一樣的照片。即使這個(gè)圖片可能會(huì)有一些遮擋，只要它的尺度性的那個(gè)點(diǎn)沒有被遮蔽，我們一樣是可以去得獲得識(shí)別的這種效果的。

還有一種跟灰度有關(guān)的方法叫HOG方向梯度直方圖，它也是利用灰度的原理，把整個(gè)圖形分成很多塊，描述里面灰度變化最小的或者最大的。一般選用最小的方向。好處是它計(jì)算起來的成本比較靠譜的，比如這張圖上，人穿黑色的衣服，所以在黑色衣服上它的灰度變化最小一定是垂直的。到了旁邊白色背景可能就是水平的。利用它這個(gè)HOG的梯度圖的方向，很容易把這個(gè)人從背景中間區(qū)分出來。

這個(gè)和剛才我們聊到的海爾特征區(qū)別在于，它其實(shí)對整個(gè)圖像進(jìn)行了一個(gè)全面的一個(gè)掃描。我們對圖像進(jìn)行掃描以后，就可以清楚地得到一個(gè)圖像的灰度變化曲線。比如像這個(gè)圖上的人，一般情況下同樣一個(gè)類別的對象，他身上的灰度相對來說比較統(tǒng)一的。我們就把灰度變化最小的方向作為這個(gè)梯度的方向。這樣的話這個(gè)圖上的不同區(qū)間就會(huì)得到很好的劃分。比如像人那他從他的臂膀到他的腿，整個(gè)的話都是一個(gè)灰度，基本上是不變的，在人身上的梯度的方向就是垂直的。

背景由于打光的各種的原因，它的方向一般是比較分散的，在各個(gè)方向都有。這樣的話呢我們根據(jù)它梯度的變化方向，我們就可以把這個(gè)人從背景中很完美的摳出來，也就能識(shí)別到這個(gè)人。所以其實(shí)對象檢測整個(gè)過程呢就是第一是要設(shè)計(jì)這個(gè)特征，第二呢就是做分類。把兩個(gè)結(jié)合起來，我們就能實(shí)現(xiàn)對象檢測的這個(gè)目的。

在對象檢測之下，我們可能想要做分割，或者是其他的一些更高級(jí)一點(diǎn)的應(yīng)用，那我們應(yīng)該怎么辦呢？

有一些比較經(jīng)典算法，比如像分水嶺算法，它其實(shí)也是基于一個(gè)灰度的變換的。我們會(huì)對整個(gè)圖像進(jìn)灰進(jìn)行度掃描以后，可以把灰度深的地方想象成一個(gè)比較深的水溝，灰度淺的地方變成一個(gè)比較淺的水溝。在相鄰的兩個(gè)區(qū)域之間灰度聯(lián)通的地方，我們可以去建一個(gè)水壩把他們給隔開。大家可以想象一幅圖轉(zhuǎn)換成了好多不同盆地的曲線圖，然后我們慢慢往里面灌水。

應(yīng)該說所有區(qū)域都是分開的，雖然我們灌水的程度慢慢變多，總會(huì)有兩個(gè)相鄰的區(qū)域相對來說要變連通，那這種情況我們需要在其中建一個(gè)大壩，然后把這個(gè)本來要連起來的區(qū)域我們?nèi)藶楦糸_，然后我們繼續(xù)往里灌水，就會(huì)有新的區(qū)域又被聯(lián)通，然后我們再把它隔開。其實(shí)我們在放這個(gè)水壩隔開這個(gè)區(qū)域的時(shí)候，我們就把這個(gè)圖片上的一個(gè)區(qū)域給分開了，這就是分層與算法也非常巧妙。

還有一個(gè)做對象檢測的算法叫做ASM主觀形狀模型。

它就是把一個(gè)我們想要匹配對象的輪廓全部識(shí)別出來以后，進(jìn)行各種的形變。然后嘗試和我們一個(gè)想要去核對的一個(gè)目標(biāo)進(jìn)行匹配。但大家也能很容易想到說，有的時(shí)候我們往往兩個(gè)想要匹配的圖片并不完全是同樣一個(gè)方向的，他可能在側(cè)面或者說他的表現(xiàn)不一定完全一樣，這種情況下面這個(gè)模型就很容易失敗。這也是為什么很多傳統(tǒng)的圖像識(shí)別的方法的效果并不是特別好，而到了深度學(xué)習(xí)的興起以后，整個(gè)領(lǐng)域才變得這個(gè)突飛猛進(jìn)起來，因?yàn)樗褂脠鼍笆怯芯窒扌缘摹?/p>

下面我們聊一下關(guān)于深度學(xué)習(xí)的圖像處理，什么是深度學(xué)習(xí)？

圖像處理的爆發(fā)——深度學(xué)習(xí)

下面我們聊一下關(guān)于深度學(xué)習(xí)的圖像處理，什么是深度學(xué)習(xí)？

其實(shí)所謂深度學(xué)習(xí)就是深度神經(jīng)網(wǎng)絡(luò)，我們首先了解一下神經(jīng)網(wǎng)絡(luò)到底是怎么回事。

神經(jīng)網(wǎng)絡(luò)本身并不是一個(gè)全新的技術(shù)，它大概在三四十年前就存在了。我們?nèi)四X是是由一個(gè)神經(jīng)網(wǎng)絡(luò)來形成的，我們的各種神經(jīng)元激凸通過之間的互相的傳導(dǎo)信息，讓我們?nèi)丝梢匀ダ斫膺@個(gè)世界。那大家就在說我們有沒有可能去模擬這個(gè)過程，就有人發(fā)明了這個(gè)神經(jīng)網(wǎng)絡(luò)。

圖上左右邊其實(shí)都是非常簡單的神經(jīng)網(wǎng)絡(luò)，左邊是一個(gè)兩層的神經(jīng)網(wǎng)，這里大家注意一下，就是一般我們說神經(jīng)網(wǎng)絡(luò)時(shí)候是不算輸入層的，這里一個(gè)是兩層的神經(jīng)網(wǎng)絡(luò)，右邊那個(gè)是個(gè)三層的那最開始的一層，我們一般叫Input Layer輸入層，我們可以直接拿到結(jié)果的一般叫做Output Layer，就是輸出層。除了輸入和輸出場的都叫Hidden Layer隱藏層。

那是不是神經(jīng)網(wǎng)絡(luò)就是一個(gè)全新的東西？其實(shí)并不是的。如果大家熟悉邏輯回歸和支撐向量積的話可以試著匹配一下，會(huì)發(fā)現(xiàn)其實(shí)邏輯回歸和支撐向量是非常特殊例子上的單層的神經(jīng)網(wǎng)絡(luò)。

神經(jīng)網(wǎng)絡(luò)其實(shí)有的時(shí)候并沒有那么玄幻，它很多時(shí)候也是一步步隨著我們類去了解，去使用機(jī)器理解一些事物的過程中間慢慢的進(jìn)化出來。

剛才我們看到的這個(gè)神經(jīng)網(wǎng)絡(luò)是非常簡單的，那實(shí)際應(yīng)用中間我們?nèi)绻胍プ鲆粋€(gè)人臉匹配，比如像人臉門禁，我們需要的網(wǎng)絡(luò)是更復(fù)雜的，比如像上圖這樣。

它的input layer首先可能就有很多層，因?yàn)闉榱颂崛〔煌膱D片里面的特征，hidden layer整個(gè)的計(jì)算層又分很多層，可能不同的層中間還有不同的目的。有的時(shí)候識(shí)別病人特征，有的時(shí)候是去識(shí)別一些特殊的特征。整個(gè)output layer也可能分很多層，因?yàn)樗M(jìn)行一些數(shù)據(jù)擬合，然后分類結(jié)果的合成這樣一些東西。

其實(shí)神經(jīng)網(wǎng)絡(luò)并不僅僅有剛才我們就是看到的那些類型，，并不完全是一個(gè)金字塔型的。其實(shí)很多網(wǎng)絡(luò)的形式是有多樣性的。比如像上圖這個(gè)。它就是很多不同神經(jīng)網(wǎng)絡(luò)一個(gè)綜合的圖，包括感知器，應(yīng)該是最原始的神經(jīng)網(wǎng)絡(luò)樣子。其實(shí)我們還會(huì)有一些像梯形的神經(jīng)網(wǎng)絡(luò)，然后網(wǎng)狀的神經(jīng)網(wǎng)絡(luò)，矩形神經(jīng)網(wǎng)絡(luò)，這些都有屬于他們自己的名字，他們都能解決一些特定的問題。

傳統(tǒng)機(jī)器學(xué)習(xí)方法是去理解我應(yīng)該用什么樣的一個(gè)模型去解決問題，要什么樣的一個(gè)算法，是用支撐向量機(jī)還是用邏輯，大家想的是這個(gè)問題。

到了深度學(xué)習(xí)時(shí)代科學(xué)家們想的問題是我應(yīng)該要用什么網(wǎng)絡(luò)去解決問題，比如我選擇了一種網(wǎng)絡(luò)中介，我應(yīng)該怎么去細(xì)化這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)，每一層應(yīng)該怎么去設(shè)計(jì)，我的那個(gè)激活因子應(yīng)該選哪一個(gè)，是利用這種方式。其實(shí)思維模式是產(chǎn)生了變換，所以從傳統(tǒng)機(jī)器學(xué)習(xí)的人去轉(zhuǎn)換成一個(gè)學(xué)深度學(xué)習(xí)，有的時(shí)候他能夠重新利用的信息知識(shí)并沒有很多，所以深度學(xué)習(xí)往往是一個(gè)新的開始。

深度學(xué)習(xí)去做圖像類的應(yīng)用。它常用的一個(gè)網(wǎng)絡(luò)叫做卷積神經(jīng)網(wǎng)絡(luò)。那為什么叫卷積神經(jīng)網(wǎng)絡(luò)？為什么要使用卷積？

大家如果有一定數(shù)學(xué)基礎(chǔ)的話，可能會(huì)了解。我們使用卷機(jī)去對一個(gè)圖片進(jìn)行處理，其實(shí)是想要對這個(gè)圖片中的信息得到一個(gè)全方位的一個(gè)了解。就比如我想要去識(shí)別圖片上的一條狗，那他有可能在這個(gè)圖片的任何一個(gè)位置以任何一個(gè)大小任何一個(gè)角度來呈現(xiàn)。所以我想盡量多的去圖片上抓到可能的信息，那我就會(huì)采用卷積這種方式。

一般一個(gè)經(jīng)典的這個(gè)卷積神經(jīng)網(wǎng)絡(luò)圖是什么樣的？就是上圖這樣的。

首先會(huì)有卷積層，整個(gè)圖片的所有的信息獲取是來源于這個(gè)卷積層的（Convolution layer）。第二步我們會(huì)在學(xué)習(xí)過程中間要盡量的去減少數(shù)據(jù)量，因?yàn)槿绻覀儼褕D片整個(gè)Convolution layer出來的數(shù)據(jù)從頭帶到尾，不去做任何的降維的話，這個(gè)數(shù)據(jù)量是海量的，可能我們的機(jī)器根本就無法承載。而往往這個(gè)其中的很多信息在后續(xù)的學(xué)習(xí)中并沒有這么重要。那怎么辦？

我們就會(huì)采用一個(gè)叫池化層（Pooling Layer），在這過程中對我們一些矩陣進(jìn)行采樣，只使用其中的一些關(guān)鍵信息，或者把一些并不關(guān)鍵的信息給合并成一個(gè)比較關(guān)鍵的信息，把它作為特征值再進(jìn)行下一步傳遞。這樣的話呢就大大降低了我們整體的運(yùn)算量，也讓神經(jīng)網(wǎng)絡(luò)變得比較可行。

最后為了輸出結(jié)果，我們一般還會(huì)有一個(gè)叫全連接層（Full Connection Layer）。全連接層就是把之前所有層的信息進(jìn)行全部的連接，然后產(chǎn)生一個(gè)結(jié)果。有點(diǎn)相當(dāng)于我們在做邏輯回歸時(shí)的那個(gè)softmax。它其實(shí)是一個(gè)歷史遺留產(chǎn)物，是從經(jīng)典機(jī)器學(xué)習(xí)中間牽引過來的。所以現(xiàn)在也有很多人在挑戰(zhàn)這一點(diǎn)，說我們?yōu)槭裁葱枰粋€(gè)全連接層。往往在一個(gè)網(wǎng)絡(luò)中間，全連接層可能會(huì)占整個(gè)網(wǎng)絡(luò)中間80%的神經(jīng)元的量。它一大部分網(wǎng)絡(luò)是在生成一個(gè)結(jié)果。很多人就會(huì)在這說我們?yōu)槭裁匆@么做？我們能不能不要這個(gè)權(quán)力階層，這樣可以把這個(gè)網(wǎng)絡(luò)變得簡單很多。就會(huì)有人開始把全連接層的工作慢慢的分散在不同的層，分別去做。不是一次性的把所有層進(jìn)行連接，而在過程中間逐層的去做連接，去降維，去產(chǎn)生一定的中間結(jié)果。這也是現(xiàn)在很流行的一個(gè)趨勢。上圖是一個(gè)很經(jīng)典的一個(gè)CNN的圖，但已經(jīng)不是我們現(xiàn)在使用的圖的樣子。

在CNN之后非常聰明的科學(xué)家們就發(fā)現(xiàn)了很多可以更加優(yōu)化的點(diǎn)，所以CNN其實(shí)只是整個(gè)深度學(xué)習(xí)做圖像識(shí)別的一個(gè)起點(diǎn)，終點(diǎn)是應(yīng)該遠(yuǎn)遠(yuǎn)還沒有到。

CNN之后，大家想到了就是R-CNN，加入了Region Proposal Network（RPN）。大家可以這么理解，如果單純的用神經(jīng)網(wǎng)絡(luò)去識(shí)別圖片上的一些信息的話，它的起點(diǎn)其實(shí)是非常寬泛的，是以整個(gè)圖片作為單位的。如果我們能加一個(gè)局部的一個(gè)層，我們就可以把一些根本不需要目標(biāo)的區(qū)域給排除掉，可以提前縮小這個(gè)范圍。只讓這個(gè)模型在這個(gè)我們確定一定會(huì)有something happen的地方去進(jìn)行掃描，這樣的話再做后續(xù)的處理，就大大的降低了整個(gè)神經(jīng)網(wǎng)絡(luò)的運(yùn)算量，也讓速度變得很快。

RCNN之后也出現(xiàn)了很多其他的網(wǎng)絡(luò)，包括SPPNET，還有剛剛圖上的Faster-RCNN。這些都是我們在一步步地優(yōu)化網(wǎng)絡(luò)，不斷的往里面加一些東西。主要是為了兩個(gè)目的，一個(gè)是降低網(wǎng)絡(luò)的復(fù)雜度，提高運(yùn)算速度，第二就是提升結(jié)果，提高這個(gè)模型算法的適應(yīng)性。其實(shí)從CNN到Faster-RCNN都是同樣一種解決問題的思維方式，叫Detection對象識(shí)別的方式。Faster-RCNN出現(xiàn)以后，有一個(gè)非常天才的人想到，也是他發(fā)明的CNN和Faster-RCNN的科學(xué)家。他就想到我們是不是一定要用對象識(shí)別的方式去解決這個(gè)問題，我們有沒有可能回歸到最初用分類的方式Classification去解決問題，比如對象檢測這種問題。

最后呢他就想到了一種新的算法叫YOLO。這就有趣了，我們當(dāng)時(shí)把這些問題分類，把分割分類，對象識(shí)別問題都拆分開，是希望可以讓算法更好的為我們服務(wù)，讓某一類型的算法模型解決一個(gè)類型的問題達(dá)到更好的效果。但隨著技術(shù)的發(fā)展，硬件資源的提升，我們可能發(fā)現(xiàn)之前走不通的路變成了可能。也許大自然的規(guī)律就是如此，一切都是循環(huán)往復(fù)。

接下來談一下在有了一個(gè)模型算法以后，應(yīng)該如何做應(yīng)用。

講幾個(gè)騰訊云這邊支持過的AI應(yīng)用的例子。首先是五四青年的活動(dòng)，它是圖像匹配應(yīng)用的一個(gè)活動(dòng)例子。那這個(gè)整個(gè)的流程大概是怎么進(jìn)行的？首先我們會(huì)有一些標(biāo)簽好的數(shù)據(jù)，就是一些民國的人物圖，包括他們的一些名稱。然后我們會(huì)把這些東西送我們的模型去訓(xùn)練，機(jī)器會(huì)對圖片本身進(jìn)行一個(gè)相當(dāng)于數(shù)據(jù)項(xiàng)量化的一個(gè)提取，把圖片轉(zhuǎn)換成數(shù)據(jù)向量，再用我們剛才的一些特征提取的方式把其中的特征提取出來。然后和標(biāo)簽匹配在一起以后，就會(huì)用我們的算法訓(xùn)練產(chǎn)生一個(gè)模型。用戶在用的時(shí)候，比如小程序，可以上傳我們的照片，我們的模型就會(huì)從我們的照片里面提取特征值，然后和本來預(yù)存的這些已經(jīng)訓(xùn)練好的數(shù)據(jù)進(jìn)行各種匹配。最后返回的結(jié)果一般是這種詞典形式的，會(huì)有一個(gè)分類的ID加上一個(gè)置信度分?jǐn)?shù)。

這個(gè)分?jǐn)?shù)我們一般稱之為置信度，但它其實(shí)并不是直接能代表它的準(zhǔn)確度。假設(shè)我們返回來的數(shù)據(jù)是0.8，它是一類。然后0.7是二類這樣。并不是說它們加起來總和是一，有80%可能性它是第一類的。這個(gè)只是代表我們對他比較確信，所以一般我們會(huì)返回確信度最高的那個(gè)分類作為它的主分類，然后前端上面就會(huì)去搜索這個(gè)分類上的照片，把它顯示給大家，這就是整個(gè)這個(gè)應(yīng)用的流程。

第二個(gè)應(yīng)用也比較流行：人臉融合的一個(gè)應(yīng)用。類似軍裝照這類，但它使用的方式和思維模式是截然不同的。

首先我們會(huì)有一個(gè)模板圖，還會(huì)有大家上傳的照片圖。前一半是處理我們用戶上傳的照片，后一半做我們兩個(gè)照片的融合。大家上傳完照片以后，我們的模型會(huì)對人臉的關(guān)鍵點(diǎn)進(jìn)行一個(gè)定位，但往往大家上傳的照片的這個(gè)角度或者圖片并不是正中的，有可能左30度角右30度角。這種情況我們會(huì)對圖片進(jìn)行一定程度的旋轉(zhuǎn)，讓它達(dá)到居中。下一步我們會(huì)把人臉非常完整的摳出來，再和我們的模板圖進(jìn)行一個(gè)匹配。而這個(gè)匹配只是初步的匹配，它只是看起來好像是兩個(gè)東西合成一個(gè)了，但實(shí)際上圖片的邊緣，包括色差光影都并不完美。

很多的工作其實(shí)是在最后一步——圖片校正。在這個(gè)領(lǐng)域要把兩個(gè)圖片要調(diào)成同樣色調(diào)，光線也要重新調(diào)整，其他的一些細(xì)節(jié)我們都會(huì)去做一些調(diào)整。

經(jīng)過這一系列完整的過程，我們就可以擁有一個(gè)非常完美的人臉融合的照片。

另外一個(gè)應(yīng)用是我之前提到的一些照片，比如給出一個(gè)圖片，最后摘取了一段文字的。

圖上這個(gè)是我之前在斯坦福的時(shí)候做的一個(gè)項(xiàng)目，就是給出一個(gè)圖片以后，我們會(huì)根據(jù)這個(gè)圖片講一段故事，這個(gè)可以幫助一些像有抑郁癥的孩子，或是一些老人。我們可以傳個(gè)圖片，然后我們的story teller就會(huì)生成一段故事。而且這個(gè)故事是非常符合情景的，能夠反映圖片上的信息的。這就是一個(gè)多模態(tài)應(yīng)用的一個(gè)例子。

整個(gè)這個(gè)項(xiàng)目中間基本上都是無監(jiān)督學(xué)習(xí)。這里跟大家聊一下監(jiān)督有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)。

比如我們?nèi)四樒ヅ涞倪@些應(yīng)用，其實(shí)它都是一個(gè)有監(jiān)督學(xué)習(xí)，我們模型在生成的時(shí)候都是有已經(jīng)標(biāo)注好的數(shù)據(jù)去生成的這個(gè)模型。

像這個(gè)應(yīng)用的話，除了我們的文字庫訓(xùn)練的時(shí)候用的是一個(gè)有監(jiān)督的，其他比如圖片的理解什么都是無監(jiān)督的，所以它的適用場景是非常廣泛的。而通過我們調(diào)整輸入文本的不同的類型，比如我們的文本庫，從浪漫小說改成科幻小說，那我們的文本生成器生成的文本就會(huì)從浪漫范變成了一個(gè)科幻范，它的靈活性彈性是非常強(qiáng)的。

這后面有幾個(gè)例子，像剛才兩張照片，一個(gè)是在在海邊散步的，還有公園的。底下的文字都是非常完美的反映了圖上的情景，還有寫詩一樣的意境在。

那如果大家想要去做一些研究，去了解最新的計(jì)算機(jī)視覺，或者是其他的整個(gè)機(jī)器學(xué)習(xí)人工智能領(lǐng)域一些東西，我應(yīng)該去哪里去看？除了看公眾號(hào)以外，有沒有一些更專業(yè)的地方？

那這里跟大家推薦一個(gè)很好的論文庫，叫Arxiv。這個(gè)論文庫跟我們平常的這些論壇期刊有什么不同呢？Arxiv上面所有的論文都是最新的。這個(gè)論文庫之所以存在，其實(shí)是因?yàn)楹芏嗟目茖W(xué)家他們在研究出來一個(gè)東西以后，由于期刊發(fā)表或者會(huì)議發(fā)表的審稿周期的很長。他們研究的東西還沒有讓全世界人知道之前，就有人也在同樣的時(shí)候差不多時(shí)間也研究出來了，早他們一步發(fā)表。這樣的話他們一下子從全世界第一個(gè)發(fā)現(xiàn)第一個(gè)做好的人變成了一個(gè)追隨者。

所以康奈爾大學(xué)就支持了這個(gè)project，這是一個(gè)讓大家可以第一時(shí)間不經(jīng)過復(fù)雜的審稿機(jī)制，就可以發(fā)表自己論文的地方，就是這個(gè)Arxiv數(shù)據(jù)庫。所有人都可以訪問，沒有密碼也不需要錢。而且大家不用擔(dān)心上面的論文的質(zhì)量，都是非常高的。在上面發(fā)表論文的很多科學(xué)家都是世界最頂級(jí)的科學(xué)家，他們把所有論文都丟進(jìn)去就是希望讓全世界人知道我是第一個(gè)把這東西做出來的。

我最近讀到一篇非常有意思關(guān)于無人駕駛的論文。我們知道全世界范圍內(nèi)，做無人駕駛的公司一般有兩種流派，一種是用激光雷達(dá)，還有一種呢是堅(jiān)信不用激光雷達(dá)，單純的用機(jī)器視覺的方式，我們就可以實(shí)現(xiàn)這個(gè)目的。因?yàn)榧す饫走_(dá)成本還是比較高的，所以但很多車廠在使用激光雷達(dá)的時(shí)候還是非常的謹(jǐn)慎。一旦裝了激光雷達(dá)車的價(jià)格就會(huì)很高，那銷量就很難提高上去，所獲得數(shù)據(jù)量也會(huì)受到影響。

特斯拉是非常堅(jiān)定支持不用激光雷達(dá)的，它也是世界上目前生產(chǎn)有L3或者以上潛力的無人駕駛能力汽車最多的一個(gè)公司。他當(dāng)時(shí)不使用激光雷達(dá)，原因就是馬斯克是堅(jiān)定地覺得不使用激光雷達(dá)的機(jī)器識(shí)別的算法也是實(shí)現(xiàn)的。目前看來是有可能的，我們要使用激光雷達(dá)是想要實(shí)現(xiàn)一個(gè)什么目的？是希望得到整個(gè)汽車運(yùn)行場景的一個(gè)鳥瞰圖。比如從上往下看，我們周圍的對象在什么位置？它的大小是怎么樣？激光雷達(dá)由于它本身的掃描特性和在車頂?shù)倪@個(gè)高度，它是可以得到一個(gè)多維度的一個(gè)場景的繪制圖。

而如果是一張單純的照片，就像我們攝像頭車上攝像頭拍的照片，它只是一個(gè)二維的圖，本質(zhì)上來說是得不到距離的信息的和東西相對之間距離的。

那有沒有方法可以幫助我們從一個(gè)二維圖中獲得三維地址信息呢？這篇論文就非常有意思地闡述了一個(gè)算法，就是去模擬人眼去理解二維圖的方式。比如我們?nèi)巳タ磦€(gè)二維圖的時(shí)候，其實(shí)我們能夠把它想象成一個(gè)三維圖的。我們會(huì)根據(jù)一個(gè)圖片的景深和他們物體之間的形變，在腦子中間會(huì)對這個(gè)圖片上的對象進(jìn)行三維建模。雖然我們看的是二維的，但在我們腦中它其實(shí)形成了一個(gè)三維的形象，這個(gè)算法就是模擬。

它其中的關(guān)鍵點(diǎn)是一個(gè)叫正交變換。就是他會(huì)拿了一張圖以后，利用幾何學(xué)的一些方式，從中去提取特性，然后把兩個(gè)相鄰的對象之間的距離關(guān)系和位置關(guān)系給模擬出來。

上面這幾張圖相當(dāng)于是其中一些過程，大概的意思就是說先提取所有東西之間相對位置的一些信息，然后利用這個(gè)位置信息倒推出，它如果在三維圖上的位置應(yīng)該是怎么樣的？其中分分了大概四個(gè)步驟，這種方式目前的效果是超過了業(yè)界使用2D圖模擬3D圖的算法叫Mono3D。

這個(gè)OFT的方法目前的性能是全面的已經(jīng)超過Mono3D，我覺得這個(gè)算法的應(yīng)用可能會(huì)為用2D攝像頭的無人駕駛汽車公司技術(shù)實(shí)現(xiàn)一個(gè)小飛躍。

上圖是一個(gè)比較圖，不包括剛才我提到的OFT的算法。是目前所有2D實(shí)現(xiàn)3D模擬圖的算法的性能，但目前為止，OFT超越了這里面所有的算法。

解析云端AI能力支撐

剛才我們聊了很多的這種機(jī)器學(xué)習(xí)圖像方面的一些算法，包括傳統(tǒng)的和深度的。那如果我們想要擁有或者自己可以搭建一個(gè)機(jī)器視覺的應(yīng)用，不管是小程序，還是網(wǎng)站什么的，我們需要什么？

只有算法模型是遠(yuǎn)遠(yuǎn)不夠的。像我們剛才聊到的朋友圈爆款產(chǎn)品的背后，其實(shí)是由我們整個(gè)的云網(wǎng)絡(luò)在支撐的。我們使用了很多云上的一些組件和一些技術(shù)服務(wù)去支撐我們整個(gè)活動(dòng)。包括我們使用SCD去做DNS的分發(fā)，ERB去做負(fù)載均衡。包括虛擬機(jī)去支撐我們的使用量，還有GPU，去快速的跑我們的模型。我們所有的數(shù)據(jù)會(huì)存在cos的對象存儲(chǔ)里，所有的虛擬集群都是自動(dòng)可伸縮的。這就是我們整個(gè)云上去實(shí)現(xiàn)一個(gè)應(yīng)用的背后的例子。

實(shí)際上大家看到的很多的應(yīng)用只是在水面上的冰山的那個(gè)一角，但能夠讓我們很流暢的去使用應(yīng)用，更多的是因?yàn)樵诒澈笪覀兛床坏降牟糠?。其?shí)我們做了很多的工作，包括跨地域的負(fù)載均衡，因?yàn)槌丝紤]到全國各地的用戶之外還要考慮海外的用戶。同時(shí)我們做了動(dòng)態(tài)的擴(kuò)容，還有各種防雪崩的機(jī)制。在我們的服務(wù)熱點(diǎn)期過了以后，我們會(huì)逐次的降級(jí)，把一些不用的機(jī)器給釋放掉，這也可以是降低成本。

這就是我們支撐一個(gè)爆款應(yīng)用上線和下線的整個(gè)過程背后的機(jī)制。

再來介紹一下我們騰訊云的人工智能產(chǎn)品的矩陣。我們大概分幾個(gè)不同的領(lǐng)域，包括像人臉（計(jì)算機(jī)視覺）。這個(gè)里面包括人臉和聲，身份證識(shí)別，還有各種基于場景的，比如智能門禁物流。語音領(lǐng)域，我們也有ASR（語音-文字）和TTS（文字-語音）的能力。底層我們會(huì)有積極學(xué)習(xí)的平臺(tái)，還有大數(shù)據(jù)的平臺(tái)去支撐?；A(chǔ)建設(shè)就包括我們剛才提到的CPU、GPU，還有FPGA的各種服務(wù)器，還有我們裸金屬的這個(gè)黑石的服務(wù)器。所以大家如果在開公司創(chuàng)業(yè)時(shí)候，想要去很快的搭建底層的這些技術(shù)能力，使用它們?nèi)プ瞿愕腁PP，其實(shí)使用云服務(wù)是最快，也是目前最流行的方式。

我們目前計(jì)算機(jī)視覺的產(chǎn)品呢大概分四類，其中包括云智的慧眼，它是實(shí)名認(rèn)證的身份核驗(yàn)的產(chǎn)品。神圖是關(guān)于多場景的人臉的識(shí)別，比如考勤簽到，還有我們支付用的人臉支付。明視是OCR的結(jié)構(gòu)化，它包括我們的身份證識(shí)別，銀行卡識(shí)別名片識(shí)別這些。魔鏡主要是內(nèi)容審核，比如識(shí)別各種視頻圖片的鑒黃鑒恐鑒暴等敏感信息。這就是我們產(chǎn)品的一個(gè)舉證。

介紹一下幾個(gè)例子，比如大家平時(shí)會(huì)用到人臉付款，或者去一些政府部門去簽到等等都會(huì)用到。

圖上這是1比N的一個(gè)人臉檢測。這個(gè)場館領(lǐng)域，可以去尋找走失人口，或是運(yùn)用在一些公安體系上。這個(gè)就類似在海量人中間去匹配少量的人，即1：N的人臉?biāo)惴Ｐ?。目前的場景使用也非常多?/p>

OCR我就不細(xì)說了，像快遞單這些，我們大家每天都會(huì)用到，基本上是已經(jīng)離不開了。

除此之外我們還有一個(gè)私有化的視頻管理平臺(tái)，叫云智平臺(tái)（TIMatrix）。它是針對各種智能樓宇園區(qū)的一個(gè)產(chǎn)品。它可以幫助一個(gè)主題公園，一個(gè)廠區(qū)或者一個(gè)公司快速地搭建起一整套的視頻監(jiān)控體系。我們背后也有各種的A.I.引擎去做大數(shù)據(jù)的分析，客戶畫像熱力圖等等非常適合to B的一些場景。

技能進(jìn)階建議

然后聊完我們今天這些話題以后，可能有些小伙伴會(huì)問如果我想要做一些東西，但目前好像會(huì)的并不是很多的話，我應(yīng)該怎么樣去學(xué)習(xí)？這里會(huì)給出一些小建議小tips

我們可以把AI領(lǐng)域分成幾層。首先是算法，這大家都知道，我們要怎么樣寫模型，怎么樣去選擇不同的神經(jīng)網(wǎng)絡(luò)，怎么樣去用傳統(tǒng)機(jī)器學(xué)習(xí)方法，怎么樣去做Feature Design，怎么樣去把這個(gè)模型給搞出來，這是算法研究方向。

其實(shí)這個(gè)并不是完整的A.I.的版圖的樣子，只是有算法離落地AI場景其實(shí)還有非常遠(yuǎn)的距離。有了算法以后我們還需要什么？我們需要有工程實(shí)踐，就要把一個(gè)算法可以真的變成一個(gè)能用的東西，不管是一個(gè)服務(wù)是個(gè)微服務(wù)，還是一個(gè)SARS軟件還是一個(gè)客戶端軟件。我們需要有這個(gè)轉(zhuǎn)換的過程，但工程實(shí)踐其實(shí)非常的吃人力，它需要的人力其實(shí)是比算法更多的。

然后再上一層就是我做出了一個(gè)東西之后，那怎么去定義它，怎么做市場推廣，怎么做產(chǎn)品定義。我把這一步叫做AI產(chǎn)品開發(fā)及應(yīng)用，這也是另外一層。

其實(shí)大家如果想要進(jìn)入AI領(lǐng)域，并不完全只能靠搞算法這條路，從工程實(shí)踐和產(chǎn)品開發(fā)及應(yīng)用的領(lǐng)域，大家一樣是有這個(gè)潛力和機(jī)會(huì)可以進(jìn)入AI這個(gè)領(lǐng)域的。

針對不同領(lǐng)域的人的話，我的建議是首先是，如果大家想搞AI算法的話，需要打好數(shù)學(xué)基礎(chǔ)，積累算法的理論知識(shí)是必不可少的。同時(shí)還要鍛煉自己對新學(xué)術(shù)的一些成果的快速理解和吸收的能力。不管是論文期刊，還是剛剛提到的論文庫。都需要有快速的讀論文，理解論文，把算法簡單地從模型給實(shí)現(xiàn)出來的這個(gè)能力。

如果是想從工程實(shí)踐方向著手，就需要鍛煉邏輯算法封裝的能力。比如別人給了你預(yù)算，怎么樣能快速很好的把它部署成一個(gè)服務(wù)，而且可以承載海量的訪問量和吞吐量。同時(shí)還要比較好的模型訓(xùn)練和優(yōu)化的能力，這個(gè)都是可以從工程實(shí)踐角度去著手提高自己的部分。

從產(chǎn)品角度話，如果想做一個(gè)AI的產(chǎn)品經(jīng)理，更多時(shí)候是要提高對AI產(chǎn)品場景和應(yīng)用的理解，去提升自己對復(fù)雜系統(tǒng)的構(gòu)建和和理解能力。由于人工智能的產(chǎn)品和場景和傳統(tǒng)的產(chǎn)品和場景是不太一樣的。我們理解的維度和角度其實(shí)是有很大的區(qū)別的。很多時(shí)候，傳統(tǒng)的產(chǎn)品經(jīng)理想要進(jìn)入領(lǐng)域，需要對自己的很多固有觀念進(jìn)行一個(gè)更新，甚至是完全推翻重來。

舉個(gè)簡單的例子來說，比如當(dāng)時(shí)國際巨頭在想要進(jìn)入AI領(lǐng)域去做智能交互，他們都從不同的角度進(jìn)行切入。像蘋果當(dāng)時(shí)做了siri智能助手，谷歌則是做了Google Assistant嵌入到了一個(gè)當(dāng)時(shí)美國很流行的溫度的控制器上面。微軟是從操作系統(tǒng)著手，把？？加入到了Windows操作系統(tǒng)里面，但事實(shí)證明這些都并不是很成功。最成功的是亞馬遜，它做了一款智能音箱，也是目前全世界第一款智能音箱，叫Amazon Echo。從此開啟了AI到底如何跟人交互的答案。其實(shí)這么多全球巨頭在尋找一個(gè)場景的時(shí)候，花了多少時(shí)間，走了多少彎路，所以很多時(shí)候?qū)σ粋€(gè)AI產(chǎn)品的定義是可以直接決定他的這個(gè)產(chǎn)品的最終的結(jié)局和生死的。

所以如果大家想往AI產(chǎn)品方面去發(fā)展轉(zhuǎn)，這里面的空間也非常大，有很多的資料可以去學(xué)習(xí)，有很多的場景可以去考慮，有很多國家的公司的一些競品可以去研究。，我覺得這都是非常有意思的。

如果從技術(shù)角度入門的話，可以參考右邊這張圖。這個(gè)是比較常見的機(jī)計(jì)算機(jī)視覺的各種庫，包括open cv，大家只要接觸過一段時(shí)間都會(huì)用到的。中間一層是各種機(jī)器學(xué)習(xí)的框架，包括谷歌，Tensorflow，亞馬遜支持的MX net，F(xiàn)acebook目前的是Caffe。底層就是各種的不同的進(jìn)一步的數(shù)學(xué)庫。

關(guān)于課程的話，計(jì)算機(jī)視覺領(lǐng)域我有幾門比較推薦的課程。首先CS131，231A，231N。這幾個(gè)都是斯坦福機(jī)器學(xué)習(xí)實(shí)驗(yàn)室一系列的課程。這個(gè)課程的老師是李飛飛教授，他的這些課程是非常系統(tǒng)的，如果從頭到尾大家去學(xué)一遍的話，會(huì)對計(jì)算機(jī)視覺整個(gè)領(lǐng)域有一個(gè)清楚的脈絡(luò)的認(rèn)識(shí)，非常好。

而且很多的課程它是在網(wǎng)上是開源的，都可以免費(fèi)可以看到，可能有些作業(yè)什么的不一定開源，但是基本上大家想搜都是可以拿到。其他還有一些網(wǎng)站，我覺得是非常好的資源匯總的地方。它把很多不同的資源放到了一個(gè)像維基百科一樣的地方，大家可以快速的去找。

推薦PPT上的這幾本書給喜歡讀書的小伙伴們：

Computer Vision: Algorithms and Application

Computer Vision: Models, Learning, and Inference

Multiple View Geometry in Computer Vision

前兩本書其實(shí)不是一個(gè)系列的，只是名字有點(diǎn)像是兩個(gè)不同人寫的，第一個(gè)相對來說比較系統(tǒng)，第二個(gè)會(huì)比較深入一些。第三本書書是從另外一個(gè)維度，更多的牽涉到一些數(shù)學(xué)的知識(shí)。大家有興趣的話都可以借來看一看。

Q&A環(huán)節(jié)

Q：有人問激光雷達(dá)在識(shí)別技術(shù)上跟計(jì)算機(jī)視覺技術(shù)上有沒有什么區(qū)別，哪個(gè)技術(shù)在應(yīng)用上能夠更準(zhǔn)確一些？

A：首先激光雷達(dá)LiDAR在識(shí)別技術(shù)上跟計(jì)算機(jī)視覺是有很大區(qū)別的。激光雷達(dá)由于雷達(dá)的特性，它很容易把整個(gè)周圍場景的3D圖給建模出來，這部分對算法的要求并沒有那么高，整個(gè)雷達(dá)技術(shù)已經(jīng)是很成熟的。利用這種激光雷達(dá)，可以快速地把周圍的場景3D的建模出來。但是如果我們想用一個(gè)2D的圖片從中去獲得3D的信息，這個(gè)就得純靠算法。這里面的難度和整個(gè)的工作量就會(huì)很大。從目前的情況上來看，激光雷達(dá)更準(zhǔn)確。畢竟它的造價(jià)很高，而且它可以直接達(dá)到識(shí)別的目的。我們用2D建3D模的方式，很多時(shí)候是一個(gè)曲線救國，是一個(gè)間接的方法。激光雷達(dá)是一個(gè)直接的方法，所以目前來說激光雷達(dá)是更好的。但我覺得最終2D的方法也會(huì)慢慢的接近激光雷達(dá)效果。

Q: 嘉賓能不能為我們簡單分析一下，計(jì)算機(jī)視覺技術(shù)，未來的市場會(huì)是什么樣子的？

A: 從我的理解上來看，首先計(jì)算機(jī)視覺應(yīng)用目前是屬于逐漸成熟的階段。大家可能會(huì)了解到，所有的技術(shù)從萌芽到最后被廣泛使用，都會(huì)經(jīng)歷一個(gè)Hyperloop曲線。計(jì)算機(jī)視覺已經(jīng)到了趨向于成熟的階段，它會(huì)慢慢涉及到我們生活的各個(gè)方面?；旧先四X可以通過我們的視覺去理解的東西，計(jì)算機(jī)視覺慢慢都可以代替，這個(gè)的潛力是非常大的。而且它的顛覆已經(jīng)開始了，所以我覺得未來在5到10年之內(nèi)，它能夠顛覆的領(lǐng)域會(huì)非常多的，很有潛力。

Q: 除了剛剛說的一些獨(dú)立的應(yīng)用場景，然后我們知道騰訊有一些通用印刷體識(shí)別和通用手寫體識(shí)別，因?yàn)橄襁@種關(guān)于手寫體的識(shí)別的話，它具體是怎么樣進(jìn)行對它進(jìn)行識(shí)別的？

A: 其實(shí)本質(zhì)上這種識(shí)別類的應(yīng)用都是類似的。首先我們會(huì)輸入很多海量不同的手寫體文字。比如我們想要識(shí)別數(shù)字一的時(shí)候，我們訓(xùn)練集中會(huì)全世界不同的人用各種方式，各種筆寫的數(shù)字一。然后等我們模型訓(xùn)練好以后，我們就會(huì)進(jìn)行各種Classification去匹配，去分類。

由于我們有海量的數(shù)據(jù)，加上我們模型會(huì)有很強(qiáng)的適應(yīng)性，所以大家基本上不管怎么寫我們都是可以識(shí)別出來這個(gè)文字的。

Q:騰訊有圖片標(biāo)簽識(shí)別的功能，那有沒有場景識(shí)別功能，呢比如說像火災(zāi)檢測，看看工人有沒有安戴安全帽之類的場景，有沒有這一塊相關(guān)的業(yè)務(wù)是這樣的？

A:我們騰訊云提供了很多最核心的基礎(chǔ)能力，包括圖片的標(biāo)簽識(shí)別這樣的一個(gè)能力。.那這個(gè)能力在具體的場景中間可以使用的方式是非常多的。這里提到的火災(zāi)檢測，是一個(gè)非常細(xì)分的場景，安全帽這個(gè)對象也是很特殊的一個(gè)對象。從技術(shù)上來說我們都是可以實(shí)現(xiàn)的。更多的時(shí)候是說從商業(yè)上來看客戶的需求量有多大，訓(xùn)練集及是否充沛，這些問題解決的話，原理上來說都是可以實(shí)現(xiàn)的。

干貨下載：添加微信好友“5834434”（必須備注“機(jī)器視覺：學(xué)校/公司+研究方向”，否則無法通過驗(yàn)證），合作交流或獲取機(jī)器視覺教程，行業(yè)報(bào)告等資源，持續(xù)更新中。。。

熱門文章推薦

回復(fù)下面數(shù)字或直接點(diǎn)擊，獲取相關(guān)文章：

001：計(jì)算機(jī)視覺領(lǐng)域研究資源及期刊、會(huì)議介紹

002：德國kuka機(jī)器人與世界冠軍乒乓對決

003：120圖勾勒全球AI產(chǎn)業(yè)完整圖譜!

004：Facebook 開源計(jì)算機(jī)視覺系統(tǒng)，從像素水平理解圖像（附論文及代碼）

005：想成為機(jī)器學(xué)習(xí)工程師？這份自學(xué)指南你值得收藏

006：十一種通用濾波算法

007：圖像處理與計(jì)算機(jī)視覺基礎(chǔ)，經(jīng)典以及最近發(fā)展

008：機(jī)器人行業(yè)深度報(bào)告（完整版）

009：從洗衣妹到谷歌首席科學(xué)家，她靠孤獨(dú)改變了人工智能界！

010：工業(yè)級(jí)機(jī)器視覺行業(yè)研究報(bào)告

011：雙遠(yuǎn)心工業(yè)鏡頭的原理簡述

012：如何裝備一個(gè)學(xué)術(shù)型的 iPad ？

013：機(jī)器視覺系統(tǒng)概述

014：德國工匠：我們沒有“物美價(jià)廉”的東西

015：為什么最好的機(jī)械臂是7個(gè)自由度，而不是6個(gè)？

016：史上最給力的技術(shù)視頻！

017：機(jī)器人10大流行編程語言對比，你掌握了哪種？

018：新奇復(fù)雜機(jī)械原理圖！

019：機(jī)器人控制系統(tǒng)相關(guān)知識(shí)大匯集020：機(jī)器人的工作原理，史上最詳細(xì)的解析！

021：光源選型知識(shí)點(diǎn)022：這才是機(jī)械手，這才是自動(dòng)化，你那算什么？023：攝像機(jī)和鏡頭的基礎(chǔ)知識(shí)024：物聯(lián)網(wǎng)產(chǎn)業(yè)鏈全景圖（附另13大電子行業(yè)全景圖，必收藏）025：日本到底強(qiáng)大到什么地步？讓人窒息！看后一夜未眠026：德國機(jī)械用行動(dòng)驚艷全世界：無敵是多么寂寞

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30947

瀏覽量
269213
計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
46005

原文標(biāo)題：騰訊AI技術(shù)專家教你從0到1學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)

文章出處：【微信號(hào)：www_51qudong_com，微信公眾號(hào)：機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

機(jī)器視覺與計(jì)算機(jī)視覺的關(guān)系簡述

。計(jì)算機(jī)視覺是一門獨(dú)立的學(xué)科，有著30年左右的歷史，集圖像處理、模式識(shí)別、人工智能技術(shù)為一體，著重服務(wù)于一幅或多幅圖像的計(jì)算機(jī)分析。機(jī)器視覺

發(fā)表于 05-13 14:57

讓機(jī)器“看見”—計(jì)算機(jī)視覺入門及實(shí)戰(zhàn) 第二期基礎(chǔ)技術(shù)篇

過優(yōu)異成績。其主要的興趣是關(guān)注人工智能特別是計(jì)算機(jī)視覺技術(shù)如何從技術(shù)、產(chǎn)品和商業(yè)角度在真實(shí)世界中大規(guī)模落地。主題簡介及亮點(diǎn)：本次直播，講者將

發(fā)表于 09-04 17:56

請問計(jì)算機(jī)視覺與深度學(xué)習(xí)要看什么書？

計(jì)算機(jī)視覺與深度學(xué)習(xí)，看這本書就夠了

發(fā)表于 05-21 12:43

學(xué)習(xí)計(jì)算機(jī)視覺的建議有哪些

初學(xué)計(jì)算機(jī)視覺的切身建議

發(fā)表于 06-18 10:12

深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺簡介

文章目錄1 簡介1.1 深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計(jì)算機(jī)

發(fā)表于 12-23 06:17

基于OpenCV的計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)

基于OpenCV的計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)OpencV是用來實(shí)現(xiàn)計(jì)算機(jī)視覺相關(guān)技術(shù)的開放源碼工作庫，是

發(fā)表于 11-23 21:06 ?0次下載

計(jì)算機(jī)視覺零基礎(chǔ)入門

那么這個(gè)爆款應(yīng)用的背后用到了哪些計(jì)算機(jī)視覺技術(shù)？掌握這些技術(shù)需要通過哪些學(xué)習(xí)路徑？

發(fā)表于 05-31 10:44 ?9266次閱讀

計(jì)算機(jī)視覺的發(fā)展歷史_計(jì)算機(jī)視覺的應(yīng)用方向

計(jì)算機(jī)視覺40多年的發(fā)展中，盡管人們提出了大量的理論和方法，但總體上說，計(jì)算機(jī)視覺經(jīng)歷了4個(gè)主要?dú)v程。即：馬爾計(jì)算

發(fā)表于 07-30 17:21 ?7370次閱讀

計(jì)算機(jī)視覺入門指南

出現(xiàn)，且它們可以集成到移動(dòng)應(yīng)用中。今天，由于其廣泛應(yīng)用和巨大潛力，計(jì)算機(jī)視覺成為最熱的人工智能和機(jī)器學(xué)習(xí)子領(lǐng)域之一。其目標(biāo)是：復(fù)制人類視覺

發(fā)表于 11-27 09:52 ?2855次閱讀

計(jì)算機(jī)視覺識(shí)別是如何工作的？

計(jì)算機(jī)視覺識(shí)別是一種人工智能技術(shù)，旨在使計(jì)算機(jī)系統(tǒng)從數(shù)字圖像、視頻等視覺信息中識(shí)別和提取有意義信

發(fā)表于 02-09 13:41 ?3813次閱讀

計(jì)算機(jī)視覺中的九種深度學(xué)習(xí)技術(shù)

計(jì)算機(jī)視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而，深度學(xué)習(xí)方法正在針對某些特定問題取得最新成果。在最基本的問題上，最有趣的不僅僅是深度學(xué)習(xí)模型的表現(xiàn);事實(shí)上，單個(gè)模型可以

發(fā)表于 08-21 09:56 ?618次閱讀

計(jì)算機(jī)視覺的主要研究方向

計(jì)算機(jī)視覺（Computer Vision, CV）作為人工智能領(lǐng)域的一個(gè)重要分支，致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等

發(fā)表于 06-06 17:17 ?987次閱讀

深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)作為其中的核心技術(shù)之一，已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著的成果。計(jì)算機(jī)

發(fā)表于 07-01 11:38 ?822次閱讀

計(jì)算機(jī)視覺與人工智能的關(guān)系是什么

引言 計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)

發(fā)表于 07-09 09:25 ?663次閱讀

計(jì)算機(jī)視覺的五大技術(shù)

計(jì)算機(jī)視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一，其技術(shù)涵蓋了多個(gè)方面，為人工智能的發(fā)展開拓了廣闊的道路。以下是對計(jì)算機(jī)

發(fā)表于 07-10 18:26 ?1387次閱讀

搜索歷史

從0到1學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)

評(píng)論

機(jī)器視覺與計(jì)算機(jī)視覺的關(guān)系簡述

讓機(jī)器“看見”—計(jì)算機(jī)視覺入門及實(shí)戰(zhàn) 第二期基礎(chǔ)技術(shù)篇

請問計(jì)算機(jī)視覺與深度學(xué)習(xí)要看什么書？

學(xué)習(xí)計(jì)算機(jī)視覺的建議有哪些

深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺簡介

基于OpenCV的計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)

計(jì)算機(jī)視覺零基礎(chǔ)入門

計(jì)算機(jī)視覺的發(fā)展歷史_計(jì)算機(jī)視覺的應(yīng)用方向

計(jì)算機(jī)視覺入門指南

計(jì)算機(jī)視覺識(shí)別是如何工作的？

計(jì)算機(jī)視覺中的九種深度學(xué)習(xí)技術(shù)

計(jì)算機(jī)視覺的主要研究方向

深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

計(jì)算機(jī)視覺與人工智能的關(guān)系是什么

計(jì)算機(jī)視覺的五大技術(shù)