計(jì)算機(jī)視覺的發(fā)展歷史
計(jì)算機(jī)視覺發(fā)展的四個(gè)主要階段
盡管人們對計(jì)算機(jī)視覺這門學(xué)科的起始時(shí)間和發(fā)展歷史有不同的看法,但應(yīng)該說, 1982年馬爾( David Marr )《視覺》(Marr, 1982)一書的問世,標(biāo)志著計(jì)算機(jī)視覺成為了一門獨(dú)立學(xué)科。計(jì)算機(jī)視覺的研究內(nèi)容,大體可以分為物體視覺(object vision)和空間視覺(spatial vision)二大部分。 物體視覺在于對物體進(jìn)行精細(xì)分類和鑒別,而空間視覺在于確定物體的位置和形狀,為“動(dòng)作(action)” 服務(wù)。正像著名的認(rèn)知心理學(xué)家J.J. Gibson 所言,視覺的主要功能在于“適應(yīng)外界環(huán)境,控制自身運(yùn)動(dòng)”。 適應(yīng)外界環(huán)境和控制自身運(yùn)動(dòng),是生物生存的需求,這些功能的實(shí)現(xiàn)需要靠物體視覺和空間視覺協(xié)調(diào)完成。
計(jì)算機(jī)視覺40多年的發(fā)展中,盡管人們提出了大量的理論和方法,但總體上說,計(jì)算機(jī)視覺經(jīng)歷了4個(gè)主要?dú)v程。即: 馬爾計(jì)算視覺、主動(dòng)和目的視覺、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺。下面將對這4項(xiàng)主要內(nèi)容進(jìn)行簡要介紹。
1.馬爾計(jì)算視覺(Computational Vision)
現(xiàn)在很多計(jì)算機(jī)視覺的研究人員,恐怕對“馬爾計(jì)算視覺”根本不了解,這不能不說是一件非常遺憾的事。目前,在計(jì)算機(jī)上調(diào)“深度網(wǎng)絡(luò)”來提高物體識別的精度似乎就等于從事“視覺研究”。事實(shí)上,馬爾的計(jì)算視覺的提出,不論在理論上還是研究視覺的方法論上,均具有劃時(shí)代的意義。
馬爾的計(jì)算視覺分為三個(gè)層次: 計(jì)算理論、表達(dá)和算法以及算法實(shí)現(xiàn)。由于馬爾認(rèn)為算法實(shí)現(xiàn)并不影響算法的功能和效果,所以,馬爾計(jì)算視覺理論主要討論“計(jì)算理論”和“表達(dá)與算法”二部分內(nèi)容。馬爾認(rèn)為,大腦的神經(jīng)計(jì)算和計(jì)算機(jī)的數(shù)值計(jì)算沒有本質(zhì)區(qū)別,所以馬爾沒有對“算法實(shí)現(xiàn)”進(jìn)行任何探討。從現(xiàn)在神經(jīng)科學(xué)的進(jìn)展看,“神經(jīng)計(jì)算”與數(shù)值計(jì)算在有些情況下會(huì)產(chǎn)生本質(zhì)區(qū)別,如目前興起的神經(jīng)形態(tài)計(jì)算( Neuromorphological computing),但總體上說,“數(shù)值計(jì)算”可以“模擬神經(jīng)計(jì)算”。至少從現(xiàn)在看,“算法的不同實(shí)現(xiàn)途徑”,并不影響馬爾計(jì)算視覺理論的本質(zhì)屬性。
1)計(jì)算理論(Computational Theory)
計(jì)算理論需要明確視覺目的, 或視覺的主要功能是什么。上世紀(jì)70年代,人們對大腦的認(rèn)識還非常粗淺,目前普遍使用的非創(chuàng)傷型成像手段,如功能核磁共振(FMRI)等,還沒有普及。所以,人們主要靠病理學(xué)和心理學(xué)結(jié)果來推斷生理功能。即使目前,人們對“視覺的主要功能”到底是什么,也仍然沒有定論。如最近幾年,MIT的 DiCarlo等人提出了所謂的“目標(biāo)驅(qū)動(dòng)的感知信息建模”方法(Yamins &DiCarlo et al. 2016a)。他們猜測,猴子IT區(qū)(IT: interiortemporal cortex, 物體識別區(qū))的神經(jīng)元對物體的響應(yīng)(neuronal responses)“可以通過層次化的卷積神經(jīng)網(wǎng)絡(luò)”(HCNN: Hierarchical Convolutional Neural Networks )來建模。他們認(rèn)為,只要對HCNN在圖像物體分類任務(wù)下進(jìn)行訓(xùn)練,則訓(xùn)練好的HCNN 可以很好定量預(yù)測IT 區(qū)神經(jīng)元的響應(yīng)(Yamins et al. 2014, 2016b)。由于僅僅“控制圖像分類性能”對IT神經(jīng)元響應(yīng)(群體神經(jīng)元對某一輸入圖像物體的響應(yīng),就是神經(jīng)元對該物體的表達(dá)或編碼)進(jìn)行定量預(yù)測,所以他們將這種框架稱之為“目標(biāo)驅(qū)動(dòng)的框架”。目標(biāo)驅(qū)動(dòng)的框架提供了一種新的比較通用的建模群體神經(jīng)元編碼的途徑,但也存在很大的不足。能否真正像作者所言的那樣,僅僅靠“訓(xùn)練圖像分類的HCNN”就可以定量預(yù)測神經(jīng)元對圖像物體的響應(yīng),仍是一個(gè)有待進(jìn)一步深入研究的課題。
馬爾認(rèn)為視覺不管有多少功能,主要功能在于“從視網(wǎng)膜成像的二維圖像來恢復(fù)空間物體的可見三維表面形狀”,稱之為“三維重建”(3D reconstruction)。而且,馬爾認(rèn)為,這種重建過程不是天生就有的,而是可以通過計(jì)算完成的。J.J. Gibson 等心理學(xué)家,包括格式塔心里學(xué)學(xué)派( Gestalt psychology),認(rèn)為視覺的很多功能是天生就有的。可以想想,如果一種視覺功能與生具有,不可建模,就談不上計(jì)算,也許就不存在今天的“計(jì)算機(jī)視覺”這門學(xué)科了。
那么,馬爾的計(jì)算理論是什么呢?這一方面,馬爾在其書中似乎并不是介紹得特別具體。他舉了一個(gè)購買商品的例子,說明計(jì)算理論的重要性。如商店結(jié)賬要用加法而不是乘法。試想如果用乘法結(jié)賬,每個(gè)商品1元錢,則不管你購買多少件商品,你僅僅需要付一元錢。
馬爾的計(jì)算理論認(rèn)為,圖像是物理空間在視網(wǎng)膜上的投影,所以圖像信息蘊(yùn)含了物理空間的內(nèi)在信息,因此,任何計(jì)算視覺計(jì)算理論和方法都應(yīng)該從圖像出發(fā),充分挖掘圖像所蘊(yùn)含的對應(yīng)物理空間的內(nèi)在屬性。也就是說,馬爾的視覺計(jì)算理論就是要“挖掘關(guān)于成像物理場景的內(nèi)在屬性來完成相應(yīng)的視覺問題計(jì)算”。因?yàn)閺臄?shù)學(xué)的觀點(diǎn)看,僅僅從圖像出發(fā),很多視覺問題具有“歧義性”,如典型的左右眼圖像之間的對應(yīng)問題。如果沒有任何先驗(yàn)知識,圖像點(diǎn)對應(yīng)關(guān)系不能唯一確定。不管任何動(dòng)物或人,生活的環(huán)境都不是隨機(jī)的,不管有意識或無意識,時(shí)時(shí)刻刻都在利用這些先驗(yàn)知識,來解釋看到的場景和指導(dǎo)日常的行為和行動(dòng)。如桌子上放一個(gè)水杯的場景,人們會(huì)正確地解釋為桌子上放了一個(gè)水杯,而不把他們看作一個(gè)新物體。當(dāng)然,人類也會(huì)經(jīng)常出錯(cuò),如大量錯(cuò)覺現(xiàn)象。從這個(gè)意義上來說,讓計(jì)算機(jī)來模仿人類視覺是否一定是一條好的途徑也是一個(gè)未知的命題。飛機(jī)的飛行需要借助空氣動(dòng)力學(xué)知識,而不是機(jī)械地模仿鳥如何飛。
2)表達(dá)和算法(Representationand Algorithm)
識別物體之前,不管是計(jì)算機(jī)還是人,大腦(或計(jì)算機(jī)內(nèi)存)中事先要有對該物體的存儲(chǔ)形式,稱之為物體表達(dá)(object representation)。 馬爾視覺計(jì)算理論認(rèn)為,物體的表達(dá)形式為該物體的三維幾何形狀。馬爾當(dāng)時(shí)猜測,由于人在識別物體時(shí)與觀察物體的視角無關(guān),而不同視角下同一物體在視網(wǎng)膜上的成像又不同,所以物體在大腦中的表達(dá)不可能是二維的,可能是三維形狀,因?yàn)槿S形狀不依賴于觀察視角。另外,當(dāng)時(shí)病理學(xué)研究發(fā)現(xiàn),有些病人無法辨認(rèn)“茶杯”,但可以毫無困難地畫出茶杯的形狀,因此馬爾覺得,這些病人也佐證了他的猜測。從目前對大腦的研究看,大腦的功能是分區(qū)的。物體的“幾何形狀”和“語義”儲(chǔ)存在不同的腦區(qū)。另外,物體識別也不是絕對地與視角無關(guān),僅僅在一個(gè)比較小的變化范圍內(nèi)與視角無關(guān)。所以,從當(dāng)前的研究看,馬爾的物體的“三維表達(dá)”猜測基本上是不正確的,至少是不完全正確的,但馬爾的計(jì)算理論仍具有重要的理論意義和應(yīng)用價(jià)值。
簡言之,馬爾視覺計(jì)算理論的“物體表達(dá)”,是指“物體坐標(biāo)系下的三維形狀表達(dá)”。注意,從數(shù)學(xué)上來說,一個(gè)三維幾何形狀,選取的坐標(biāo)系不同,表達(dá)函數(shù)亦不同。如一個(gè)球體,如果以球心為坐標(biāo)原點(diǎn),則球面可以簡單表達(dá)為:x^2+y^2+z^2=1。 但如果觀測者在x軸上2倍半徑處觀測,則可見球面部分在觀測者坐標(biāo)系下的方程為:x=2-sqrt(1-y^2-z^2)。由此可見,同一物體,選用的坐標(biāo)系不同,表達(dá)方式亦不同。馬爾將“觀測者坐標(biāo)系下的三維幾何形狀表達(dá)”稱之為“2.5維表達(dá)”,物體坐標(biāo)系下的表達(dá)為“三維表達(dá)”。所以,在后續(xù)的算法部分,馬爾重點(diǎn)研究了如何從圖像先計(jì)算“2.5維表達(dá)”,然后轉(zhuǎn)化為“三維表達(dá)”的計(jì)算方法和過程。
算法部分是馬爾計(jì)算視覺的主體內(nèi)容。馬爾認(rèn)為,從圖像到三維表達(dá),要經(jīng)過三個(gè)計(jì)算層次:首先從圖像得到一些基元(primal sketch), 然后通過立體視覺(stereopsis)等模塊將基元提升到2.5維表達(dá),最后提升到三維表達(dá)。
下圖總結(jié)給出了馬爾視覺計(jì)算理論的算法流程:
由上圖所示,首先從圖像提取邊緣信息(二階導(dǎo)數(shù)的過零點(diǎn)),然后提取點(diǎn)狀基元(blob, 線狀基元(edge)和桿狀基元 (bar), 進(jìn)而對這些初級基元(raw primal sketch)組合形成完整基元(full primal sketch),上述過程為視覺計(jì)算理論的特征提取階段。在此基礎(chǔ)上,通過立體視覺和運(yùn)動(dòng)視覺等模塊,將基元提升到2.5維表達(dá)。最后,將2.5維表達(dá)提升到三維表達(dá)。在馬爾的《視覺》一書中,重點(diǎn)介紹了特征提取和2.5維表達(dá)對應(yīng)的計(jì)算方法。在2.5維表達(dá)部分,也僅僅重點(diǎn)介紹了立體視覺和運(yùn)動(dòng)視覺部分。由于當(dāng)雙眼(左右相機(jī))的相互位置已知時(shí)(計(jì)算機(jī)視覺中稱之為相機(jī)外參數(shù)),立體視覺就轉(zhuǎn)化為“左右圖像點(diǎn)的對應(yīng)問題”(image point correspondence), 所以,馬爾在立體視覺部分重點(diǎn)介紹了圖像點(diǎn)之間的匹配問題,即如何剔除誤匹配,并給出了對應(yīng)算法。
立體視覺等計(jì)算得到的三維空間點(diǎn)僅僅是在“觀測者坐標(biāo)系下的坐標(biāo)”,是物體的2.5維表示。如何進(jìn)一步提升到物體坐標(biāo)系下的三維表示,馬爾給出了一些思路,但這方面都很粗泛。如確定物體的旋轉(zhuǎn)主軸等等,這部分內(nèi)容,類似于后來人們提出的“骨架模型”(skeleton model)構(gòu)造。
需要指出的是,馬爾的視覺計(jì)算理論是一種理論體系。在此體系下,可以進(jìn)一步豐富具體的計(jì)算模塊,構(gòu)建“通用性視覺系統(tǒng)”(general vision system)。只可惜馬爾(Jan.15,1945 ~ Nov.17,1980 )1980年底就因白血病去世,包括他的《視覺》一書,也是他去世后出版的。馬爾的英年早逝,不能說不是計(jì)算機(jī)視覺界的一大損失。由于馬爾的貢獻(xiàn),所以二年一度的國際計(jì)算機(jī)視覺大會(huì)(ICCV: International Conference on Computer Vision)設(shè)有馬爾獎(jiǎng)(MarrPrize),作為會(huì)議的最佳論文獎(jiǎng)。另外,在認(rèn)知科學(xué)領(lǐng)域,也設(shè)有馬爾獎(jiǎng),因?yàn)轳R爾對認(rèn)知科學(xué)也有巨大的貢獻(xiàn)。以同一人名在不同領(lǐng)域設(shè)立獎(jiǎng)項(xiàng),實(shí)屬罕見,可見馬爾對計(jì)算機(jī)視覺的影響有多深遠(yuǎn)。正如S. Edelman 和 L. M. Vaina 在《 International Encyclopedia of the Social & Behavioral Sciences 》中對馬爾的評價(jià)那樣,“馬爾前期給出的集成數(shù)學(xué)和神經(jīng)生物學(xué)對大腦理解的三項(xiàng)工作,已足以使他在任何情況下在英國經(jīng)驗(yàn)主義二個(gè)半世紀(jì)的科學(xué)殿堂中占有重要的一席,…, 然而,他進(jìn)一步提出了更加有影響的計(jì)算視覺理論”。所以,從事計(jì)算機(jī)視覺研究的人員對馬爾計(jì)算視覺不了解,實(shí)在是一件比較遺憾的事。
2.曇花一現(xiàn)的主動(dòng)和目的視覺
很多人介紹計(jì)算機(jī)視覺時(shí),將這部分內(nèi)容不作為一個(gè)單獨(dú)部分加以介紹,主要是因?yàn)椤爸鲃?dòng)視覺和目的視覺”并沒有對計(jì)算機(jī)視覺后續(xù)研究形成持續(xù)影響。但作為計(jì)算機(jī)視覺發(fā)展的一個(gè)重要階段,這里還是有必要予以介紹一下。
上世紀(jì)80年代初馬爾視覺計(jì)算理論提出后,學(xué)術(shù)界興起了“計(jì)算機(jī)視覺”的熱潮。人們想到的這種理論的一種直接應(yīng)用就是給工業(yè)機(jī)器人賦予視覺能力,典型的系統(tǒng)就是所謂的“基于部件的系統(tǒng)”(parts-based system)。然而,10多年的研究,使人們認(rèn)識到,盡管馬爾計(jì)算視覺理論非常優(yōu)美,但“魯棒性”(Robustness)不夠,很難想人們預(yù)想的那樣在工業(yè)界得到廣泛應(yīng)用。這樣,人們開始質(zhì)疑這種理論的合理性,甚至提出了尖銳的批評。
對馬爾計(jì)算視覺理論提出批評最多的有二點(diǎn):一是認(rèn)為這種三維重建過程是“純粹自底向上的過程”(pure bottom-up process),缺乏高層反饋(top-down feedback);二是“重建”缺乏“目的性和主動(dòng)性”。由于不同的用途,要求重建的精度不同,而不考慮具體任務(wù),僅僅“盲目地重建一個(gè)適合任何任務(wù)的三維模型”似乎不合理。
對馬爾視覺計(jì)算理論提出批評的代表性人物有:馬里蘭大學(xué)的 J. Y. Aloimonos;賓夕法尼亞大學(xué)的R. Bajcsy和密西根州立大學(xué)的A. K. Jaini。 Bajcsy 認(rèn)為,視覺過程必然存在人與環(huán)境的交互,提出了主動(dòng)視覺的概念(active vision)。 Aloimonos認(rèn)為視覺要有目的性,且在很多應(yīng)用,不需要嚴(yán)格三維重建,提出了“目的和定性視覺”(purpose and qualitative vision) 的概念。 Jain 認(rèn)為應(yīng)該重點(diǎn)強(qiáng)調(diào)應(yīng)用,提出了“應(yīng)用視覺”( practicing vision)的概念。上世紀(jì)80年代末到90年代初,可以說是計(jì)算機(jī)視覺領(lǐng)域的“彷徨”階段。真有點(diǎn)“批評之聲不絕,視覺之路茫茫”之勢。
針對這種情況,當(dāng)時(shí)視覺領(lǐng)域的一個(gè)著名刊物(CVGIP: Image Understanding)于1994年組織了一期??瘜τ?jì)算視覺理論進(jìn)行了辯論。首先由耶魯大學(xué)的M. J. Tarr和布朗大學(xué)的M. J.Black寫了一篇非常有爭議性的觀點(diǎn)文章(Tarr & Black, 1994),認(rèn)為馬爾的計(jì)算視覺并不排斥主動(dòng)性,但把馬爾的“通用視覺理論”(general vision)過分地強(qiáng)調(diào)“應(yīng)用視覺”是“短見”(myopic)之舉。通用視覺盡管無法給出嚴(yán)格定義,但“人類視覺”是最好的樣板。這篇觀點(diǎn)文章發(fā)表后,國際上20多位著名的視覺專家也發(fā)表了他們的觀點(diǎn)和評論。大家普遍的觀點(diǎn)是,“主動(dòng)性”“目的性”是合理的,但問題是如何給出新的理論和方法。而當(dāng)時(shí)提出的一些主動(dòng)視覺方法,一則僅僅是算法層次上的改進(jìn),缺乏理論框架上的創(chuàng)新,另外,這些內(nèi)容也完全可以納入到馬爾計(jì)算視覺框架下。所以,從1994年這場視覺大辯論后,主動(dòng)視覺在計(jì)算機(jī)視覺界基本沒有太多實(shí)質(zhì)性進(jìn)展。這段“彷徨階段”持續(xù)不長,對后續(xù)計(jì)算機(jī)視覺的發(fā)展產(chǎn)生的影響不大,猶如“曇花一現(xiàn)”之狀。
值得指出的是,“主動(dòng)視覺”應(yīng)該是一個(gè)非常好的概念,但困難在于“如何計(jì)算”。 主動(dòng)視覺往往需要“視覺注視”(visual attention),需要研究腦皮層(cerebral cortex)高層區(qū)域到低層區(qū)域的反饋機(jī)制,這些問題,即使腦科學(xué)和神經(jīng)科學(xué)已經(jīng)較20年前取得了巨大進(jìn)展的今天,仍缺乏“計(jì)算層次上的進(jìn)展”可為計(jì)算機(jī)視覺研究人員提供實(shí)質(zhì)性的參考和借鑒。近年來,各種腦成像手段的發(fā)展,特別是 “連接組學(xué)”(Connectomics)的進(jìn)展,可望為計(jì)算機(jī)視覺人員研究大腦反饋機(jī)制提供“反饋途徑和連接強(qiáng)度”提供一些借鑒。
3.多視幾何和分層三維重建(Multiple View Geometry and Stratified 3D Reconstruction)
上世紀(jì)90年代初計(jì)算機(jī)視覺從“蕭條”走向進(jìn)一步“繁榮”,主要得益于以下二方面的因素:首先,瞄準(zhǔn)的應(yīng)用領(lǐng)域從精度和魯棒性要求太高的“工業(yè)應(yīng)用”轉(zhuǎn)到要求不太高,特別是僅僅需要“視覺效果”的應(yīng)用領(lǐng)域,如遠(yuǎn)程視頻會(huì)議(teleconference),考古,虛擬現(xiàn)實(shí),視頻監(jiān)控等。另一方面,人們發(fā)現(xiàn),多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。
多視幾何的代表性人物首數(shù)法國INRIA的O. Faugeras ( Faugeras O, 1993), 美國GE 研究院的R.Hartely (現(xiàn)已回到了澳大利亞國立大學(xué))和英國牛津大學(xué)的 A. Zisserman。應(yīng)該說,多視幾何的理論于2000年已基本完善。 2000 年Hartley 和Zisserman 合著的書 (Hartley & Zisserman 2000) 對這方面的內(nèi)容給出了比較系統(tǒng)的總結(jié),而后這方面的工作主要集中在如何提高“大數(shù)據(jù)下魯棒性重建的計(jì)算效率”。大數(shù)據(jù)需要全自動(dòng)重建,而全自動(dòng)重建需要反復(fù)優(yōu)化,而反復(fù)優(yōu)化需要花費(fèi)大量計(jì)算資源。所以,如何在保證魯棒性的前提下快速進(jìn)行大場景的三維重建是后期研究的重點(diǎn)。舉一個(gè)簡單例子,假如要三維重建北京中關(guān)村地區(qū),為了保證重建的完整性,需要獲取大量的地面和無人機(jī)圖像。假如獲取了1萬幅地面高分辨率圖像(4000×3000),5 千幅高分辨率無人機(jī)圖像(8000×7000)(這樣的圖像規(guī)模是當(dāng)前的典型規(guī)模),三維重建要匹配這些圖像,從中選取合適的圖像集,然后對相機(jī)位置信息進(jìn)行標(biāo)定并重建出場景的三維結(jié)構(gòu),如此大的數(shù)據(jù)量,人工干預(yù)是不可能的,所以整個(gè)三維重建流程必須全自動(dòng)進(jìn)行。這樣需要重建算法和系統(tǒng)具有非常高的魯棒性,否則根本無法全自動(dòng)三維重建。在魯棒性保證的情況下,三維重建效率也是一個(gè)巨大的挑戰(zhàn)。所以,目前在這方面的研究重點(diǎn)是如何快速、魯棒地重建大場景。
1)多視幾何( Multiple View Geometry)
由于圖像的成像過程是一個(gè)中心投影過程(perspective projection),所以“多視幾何”本質(zhì)上就是研究射影變換下圖像對應(yīng)點(diǎn)之間以及空間點(diǎn)與其投影的圖像點(diǎn)之間的約束理論和計(jì)算方法的學(xué)科(注意:針孔成像模型(The pinhole camera model)是一種中心投影, 當(dāng)相機(jī)有畸變時(shí),需要將畸變后的圖像點(diǎn)先校正到無畸變后才可以使用多視幾何理論)。計(jì)算機(jī)視覺領(lǐng)域,多視幾何主要研究二幅圖像對應(yīng)點(diǎn)之間的對極幾何約束(epipolar geometry), 三幅圖像對應(yīng)點(diǎn)之間的三焦張量約束(tri-focal tensor),空間平面點(diǎn)到圖像點(diǎn),或空間點(diǎn)為平面點(diǎn)投影的多幅圖像點(diǎn)之間的單應(yīng)約束(homography)等。在多視幾何中,射影變換下的不變量,如絕對二次曲線的像(The image of the absolute conic),絕對二次曲面的像(Theimage of the absolute quadric), 無窮遠(yuǎn)平面的單應(yīng)矩陣(infinite homography),是非常重要的概念,是攝像機(jī)能夠自標(biāo)定的“參照物”。由于這些量是無窮遠(yuǎn)處“參照物”在圖像上的投影,所以這些量與相機(jī)的位置和運(yùn)動(dòng)無關(guān)(原則上任何有限的運(yùn)動(dòng)不會(huì)影響無限遠(yuǎn)處的物體的性質(zhì)),所以可以用這些“射影不變量”來自標(biāo)定攝像機(jī)。關(guān)于多視幾何和攝像機(jī)自標(biāo)定的詳細(xì)內(nèi)容,可參閱Hartley 和Zisserman 合著的書(Hartley & Zisserman,2000)。
總體上說,多視幾何就其理論而言,在射影幾何中不能算新內(nèi)容。Hartley, Faugeras, Zissermann等將多視幾何理論引入到計(jì)算機(jī)視覺中,提出了分層三維重建理論和攝像機(jī)自標(biāo)定理論,豐富了馬爾三維重建理論,提高了三維重建的魯棒性和對大數(shù)據(jù)的適應(yīng)性,有力推動(dòng)了三維重建的應(yīng)用范圍。所以,計(jì)算機(jī)視覺中的多視幾何研究,是計(jì)算機(jī)視覺發(fā)展歷程中的一個(gè)重要階段和事件。
多視幾何需要射影幾何(projectivegeometry)的數(shù)學(xué)基礎(chǔ)。射影幾何是非歐幾何,涉及平行直線相交,平行平面相交等抽象概念,表達(dá)和計(jì)算要在“齊次坐標(biāo)”(homogeneous coordinates)下進(jìn)行,這給“工科學(xué)生”帶來不小的困難。所以,大家要從事這方面的研究,一定要先打好基礎(chǔ),至少要具備必要的射影幾何知識。否則,做這方面的工作,無異于浪費(fèi)時(shí)間。
2)分層三維重建( Stratified 3D Reconstruction)
所謂的分層三維重建,如下圖所示,就是指從多幅二維圖像恢復(fù)歐幾里德空間的三維結(jié)構(gòu)時(shí),不是從圖像一步到歐幾里德空間下的三維結(jié)構(gòu),而是分步分層地進(jìn)行。即先從多幅圖像的對應(yīng)點(diǎn)重建射影空間下的對應(yīng)空間點(diǎn)(即射影重建:projective reconstruction),然后把射影空間下重建的點(diǎn)提升到仿射空間下(即仿射重建:affine reconstruction),最后把仿射空間下重建的點(diǎn)再提升到歐幾里德空間(或度量空間: metric reconstruction)(注:度量空間與歐幾里德空間差一個(gè)常數(shù)因子。由于分層三維重建僅僅靠圖像進(jìn)行空間點(diǎn)重建,沒有已知的“絕對尺度”,如“窗戶的長為1米”等,所以從圖像僅僅能夠把空間點(diǎn)恢復(fù)到度量空間)。
這里有幾個(gè)概念需要解釋一下。以空間三維點(diǎn)的三維重建為例,所謂的“射影重建”,是指重建的點(diǎn)的坐標(biāo)與該點(diǎn)在歐幾里德空間下的坐標(biāo)差一個(gè)“射影變換”。所謂的“仿射重建”,是指重建的點(diǎn)的坐標(biāo)與該點(diǎn)在歐幾里德空間下的坐標(biāo)差一個(gè)“仿射變換”。所謂的“度量重建”,是指重建的點(diǎn)的坐標(biāo)與該點(diǎn)在歐幾里德空間下的坐標(biāo)差一個(gè)“相似變換”。
由于任何一個(gè)視覺問題最終都可以轉(zhuǎn)化為一個(gè)多參數(shù)下的非線性優(yōu)化問題,而非線性優(yōu)化的困難在于找到一個(gè)合理的初值。由于待優(yōu)化的參數(shù)越多,一般來說解空間越復(fù)雜,尋找合適的初值越困難,所以,如果一個(gè)優(yōu)化問題如能將參數(shù)分組分步優(yōu)化,則一般可以大大簡化優(yōu)化問題的難度。分層三維重建計(jì)算上的合理性正是利用了這種“分組分步”的優(yōu)化策略。以三幅圖像為例,直接從圖像對應(yīng)點(diǎn)重建度量空間的三維點(diǎn)需要非線性優(yōu)化16個(gè)參數(shù)(假定相機(jī)內(nèi)參數(shù)不變,5個(gè)相機(jī)內(nèi)參數(shù),第二幅和第三幅圖像相對于第一幅圖像的相機(jī)的旋轉(zhuǎn)和平移參數(shù),去掉一個(gè)常數(shù)因子,所以5+2×(3+3)-1=16),這是一個(gè)非常困難的優(yōu)化問題。但從圖像對應(yīng)點(diǎn)到射影重建需要“線性”估計(jì)22個(gè)參數(shù),由于是線性優(yōu)化,所以優(yōu)化問題并不困難。從射影重建提升到仿射重建需要“非線性”優(yōu)化三個(gè)參數(shù)(無窮遠(yuǎn)平面的3個(gè)平面參數(shù)),而從仿射重建提升到度量重建需要“非線性”優(yōu)化5個(gè)參數(shù)(攝像機(jī)的5個(gè)內(nèi)參數(shù))。因此,分層三維重建僅僅需要分步優(yōu)化3個(gè)和5個(gè)參數(shù)的非線性優(yōu)化問題,從而大大減小了三維重建的計(jì)算復(fù)雜度。
分層三維重建的另一個(gè)特點(diǎn)是其理論的優(yōu)美性。射影重建下,空間直線的投影仍為直線,二條相交直線其投影直線仍相交,但空間直線之間的平行性和垂直性不再保持。仿射重建下可以保持直線的平行性,但不能保持直線的垂直性。度量重建既可以保持直線之間的平行線,也可以保持垂直性。在具體應(yīng)用中,可以利用這些性質(zhì)逐級提升重建結(jié)果。
分層三維重建理論可以說是計(jì)算機(jī)視覺界繼馬爾計(jì)算視覺理論提出后又一個(gè)最重要和最具有影響力的理論。目前很多大公司的三維視覺應(yīng)用,如蘋果公司的三維地圖,百度公司的三維地圖,諾基亞的Streetview, 微軟的虛擬地球,其后臺(tái)核心支撐技術(shù)的一項(xiàng)重要技術(shù)就是分層三維重建技術(shù)。
3)攝像機(jī)自標(biāo)定(Cameraself-calibration)
所謂攝像機(jī)標(biāo)定,狹義上講,就是確定攝像機(jī)內(nèi)部機(jī)械和光電參數(shù)的過程,如焦距,光軸與像平面的交點(diǎn)等。盡管相機(jī)出廠時(shí)都標(biāo)有一些標(biāo)準(zhǔn)參數(shù),但這些參數(shù)一般不夠精確,很難直接在三維重建和視覺測量中應(yīng)用。所以,為了提高三維重建的精度,需要對這些相機(jī)內(nèi)參數(shù)(intrinsic parameters)進(jìn)行估計(jì)。估計(jì)相機(jī)的內(nèi)參數(shù)的過程,稱為相機(jī)標(biāo)定。在文獻(xiàn)中,有時(shí)把估計(jì)相機(jī)在給定物體坐標(biāo)系下的坐標(biāo),或相機(jī)之間相互之間的位置關(guān)系,稱為相機(jī)外參數(shù)(extrinsic parameters)標(biāo)定。但一般無明確指定時(shí),相機(jī)標(biāo)定就是指對相機(jī)內(nèi)參數(shù)的標(biāo)定。
相機(jī)標(biāo)定包含二方面的內(nèi)容:“成像模型選擇”和“模型參數(shù)估計(jì)”。相機(jī)標(biāo)定時(shí)首先需要確定“合理的相機(jī)成像模型”,如是不是針孔模型,有沒有畸變等。目前關(guān)于相機(jī)模型選擇方面,沒有太好的指導(dǎo)理論,只能根據(jù)具體相機(jī)和具體應(yīng)用確定。隨著相機(jī)加工工藝的提高,一般來說,普通相機(jī)(非魚眼或大廣角鏡頭等特殊相機(jī))一般使用針孔成像模型(加一階或二階徑向畸變)就足以了。其它畸變很小,可以不加考慮。當(dāng)相機(jī)成像模型確定后,進(jìn)一步需要估計(jì)對應(yīng)的模型參數(shù)。文獻(xiàn)中人們往往將成像模型參數(shù)估計(jì)簡單地認(rèn)為就是相機(jī)標(biāo)定,是不全面的。事實(shí)上,相機(jī)模型選擇是相機(jī)標(biāo)定最關(guān)鍵的步驟。一種相機(jī)如果無畸變而在標(biāo)定時(shí)考慮了畸變,或有畸變而未加考慮,都會(huì)產(chǎn)生大的誤差。視覺應(yīng)用人員應(yīng)該特別關(guān)注“相機(jī)模型選擇”問題。
相機(jī)參數(shù)估計(jì)原則上均需要一個(gè)“已知三維結(jié)構(gòu)”的“標(biāo)定參考物”,如平面棋盤格,立體塊等。所謂相機(jī)標(biāo)定,就是利用已知標(biāo)定參考物和其投影圖像,在已知成像模型下建立模型參數(shù)的約束方程,進(jìn)而估計(jì)模型參數(shù)的過程。所謂“自標(biāo)定”,就是指“僅僅利用圖像特征點(diǎn)之間的對應(yīng)關(guān)系,不需要借助具體物理標(biāo)定參考物,進(jìn)行模型參數(shù)估計(jì)的過程”?!皞鹘y(tǒng)標(biāo)定”需要使用加工尺寸已知的標(biāo)定參考物,自標(biāo)定不需要這類物理標(biāo)定物,正像前面多視幾何部分所言,使用的是抽象的無窮遠(yuǎn)平面上的“絕對二次曲線”和“絕對二次曲面”。從這個(gè)意義上來說,自標(biāo)定也需要參考物,僅僅是“虛擬的無窮遠(yuǎn)處的參考物”而已。
攝像機(jī)自標(biāo)定需要用到兩幅圖像之間的約束,如基礎(chǔ)矩陣(fundamental matrix), 本質(zhì)矩陣(essential matrix), 以及三幅圖像之間的三焦張量約束等。另外,Kruppa 方程也是一個(gè)重要的概念。這些內(nèi)容是多視幾何的重要內(nèi)容,后續(xù)章節(jié)將進(jìn)行詳細(xì)介紹。
4.基于學(xué)習(xí)的視覺(Learning based vision)
基于學(xué)習(xí)的視覺,是指以機(jī)器學(xué)習(xí)為主要技術(shù)手段的計(jì)算機(jī)視覺研究?;趯W(xué)習(xí)的視覺研究,文獻(xiàn)中大體上分為二個(gè)階段:本世紀(jì)初的以流形學(xué)習(xí)( manifold Learning)為代表的子空間法( subspace method)和目前以深度神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)(deep neural networks and deep learning)為代表的視覺方法。
1)流形學(xué)習(xí)(Manifold Learning)
正像前面所指出的,物體表達(dá)是物體識別的核心問題。給定圖像物體,如人臉圖像,不同的表達(dá),物體的分類和識別率不同。另外,直接將圖像像素作為表達(dá)是一種“過表達(dá)”,也不是一種好的表達(dá)。流形學(xué)習(xí)理論認(rèn)為,一種圖像物體存在其“內(nèi)在流形”(intrinsic manifold), 這種內(nèi)在流形是該物體的一種優(yōu)質(zhì)表達(dá)。所以,流形學(xué)習(xí)就是從圖像表達(dá)學(xué)習(xí)其內(nèi)在流形表達(dá)的過程,這種內(nèi)在流形的學(xué)習(xí)過程一般是一種非線性優(yōu)化過程。
流形學(xué)習(xí)始于2000年在Science 上發(fā)表的二篇文章( Tenenbaum et al., 2000) (Roweis & Lawrence 2000)。流形學(xué)習(xí)一個(gè)困難的問題是沒有嚴(yán)格的理論來確定內(nèi)在流形的維度。人們發(fā)現(xiàn),很多情況下流形學(xué)習(xí)的結(jié)果還不如傳統(tǒng)的PCA (Principal Component Analysis),LDA( linear DiscriminantAnalysis ), MDS( Multidimensional Scaling)等。 流形學(xué)習(xí)的代表方法有:LLE(Locally Linear Embedding )(Roweis & Lawrence 2000),Isomap ( Tenenbaum et al., 2000), Laplacian Eigenmaps (Belkin & Niyogi, 2001)等。
2)深度學(xué)習(xí)(Deep Learning)
深度學(xué)習(xí)( LeCunet al. 2015) 的成功,主要得益于數(shù)據(jù)積累和計(jì)算能力的提高。深度網(wǎng)絡(luò)的概念上世紀(jì)80年代就已提出來了,只是因?yàn)楫?dāng)時(shí)發(fā)現(xiàn)“深度網(wǎng)絡(luò)”性能還不如“淺層網(wǎng)絡(luò)”,所以沒有得到大的發(fā)展。目前似乎有點(diǎn)計(jì)算機(jī)視覺就是深度學(xué)習(xí)的應(yīng)用之勢,這可以從計(jì)算機(jī)視覺的三大國際會(huì)議:國際計(jì)算機(jī)視覺會(huì)議(ICCV),歐洲計(jì)算機(jī)視覺會(huì)議(ECCV)和計(jì)算機(jī)視覺和模式識別會(huì)議(CVPR),上近年來發(fā)表的論文可見一般。目前的基本狀況是,人們都在利用深度學(xué)習(xí)來“取代”計(jì)算機(jī)視覺中的傳統(tǒng)方法?!把芯咳藛T”成了“調(diào)程序的機(jī)器”,這實(shí)在是一種不正常的“群眾式運(yùn)動(dòng)”。牛頓的萬有引力定律,麥克斯韋的電磁方程,愛因斯坦的質(zhì)能方程,量子力學(xué)中的薛定諤方程,似乎還是人們應(yīng)該追求的目標(biāo)。
關(guān)于深度網(wǎng)絡(luò)和深度學(xué)習(xí),詳細(xì)內(nèi)容可參閱相關(guān)文獻(xiàn),這里僅僅強(qiáng)調(diào)以下幾點(diǎn):
(1)深度學(xué)習(xí)在物體視覺方面較傳統(tǒng)方法體現(xiàn)了巨大優(yōu)勢,但在空間視覺,如三維重建,物體定位方面,仍無法與基于幾何的方法相媲美。這主要是因?yàn)樯疃葘W(xué)習(xí)很難處理圖像特征之間的誤匹配現(xiàn)象。在基于幾何的三維重建中,RANSAC (Random Sample Consensus)等魯棒外點(diǎn)(誤匹配點(diǎn))剔除模塊可以反復(fù)調(diào)用,而在深度學(xué)習(xí)中,目前還很難集成諸如RANSAC等外點(diǎn)剔除機(jī)制。筆者認(rèn)為,如果深度網(wǎng)絡(luò)不能很好地集成外點(diǎn)剔除模塊,深度學(xué)習(xí)在三維重建中將很難與基于幾何的方法相媲美,甚至很難在空間視覺中得到有效應(yīng)用;
(2) 深度學(xué)習(xí)在靜態(tài)圖像物體識別方面已經(jīng)成熟,這也是為什么在ImageNet上的物體分類競賽已不再舉行的緣故;
(3) 目前的深度網(wǎng)絡(luò),基本上是前饋網(wǎng)絡(luò)(feedforwardNetworks)。不同網(wǎng)絡(luò)主要體現(xiàn)在使用的代價(jià)函數(shù)不同。下一步預(yù)計(jì)要探索具有“反饋機(jī)制”的層次化網(wǎng)絡(luò)。反饋機(jī)制,需要借鑒腦神經(jīng)網(wǎng)絡(luò)機(jī)制,特別是連接組學(xué)的成果。
(4) 目前對視頻的處理,人們提出了RCNN (Recurrent Neural Networks)。 循環(huán)( recurrent) 是一種有效的同層作用機(jī)制,但不能代替反饋。大腦皮層遠(yuǎn)距離的反饋(將在生物視覺簡介一章介紹)可能是形成大腦皮層不同區(qū)域具有不同特定功能的神經(jīng)基礎(chǔ)。所以,研究反饋機(jī)制,特別具有“長距離反饋”(跨多層之間)的深度網(wǎng)絡(luò), 將是今后研究圖像理解的一個(gè)重要方向;
(5)盡管深度學(xué)習(xí)和深度網(wǎng)絡(luò)在圖像物體識別方面取得了“變革性”成果,但為什么“深度學(xué)習(xí)”會(huì)取得如此好的結(jié)果目前仍然缺乏堅(jiān)實(shí)的理論基礎(chǔ)。目前已有一些這方面的研究,但仍缺乏系統(tǒng)性的理論。事實(shí)上,“層次化”是本質(zhì),不僅深度網(wǎng)絡(luò),其它層次化模型,如Hmax 模型(Riesenhuber & Poggio,1999) HTM (Hierarchical Temporal memory)模型(George & Hawkins, 2009)存在同樣的理論困惑。為什么“層次化結(jié)構(gòu)”( hierarchical structure )具有優(yōu)勢仍是一個(gè)巨大的迷。
計(jì)算機(jī)視覺的應(yīng)用方向
計(jì)算機(jī)視覺是使用計(jì)算機(jī)及相關(guān)設(shè)備對生物視覺的一種模擬。它的主要任務(wù)就是通過對采集的圖片或視頻進(jìn)行處理以獲得相應(yīng)場景的三維信息,形象地說,就是給計(jì)算機(jī)安裝上眼睛(照相機(jī))和大腦(算法),讓計(jì)算機(jī)能夠感知環(huán)境。
1. 農(nóng)業(yè)生產(chǎn)技術(shù)
在農(nóng)業(yè)方面具有代表性的是收割機(jī)和灑水機(jī)的智能化使用,通過計(jì)算機(jī)視覺系統(tǒng)中的機(jī)器視覺部分分析谷物和農(nóng)產(chǎn)品位置,識別適合的路徑進(jìn)行實(shí)施灌溉和收割等動(dòng)作。同時(shí),借助計(jì)算機(jī)視覺系統(tǒng)可以識別農(nóng)場雜草位置,再除雜草噴灑藥劑時(shí)可準(zhǔn)確定位針對性噴灑,節(jié)省除草劑的同時(shí),可以大幅度降低除草劑對于農(nóng)產(chǎn)品的影響。
2.自動(dòng)駕駛技術(shù)
目前自動(dòng)駕駛已經(jīng)成為熱議的話題,自動(dòng)駕駛技術(shù)也很大依托于計(jì)算機(jī)視覺,搭配雷達(dá)、超聲傳感器等獲取更多路況信息、交通信息等。
3.有道和谷歌翻譯軟件
對于大多數(shù)從事與外語相關(guān)工作的人來說,有道和谷歌翻譯軟件并不陌生。通過手機(jī)的攝像頭就能通過字符識別,來打到準(zhǔn)確翻譯的目的,此類的計(jì)算機(jī)視覺應(yīng)用帶來了極大的方便。
4.臉部識別
國內(nèi)目前很多企業(yè)已經(jīng)改變傳統(tǒng)指紋打卡,應(yīng)用了新的人臉識別技術(shù),這項(xiàng)技術(shù)中也應(yīng)用到了計(jì)算機(jī)視覺。除了企業(yè)應(yīng)用人臉識別打卡以外,人臉識別也被應(yīng)用在犯罪嫌疑人監(jiān)控和安檢等方面,為人們的生活帶來巨大的便捷和保障。
5.醫(yī)療保健
醫(yī)療行業(yè)使用計(jì)算機(jī)視覺技術(shù)很常見,醫(yī)學(xué)診斷時(shí)通過分析X射線等圖像,及早的檢測患者的情況并給予相對應(yīng)的癥狀對策,不僅于此。相信我國的醫(yī)療行業(yè)將會(huì)在應(yīng)用計(jì)算機(jī)視覺技術(shù)方面取得更加突出的成績
6.制造業(yè)
自動(dòng)化進(jìn)程加快,制造業(yè)企業(yè)多數(shù)已經(jīng)完成智能制造改革,其中計(jì)算機(jī)視覺在其中起到了至關(guān)重要的作用。
傳統(tǒng)制造行業(yè)近年來基本多數(shù)已經(jīng)完成自動(dòng)化改革,計(jì)算機(jī)視覺技術(shù)不僅用于生產(chǎn)制造,同時(shí)對于設(shè)備的預(yù)測性維護(hù)也能起到重要的作用。通過對設(shè)備的監(jiān)控,可以及時(shí)避免設(shè)備因故障或者損壞影響到生產(chǎn)的精度等。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45994
發(fā)布評論請先 登錄
相關(guān)推薦
評論