“微軟亞洲研究院創(chuàng)研論壇——CVPR 2018中國論文分享會”在微軟大廈成功舉行。來自國內(nèi)外計(jì)算機(jī)視覺領(lǐng)域?qū)W術(shù)界、工業(yè)界的杰出代表們攜各自在CVPR 2018上發(fā)表的最新文章出席,與現(xiàn)場觀眾進(jìn)行了深入的分享與交流。
在此次分享活動上由劉偲(中國科學(xué)院信息工程研究所副研究員)主持的圓桌討論環(huán)節(jié)中,陳光(北京郵電大學(xué)模式識別實(shí)驗(yàn)室副教授)、何旭明(上海科技大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授)、凌海濱(美國天普大學(xué)Temple University計(jì)算機(jī)系副教授)、童欣(微軟亞洲研究院首席研究員)、王井東(微軟亞洲研究院資深研究員)、王曉剛(商湯科技聯(lián)合創(chuàng)始人、研究院院長)等六位計(jì)算機(jī)視覺領(lǐng)域的資深專家就當(dāng)前計(jì)算機(jī)視覺領(lǐng)域中的熱門問題做出了精彩解答。
下面我們就和大家分享一下本次精彩的會談內(nèi)容!
從左至右:童欣、陳光、何旭明、王曉剛、王井東
▌問題一:很多學(xué)生都對計(jì)算機(jī)視覺領(lǐng)域特別感興趣,各位老師平時(shí)比較看重學(xué)生哪方面的能力?又是以什么目標(biāo)來培養(yǎng)人才的?
王曉剛:我認(rèn)為學(xué)習(xí)計(jì)算機(jī)視覺的學(xué)生,發(fā)展還是可以比較多元化的。以前的學(xué)生大部分走學(xué)術(shù)路線,但是現(xiàn)在隨著工業(yè)應(yīng)用的發(fā)展,計(jì)算機(jī)視覺有了很大的應(yīng)用前景,學(xué)生可以走的路非常多,對學(xué)生的要求也不一樣。有的人可以走理論、創(chuàng)新性的道路,有一些學(xué)生是更適合解決實(shí)際問題。這部分學(xué)生,在以前走學(xué)術(shù)路線可能會困難一些,但現(xiàn)在隨著工業(yè)界應(yīng)用的發(fā)展,他們也有很好的前途,我覺得更要因材施教。最重要的是學(xué)生能夠經(jīng)過訓(xùn)練擁有一個(gè)良好的思維能力,將來能獨(dú)立地解決問題,并且對整個(gè)視覺領(lǐng)域具備良好的知識體系,打下一個(gè)堅(jiān)實(shí)的基礎(chǔ)。
陳光:從學(xué)生培養(yǎng)的角度來講,同學(xué)最重要的是要聽話,尤其是零基礎(chǔ)、冷啟動的同學(xué),如果他一開始不聽話,會走很多的彎路。另外還有兩點(diǎn),一個(gè)是要有悟性,當(dāng)然這個(gè)是可遇不可求的,還有一個(gè)是能堅(jiān)持。我們經(jīng)常對同學(xué)說的一點(diǎn)是,只要你堅(jiān)持做,再小的一個(gè)東西你也能做得很有成果、很有心得,將來不管是工作還是研究,都能有很好的前途。
還有一點(diǎn)就更可遇不可求了,是要在后續(xù)的培養(yǎng)里才能看得出來的,就是他能不能從問題里“跳出來”,這一點(diǎn)特別關(guān)鍵。有些同學(xué)善于鉆研,但是可能鉆進(jìn)去就出不來了,這部分同學(xué)看技術(shù)就是技術(shù),但是他“出不來”。“出不來”的問題在哪?他們可能看不到大的方向、大的趨勢或者大的前景,這個(gè)時(shí)候研究就可能越做越窄,而且也很難找到對于長期發(fā)展很有價(jià)值的一些點(diǎn)。
▌問題二:現(xiàn)在隨著深度學(xué)習(xí)的火爆,有很多非視覺領(lǐng)域的人才進(jìn)入到了視覺領(lǐng)域,各位老師對這個(gè)現(xiàn)象怎么看?
何旭明:視覺本來就是個(gè)多學(xué)科的領(lǐng)域,不同領(lǐng)域同學(xué)的進(jìn)入對這個(gè)領(lǐng)域的發(fā)展有非常正面的促進(jìn)作用。如果你有不同的背景,希望你能夠發(fā)揮你的長處,從不同的角度對計(jì)算機(jī)視覺進(jìn)行有自己特色的研究,我覺得這是非常獨(dú)特一個(gè)視角。
陳光:對于從其它領(lǐng)域轉(zhuǎn)專業(yè)到視覺領(lǐng)域的同學(xué)來說,最重要的一點(diǎn)是你要有好奇心。這個(gè)好奇心不是說你對這個(gè)圖像技術(shù)好不好奇,而是建立在你有一定了解的基礎(chǔ)上,是不是對它的前景和技術(shù)有足夠的熱愛、足夠的好奇。我覺得這一點(diǎn)是你是否要跨入圖像領(lǐng)域一個(gè)非常重要的點(diǎn)。我本身主要是搞文本的,我見證了很多同學(xué)從文本跨越到圖像,我覺得只要想清楚了,只要是學(xué)術(shù)研究,只要是有前途的方向,都是可以的。
▌問題三:各位老師怎么看待很多高校的學(xué)術(shù)大牛進(jìn)入到了工業(yè)界?
童欣:這個(gè)我覺得是件好事,這說明大家學(xué)術(shù)做得成功,在工業(yè)界能有應(yīng)用,多好的一件事。越來越多的學(xué)術(shù)界的人進(jìn)入到工業(yè)界,說明這個(gè)領(lǐng)域有了應(yīng)用。反過來講,工業(yè)界也可以給學(xué)術(shù)界提供很多反饋,提出很多實(shí)際的問題,我覺得這是一種很好的、很正向的交流,長期來看一定會帶來兩邊的繁榮和發(fā)展。
王曉剛:以前我的學(xué)生畢業(yè)后都去做投行了,現(xiàn)在他們可以在工業(yè)界繼續(xù)做研究,并且讓技術(shù)落地,這其實(shí)是非常好的事情,而且很重要的事情,很多好的問題,實(shí)際上是從工業(yè)界里發(fā)現(xiàn)的,以前我們研究的很多學(xué)術(shù)問題都是學(xué)者拍腦袋想出來的,現(xiàn)在我們希望能夠從工業(yè)界得到更多的反饋。
但是從另一方面來說,工業(yè)界把很多學(xué)者招過來的時(shí)候,不一定能夠想得很清楚——怎么能夠用好他們,他們的價(jià)值在什么地方?不是所有的學(xué)者到了工業(yè)界以后就能夠發(fā)揮他的作用,每個(gè)人還是不太一樣的。
同時(shí),還有一個(gè)很重要的問題。這些教授、老師離開了學(xué)校,后面的人才誰來培養(yǎng)?整個(gè)工業(yè)界對視覺和機(jī)器學(xué)習(xí)的人才需求量是非常大的,需要思考怎么樣解決“造血”的問題。
陳光:其實(shí)我覺得這個(gè)問題要兩邊看,有積極的因素,也有消極的因素。短期來看是消極的,學(xué)校肯定是損失了很多培養(yǎng)人才的人才。但是長期來講,將來這些人有可能還會回到學(xué)校,回來的時(shí)候,他會帶著實(shí)踐的經(jīng)驗(yàn)和實(shí)際的問題,那時(shí)候他一定比現(xiàn)在更有價(jià)值。而且現(xiàn)在很多學(xué)校都在建立人工智能研究院,將來一定能和企業(yè)不斷地有更緊密的結(jié)合,不管是以人才回流的方式,還是以問題和數(shù)據(jù)合作的方式,我覺得長期來看還是一件好事。
▌問題四:網(wǎng)上說高二的學(xué)生就可以用深度學(xué)習(xí)去開發(fā)人臉識別的系統(tǒng),請問在座各位專家,你們覺得深度學(xué)習(xí)讓計(jì)算機(jī)視覺的門檻變低了嗎?
王井東:我覺得這是個(gè)好事情,說明我們很多學(xué)生通過網(wǎng)上的資源可以很容易獲取最先進(jìn)的深度學(xué)習(xí)技術(shù),看上去是門檻降低了,但這句話的角度是站在一個(gè)本來不是做計(jì)算機(jī)視覺、或者不是做深度學(xué)習(xí)、或者做這方面時(shí)間不是很長的人那里,門檻的確是降低了。但是我們換個(gè)角度想一想,對長期在這個(gè)領(lǐng)域工作的人來說,不見得是門檻降低了。為什么這樣講?大家都知道,2012年以來深度學(xué)習(xí)非?;鸨〉昧撕艽蟮某晒?,以至于幾乎所有計(jì)算機(jī)視覺都集中在深度學(xué)習(xí)的方向,但是,大家還是覺得深度學(xué)習(xí)還沒有被真正理解透,無法從理論的角度去解釋。從這個(gè)角度來講,門檻其實(shí)并沒有降低。門檻高和低,實(shí)際上是站在不同的位置上講的。
何旭明:因?yàn)樯疃葘W(xué)習(xí)對數(shù)據(jù)的要求很高,某種程度上實(shí)際上是把門檻抬高了,尤其是對于一些特殊領(lǐng)域,例如醫(yī)療。
▌問題五:每年都有很多CVPR的論文發(fā)表,各位老師覺得有多少論文可以解決應(yīng)用當(dāng)中的痛點(diǎn)問題?
王曉剛:其中一部分論文對應(yīng)用是有推動作用的,我們在工業(yè)界感覺到,如果有一年時(shí)間你不了解這些最新論文就會落后。從另外的角度來說,把論文上面的一些方法拿過來用到實(shí)際當(dāng)中是不是就能解決問題?其實(shí)還不是這樣的?,F(xiàn)在應(yīng)用發(fā)展得非???,但是在學(xué)術(shù)領(lǐng)域,對問題的探索很多時(shí)候并沒有跟上應(yīng)用的發(fā)展。而且,學(xué)術(shù)論文追求的目標(biāo)和實(shí)際應(yīng)用的導(dǎo)向還是有差別的。但是,大家通過發(fā)表論文、寫論文,對整個(gè)領(lǐng)域有了全面的理解,等再進(jìn)入到工業(yè)當(dāng)中,處理各種問題就會游刃有余。
何旭明:CVPR我覺得更多的是培養(yǎng)學(xué)生如何去做研究,如何去探索一個(gè)新的問題,更多的是為研究生或者博士生創(chuàng)造一個(gè)環(huán)境,大家可以相互交流,嘗試各種不同的想法,這是一個(gè)培養(yǎng)人才的途徑。
陳光:其實(shí)我們希望培養(yǎng)出的人才具有兩種特性,我們希望搞工程、搞應(yīng)用的人具有學(xué)術(shù)思維和學(xué)術(shù)視野,他知道算法能實(shí)現(xiàn)什么、不能實(shí)現(xiàn)什么,這個(gè)時(shí)候他根據(jù)自己所擅長的專業(yè)領(lǐng)域拿著問題去找技術(shù),這樣有助于技術(shù)可以快速落地。另外我們希望搞研究的人有應(yīng)用思維,他需要以合理的、正確的方式看待他所掌握的技術(shù)和方法,而不是像咱們經(jīng)常說的拿著錘子找釘子,要從一個(gè)需求和應(yīng)用的視野去看待這些技術(shù)和方法。
▌問題六:計(jì)算機(jī)視覺領(lǐng)域通常會在一個(gè)benchmark上刷榜。比如最開始的VOC到ImageNet、COCO或者今年Google Open Images,想請問一下各位老師怎樣看待競賽對學(xué)術(shù)研究的推動作用?
陳光:我覺得從兩個(gè)方面來看,一個(gè)是積極的角度,一個(gè)消極的角度。積極的方面是顯而易見的,它提供了一個(gè)統(tǒng)一的任務(wù),一個(gè)大批量的數(shù)據(jù),這在以前看是不可想象的,在別的地方可能根本獲取不了這么多數(shù)據(jù)。這個(gè)時(shí)候,所有的科研單位和所有做研究的人可以站在同一個(gè)起跑線上,用同一個(gè)任務(wù)去PK,這是一件好事。但是反過來看,它也帶來了一些消極的因素,這些任務(wù)有時(shí)候定義得過于狹窄。當(dāng)任務(wù)和評價(jià)已經(jīng)確定的情況下,大家的想象力就會受到限制。現(xiàn)在這種評測大家在刷榜的時(shí)候可能更多的是做工程性的優(yōu)化。當(dāng)大家在用更多工程上的工作去擬合這樣一些確定任務(wù)的時(shí)候,其實(shí)已經(jīng)限制了我們在更廣泛的、更大的領(lǐng)域里面做更有通用性的工作的想象力。所以我在這里呼吁,設(shè)計(jì)這些任務(wù)和題目的人能夠更多地去考慮模型可解釋性等、效率、實(shí)用和通用泛化等問題。
王曉剛:我補(bǔ)充一點(diǎn)對于審論文的影響。有benchmark和datasets可能讓評審工作變得比較容易。對于一些好的、有創(chuàng)新性的想法,或者是一些新的問題,如果沒有benchmark可以衡量,這些論文不容易被注意到。有了benchmark,這個(gè)領(lǐng)域會迅速產(chǎn)生大量的論文。并不是說這個(gè)領(lǐng)域的問題一定很重要,或者這個(gè)領(lǐng)域已經(jīng)取得了很大進(jìn)展,是因?yàn)橛辛薭enchmark,大家比較容易發(fā)論文,比較容易做評審。當(dāng)然,這也是后面需要去糾正的一個(gè)問題。
王井東:Benchmark對計(jì)算機(jī)視覺近幾年的發(fā)展起了很大的作用。為什么深度學(xué)習(xí)今天有這么多人關(guān)注?很大程度上是由于當(dāng)年的ImageNet數(shù)據(jù)集以及深度學(xué)習(xí)和GPU的發(fā)展,促進(jìn)了這個(gè)領(lǐng)域的發(fā)展,帶動了很多計(jì)算機(jī)視覺初創(chuàng)公司的發(fā)展。從這個(gè)意義上來講,benchmark對計(jì)算機(jī)視覺的積極意義是非常大的。但是從另外一個(gè)角度來講,你必須要在benchmark,例如ImageNet等數(shù)據(jù)集上做出一些結(jié)果出來,你的研究才有可能會被認(rèn)可。從這種意義上來說對計(jì)算機(jī)視覺還是有一點(diǎn)負(fù)作用,這個(gè)其實(shí)可能影響了整個(gè)領(lǐng)域的大的發(fā)展,埋沒了一些好的東西。因此,不能完全依靠benchmark來評價(jià)一個(gè)方法或者算法的好壞。
▌問題七:很多高校的計(jì)算能力可能無法跟大公司相比,很難在ImageNet或者是其它數(shù)據(jù)集上做出一個(gè)好的結(jié)果。面對相對有限的計(jì)算能力,高校應(yīng)該怎么辦?
王曉剛:現(xiàn)在有一種趨勢,學(xué)校和工業(yè)界的結(jié)合越來越緊密,企業(yè)會開放更多的資源給到老師們。
另外,學(xué)校不應(yīng)該單純地以拼計(jì)算資源來取勝,或者說整個(gè)社區(qū)不應(yīng)該以計(jì)算資源為導(dǎo)向。如果只是關(guān)注在benchmark上的排名,我們還需不需要reviewer了?將來是不是機(jī)器來評判就可以了呢?
陳光:我覺得這個(gè)問題是一個(gè)挺有意義的問題,關(guān)系到我們怎么思考未來技術(shù)的發(fā)展的。從算力的角度來說,學(xué)??隙ㄊ瞧床贿^公司的。那怎么樣做突破呢?其實(shí)在遷移學(xué)習(xí),包括強(qiáng)化學(xué)習(xí)的方向,學(xué)校是可以做更多思考的。我想將來一定會有一些相對通用的模型或者泛化能力比較好的模型能夠通過遷移解決一個(gè)跨領(lǐng)域的問題,通過遷移學(xué)習(xí)會減少很多算力和成本的消耗,所以我期待在高校里面能夠把遷移學(xué)習(xí)發(fā)揚(yáng)光大。
童欣:我覺得做研究其實(shí)解決的是兩個(gè)問題:第一個(gè)問題是how,就是到底怎么解決這個(gè)問題?另一個(gè)問題是why,我覺得這是最根本的問題。很多時(shí)候?qū)W生會跟我說,“老師,我們的模型又提高了2個(gè)點(diǎn),咱們快點(diǎn)寫文章吧。”不是說提高了2個(gè)點(diǎn)就要寫文章,我們要解決的是why——這個(gè)模型為什么提高了2個(gè)點(diǎn)?我用別的方法行不行?短期內(nèi)大家還在關(guān)注how,能夠靠算力提高了2點(diǎn),大家就會覺得很了不起。但是我覺得很快大家就會到飽和的程度,最后大家做研究還是要回到why的問題,這個(gè)東西不僅僅是靠大量的算力能解決的問題,還得靠智力。我覺得這個(gè)可能是學(xué)校可以更多地發(fā)力和好好研究的地方。
▌問題八:下一個(gè)階段計(jì)算機(jī)視覺的研究熱點(diǎn)是什么?
凌海濱:從特定角度來講,計(jì)算機(jī)視覺現(xiàn)在就是兩個(gè)方向——深度學(xué)習(xí)和非深度學(xué)習(xí)。深度學(xué)習(xí)方向我有一點(diǎn)擔(dān)心,我的擔(dān)心倒不是這個(gè)方向做不好,而是如果這個(gè)方向繼續(xù)走下去,到底計(jì)算機(jī)視覺這個(gè)領(lǐng)域是深度學(xué)習(xí)的一個(gè)應(yīng)用,還是一個(gè)單獨(dú)的領(lǐng)域?當(dāng)然這個(gè)并不一定是壞事。
目前我感覺深度學(xué)習(xí)在計(jì)算機(jī)視覺這邊發(fā)力還不太夠的地方就是偏幾何理解的這分,比如說三維重建這方面,好像目前并沒有產(chǎn)生特別好的結(jié)果。純計(jì)算機(jī)視覺的研究熱點(diǎn),我覺得還是在幾何這方面的研究。大的算法框架最近幾年沒有看到很大的進(jìn)展。我覺得這個(gè)是視覺比較基礎(chǔ)的問題,是比較值得研究的。
跟深度學(xué)習(xí)有關(guān)的研究,我個(gè)人比較關(guān)心的一個(gè)問題是時(shí)序上的建模。大家可以看到現(xiàn)在深度學(xué)習(xí)在視頻上做得還沒有那么強(qiáng)。目前我沒有看到類似于RNN網(wǎng)絡(luò)的架構(gòu)來很好地對視頻自然地end-to-end建模的,網(wǎng)絡(luò)模型更多的是對中間的特征進(jìn)行一些建模(即特征提?。?/p>
另外一個(gè)我關(guān)心的是多模態(tài)融合的問題。因?yàn)殡S著計(jì)算機(jī)視覺越來越成熟之后,有一些計(jì)算機(jī)視覺解決不了的問題慢慢就會更多地依賴于多個(gè)傳感器之間的相互保護(hù)和融合,比如說拿手機(jī)做三維重建,以前視覺做視覺的,IMU的做IMU的,但是現(xiàn)在大家說這兩個(gè)各有優(yōu)缺點(diǎn),怎么樣把它們深度的融合起來會比較好。這方面已經(jīng)有不少很好的工作。我覺得這個(gè)可能也是計(jì)算機(jī)視覺后面需要更多研究的方向。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46050 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121337
原文標(biāo)題:CVPR 2018中國論文分享會 | 計(jì)算機(jī)視覺產(chǎn)業(yè)界和學(xué)術(shù)界的對話
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論