編者按:人工智能已成為國(guó)家級(jí)的戰(zhàn)略目標(biāo), 這激發(fā)了各行各業(yè)的AI熱潮。而目前AI人才的稀缺以及開(kāi)發(fā)任務(wù)的繁重,限制了深度學(xué)習(xí)落地,因此AI產(chǎn)業(yè)迫切需要賦能平臺(tái)。中科視拓董事長(zhǎng)山世光研究員,在2017鈦媒體T-EDGE年度國(guó)際盛典上,談深度學(xué)習(xí)生產(chǎn)線、以及中科視拓通用深度學(xué)習(xí)算法平臺(tái)SeeTaaS。
圖像識(shí)別或者人臉識(shí)別是今年以來(lái)AI實(shí)現(xiàn)最大爆發(fā)的領(lǐng)域。對(duì)于這些技術(shù)的實(shí)現(xiàn),中科院計(jì)算所研究員、中科視拓創(chuàng)始人、董事長(zhǎng)兼CTO山世光,將其歸結(jié)為一個(gè)簡(jiǎn)單的公式,那就是“A+B+C”。A是算法,B是Bigdata,C是Computing。
12月16日,在2017鈦媒體T-EDGE年度國(guó)際盛典上,山世光提到,2012年之后,因?yàn)榛ヂ?lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們有更多機(jī)會(huì)收集大量數(shù)據(jù),再加上GPU等高性能計(jì)算設(shè)備的普及,我們有機(jī)會(huì)完成大規(guī)模的機(jī)器訓(xùn)練。特別的,上面ABC三點(diǎn)中的A,即算法,最主要的就是指深度學(xué)習(xí)(Deep Learning)。
深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域,解決了或者推動(dòng)了一大類非線性的映射函數(shù)學(xué)習(xí)的問(wèn)題。這樣的方式,使AI開(kāi)發(fā)的方法論產(chǎn)生了極大變化。
但與此同時(shí),從落地角度來(lái)看,依賴于有標(biāo)注大數(shù)據(jù)的深度學(xué)習(xí)也還存在非常多問(wèn)題。
首先,個(gè)性化需求非常多,可批量復(fù)制的“標(biāo)品”比較少。以巡邏機(jī)器人為例,可能需要開(kāi)發(fā)塑料瓶子檢測(cè)系統(tǒng),也可能是塑料袋識(shí)別,甚至是爛白菜的識(shí)別,這么多不同的物體的識(shí)別是非常重的開(kāi)發(fā)任務(wù)。
其次,從計(jì)算角度講,深度學(xué)習(xí)的計(jì)算成本比較高,端側(cè)的計(jì)算能力需求較大。而且AI技術(shù)的生產(chǎn)效率現(xiàn)在還比較低。如何加快生產(chǎn)效率,需要大量懂深度學(xué)習(xí)的專業(yè)算法人才,而現(xiàn)在并沒(méi)有這么多的人才儲(chǔ)備。
現(xiàn)階段,AI人才奇缺。行業(yè)的碩士畢業(yè)生大概30-50萬(wàn)年薪,博士是50-80萬(wàn)年薪。對(duì)比人才數(shù)量的稀缺,開(kāi)發(fā)任務(wù)卻十分繁重,如果每個(gè)任務(wù)都做要3-5個(gè)月才能完成,這是"災(zāi)難性"的事情。
以下是中科視拓創(chuàng)始人董事長(zhǎng)兼CTO山世光演講發(fā)言:
非常榮幸有機(jī)會(huì)來(lái)到鈦媒體今年的年度盛典給大家做一次分享。
如果說(shuō)創(chuàng)業(yè),我是一個(gè)新兵。我在中科院系統(tǒng)工作了20年,從事基礎(chǔ)研究和應(yīng)用技術(shù)研發(fā)工作。我今天的分享有很多內(nèi)容跟技術(shù)相關(guān)。我演講的題目叫《計(jì)算機(jī)視覺(jué)技術(shù)現(xiàn)狀展望和產(chǎn)業(yè)化》。
首先,我們說(shuō)計(jì)算機(jī)視覺(jué)是什么樣的學(xué)科,要做什么的事情?
很多人不了解這件事為什么那么難?如果看一下我們需要處理的對(duì)象,就會(huì)發(fā)現(xiàn)它確實(shí)是非常難的任務(wù)。
我們所謂的圖像是用攝像頭來(lái)捕捉物體表面反射的不同顏色的光,進(jìn)行采樣,每個(gè)點(diǎn)即像素都用紅綠藍(lán)三個(gè)不同的分量數(shù)值表示不同的顏色。所以,到了計(jì)算機(jī)里面,每幅圖像就是很多很多0-255之間的整數(shù)值。大家看這些數(shù)。相信沒(méi)有一個(gè)人在非常短的時(shí)間內(nèi),能夠通過(guò)觀察這些數(shù)告訴我圖像里的內(nèi)容是什么。計(jì)算機(jī)視覺(jué)要完成的就是這樣的任務(wù),通過(guò)對(duì)這些數(shù)的分析完成對(duì)圖像內(nèi)容的理解。
這次人工智能的浪潮,首先在語(yǔ)音識(shí)別和圖像識(shí)別領(lǐng)域取得了顯著的進(jìn)步,并進(jìn)一步引發(fā)了AI在更多領(lǐng)域的應(yīng)用。
從圖像識(shí)別或計(jì)算機(jī)視覺(jué)角度講,在2012年,深度學(xué)習(xí)首次在Imagnet評(píng)測(cè)數(shù)據(jù)集上應(yīng)用,一下子將分類錯(cuò)誤率降低了10個(gè)百分點(diǎn)。從圖像分類的角度來(lái)講,在2011年,圖像分類錯(cuò)誤率是26%,到了2012年,利用深度學(xué)習(xí)之后,下降到16%。到了2016年,隨著深度學(xué)習(xí)模型深度不斷加深,錯(cuò)誤率進(jìn)一步下降到了2.3%。也就是說(shuō),大概在5年時(shí)間里,圖像識(shí)別率的錯(cuò)誤率降低了10倍。
下面是其他五個(gè)深度學(xué)習(xí)帶來(lái)重要進(jìn)步的典型例子。
在物體檢測(cè)領(lǐng)域。所謂物體檢測(cè)就是提供給一張照片,把照片里不同的物體,如車、人等物體框出來(lái)。2013年,在Imagnet測(cè)試集上檢測(cè)正確率只有23%,到了2017年,正確率達(dá)到了73%,在視頻里尋找30類物體也達(dá)到80%的精度。
在視頻監(jiān)控領(lǐng)域,我們希望能夠?qū)θ?、車、物進(jìn)行檢測(cè)識(shí)別,利用深度學(xué)習(xí),現(xiàn)在很多系統(tǒng)包括中科視拓的技術(shù)都可以實(shí)現(xiàn)對(duì)人、車、騎行的準(zhǔn)確檢測(cè)、跟蹤以及對(duì)性別、車型等屬性的大致分類。
在圖像分割領(lǐng)域,例如為了實(shí)現(xiàn)自動(dòng)駕駛,給一幅圖像之后,我們希望算法能夠知道哪塊是道路、哪塊是樹(shù)木、哪塊是建筑,這是一個(gè)分割問(wèn)題。從2013年到2017年,分割的準(zhǔn)確率也從50%提高到了86.9%。
還有一個(gè)任務(wù)從2015年左右才開(kāi)始逐漸得到重視,即所謂的“看圖作文”,就是在提供一幅圖像之后,希望計(jì)算機(jī)能夠生成一句或一段文本描述圖像里的內(nèi)容。在過(guò)去兩三年里,這一技術(shù)得到了非常大的進(jìn)步,有些系統(tǒng)產(chǎn)生的文本描述已經(jīng)可以和人對(duì)這個(gè)圖像的描述媲美,甚至有些普通人已經(jīng)不能夠判斷到底是機(jī)器自動(dòng)生成的一段話,還是真人寫(xiě)出來(lái)的一段話。實(shí)現(xiàn)這一任務(wù)采用的方法也是以深度學(xué)習(xí)為基礎(chǔ)的。
還有一些類似藝術(shù)創(chuàng)作的技術(shù)進(jìn)展,比如我們可以通過(guò)計(jì)算給一幅圖像轉(zhuǎn)化風(fēng)格,把一個(gè)人的頭發(fā)顏色改掉,加上一個(gè)劉海,或者加上眼鏡,所產(chǎn)生的圖像可以以假亂真;我們也可以把一副普通的圖像變成莫奈風(fēng)格的油畫(huà),把馬變成斑馬,把冬天的照片變成夏天的照片。
上個(gè)月,iPhoneX的發(fā)布使我們進(jìn)一步對(duì)人臉識(shí)別應(yīng)用有了更加深刻的認(rèn)識(shí)。其實(shí)在人臉識(shí)別領(lǐng)域,過(guò)去兩到三年,也出現(xiàn)了2-4個(gè)數(shù)量級(jí)的錯(cuò)誤率下降。蘋(píng)果聲稱iPhone X所采用的FaceID錯(cuò)誤率大概在百萬(wàn)分之一,意味著如果有一百萬(wàn)個(gè)人撿到你的手機(jī),只有一個(gè)人可以冒充你解鎖成功。因?yàn)樗捎玫?a href="http://wenjunhu.com/v/tag/117/" target="_blank">傳感器是RGBD相機(jī),里面不僅有彩色照片,還有深度信息、近紅外信息,同時(shí)在注冊(cè)階段也會(huì)捕捉你的多幅照片,以及在識(shí)別階段也是近距離進(jìn)場(chǎng)的識(shí)別等等,這些方式都使得iPhone X的FaceID識(shí)別任務(wù)成為人臉識(shí)別領(lǐng)域一個(gè)相對(duì)比較容易的任務(wù)。其實(shí)三星Note3幾年前就已經(jīng)可以用人臉識(shí)別解鎖,華為也在去年與我們合作將人臉識(shí)別應(yīng)用到了其榮耀Magic手機(jī)上去實(shí)現(xiàn)對(duì)手機(jī)的半解鎖。
其實(shí)人臉識(shí)別有非常多不同的應(yīng)用場(chǎng)景,手機(jī)的應(yīng)用只是其中之一,即使是一比一驗(yàn)證你是不是你的任務(wù),也有不同的應(yīng)用場(chǎng)景。比如,在機(jī)場(chǎng)、車站等應(yīng)用場(chǎng)景,用身份證中的卡內(nèi)人臉照片和持卡人人臉比對(duì),在過(guò)去3-4年里錯(cuò)誤率大概下降了2-4個(gè)數(shù)量級(jí),達(dá)到了萬(wàn)分之一甚至更低的錯(cuò)誤率,即有一萬(wàn)個(gè)人試圖冒充你,只有一個(gè)人可能成功,在這種情況下,本人持自己身份證可以有95%以上的正確識(shí)別率。企業(yè)員工刷卡后進(jìn)行人臉驗(yàn)證的正確率則可以高達(dá)99%。
對(duì)于這些技術(shù)背后的AI,如果我們用一個(gè)簡(jiǎn)單的公式來(lái)表達(dá),那就是“A+B+C”。A是Algorithm即算法,B是Bigdata大數(shù)據(jù),C是算力Computing。我想這樣的公式或這樣的說(shuō)法,最近一段時(shí)間大家都越來(lái)越熟悉了。這三者中,A即算法,最主要的就是指深度學(xué)習(xí)算法了。
所謂深度學(xué)習(xí)其實(shí)并不是新的技術(shù),在上世紀(jì)八十年代中后期的時(shí)候,理論、方法就基本成熟,但因?yàn)楫?dāng)時(shí)沒(méi)有大量數(shù)據(jù),沒(méi)有足夠強(qiáng)的計(jì)算能力,這就使在當(dāng)時(shí)我們不可能發(fā)揮它的作用。
2012年之后,因?yàn)榛ヂ?lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,使我們有更多機(jī)會(huì)收集大量數(shù)據(jù),再加上有GPU等平民化高性能計(jì)算設(shè)備的出現(xiàn),使我們有機(jī)會(huì)完成大規(guī)模的深度學(xué)習(xí)算法的訓(xùn)練。
深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域,解決了或者至少推動(dòng)了一大類非線性的映射函數(shù)學(xué)習(xí)的問(wèn)題。換句話說(shuō),給我們一張照片,這些照片就是一些數(shù)值,形成輸入x,我們通過(guò)深度模型學(xué)習(xí)一個(gè)F函數(shù),用F作用于x,即F(x)得到我們想要得到的Y,這個(gè)Y可能是一個(gè)標(biāo)簽(比如貓,狗),也可能是我們想要分割的結(jié)果。
這樣的方式,使我們做AI的方法論產(chǎn)生了極大變化。從過(guò)去,我們大量依賴人類專家知識(shí)來(lái)設(shè)計(jì)算法,到現(xiàn)在,變成有大監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法為主。
以一個(gè)具體的應(yīng)用需求為例(從客戶那挖掘出來(lái)的案例)。
我們一個(gè)客戶做了小區(qū)巡邏機(jī)器人,物業(yè)希望這個(gè)機(jī)器人可以幫助解決小區(qū)管理中的一個(gè)痛點(diǎn)問(wèn)題。小區(qū)里經(jīng)常有小狗亂拉屎,所以物業(yè)需要一個(gè)狗屎檢測(cè)系統(tǒng)。這樣的話,巡邏機(jī)器人可以及時(shí)發(fā)現(xiàn)這樣的垃圾,然后“報(bào)警”,由保潔及時(shí)來(lái)清除掉。
在沒(méi)有深度學(xué)習(xí)的時(shí)候,我們需要做的是:
第一步,收集一定量的包含狗屎的圖像數(shù)據(jù)。
第二步,人工設(shè)計(jì)或選擇一些特征。
第三步,選擇某種分類器在收集的數(shù)據(jù)集合上測(cè)試它,看它效果好不好。如果不夠好就回到第二步,不斷進(jìn)行反饋和調(diào)整。
這是一個(gè)人工設(shè)計(jì)特征的過(guò)程,這樣的方式非常耗時(shí),非常不高效。我們做人臉檢測(cè)花了20年,做行人車輛檢測(cè)大概花了10年,即使狗屎檢測(cè)相對(duì)容易,可能也需要至少一年。深度學(xué)習(xí)來(lái)了之后,整個(gè)過(guò)程變得很不一樣。如果我們采用眾包等方式,可能在一個(gè)月時(shí)間里就可以收集上萬(wàn)張標(biāo)注了狗屎的照片,然后算法工程師可以根據(jù)經(jīng)驗(yàn)選擇一個(gè)深度學(xué)習(xí)算法,并設(shè)定一些超參數(shù),然后只需要讓機(jī)器在收集的數(shù)據(jù)集上進(jìn)行訓(xùn)練和學(xué)習(xí)就可以了,這個(gè)過(guò)程可以非常快速的完成,大概只需要三個(gè)月。從過(guò)去的數(shù)年到現(xiàn)在的數(shù)月,顯然大大提高了我們研發(fā)一項(xiàng)AI技術(shù)的效率。
這樣的方法論極大的提高了視覺(jué)技術(shù)的水平和落地效率。
我認(rèn)為很多場(chǎng)景下能看的AI才有真的智能。所以,視覺(jué)智能會(huì)有大量場(chǎng)景化需求,如果我們?nèi)ゼ?xì)看每一個(gè)領(lǐng)域,從公共安全、機(jī)器人、自動(dòng)駕駛、無(wú)人機(jī)到醫(yī)療,每個(gè)領(lǐng)域我們都可以非常輕易的發(fā)現(xiàn)視覺(jué)的用武之地。如果AI有一雙眼睛(也就是有攝像頭),我們背后有合適的算法,機(jī)器就可以更多的替換或者輔助人更好、更高效的做我們想要它做的事情。
但從落地角度來(lái)講,也存在非常多問(wèn)題。
問(wèn)題一:個(gè)性化需求非常多,可批量復(fù)制的“標(biāo)品”比較少。
以“狗屎”識(shí)別機(jī)器人為例,可能明天還需要一個(gè)塑料瓶子檢測(cè),后天是塑料袋識(shí)別,再后天是白菜識(shí)別,這么多不同的物體,如果我們都采用前面說(shuō)的那種開(kāi)發(fā)方式,每種東西需要至少三個(gè)月,那么我們就會(huì)面臨非常重的開(kāi)發(fā)任務(wù),關(guān)鍵是現(xiàn)在并沒(méi)有這么多人才可以去做這么多事。
從落地角度來(lái)看,誰(shuí)來(lái)做、誰(shuí)去買(mǎi)單、誰(shuí)去開(kāi)發(fā)算法,采用什么樣的商業(yè)模式和合作模式都是問(wèn)題。
問(wèn)題二:從計(jì)算力角度講,深度學(xué)習(xí)的計(jì)算成本相對(duì)比較高。最近很多的AI專用芯片市場(chǎng)就是在解決這類問(wèn)題。
AI技術(shù)的生產(chǎn)效率現(xiàn)在是比較低的,我們要加快生產(chǎn)效率,就需要人力,需要高水平的AI算法人才??墒茿I的人才奇缺?,F(xiàn)在深度學(xué)習(xí)專業(yè)碩士畢業(yè)生可以拿到30-50萬(wàn)年薪,博士則可以高達(dá)50-80萬(wàn)年薪。在座的女孩們,如果沒(méi)有男朋友的話,到我們這個(gè)領(lǐng)域看一看。
相比可用的人才數(shù)量,這么多的視覺(jué)處理任務(wù),如果每個(gè)任務(wù)都要2個(gè)碩士博士做3-5個(gè)月才能完成,這將是災(zāi)難性的事情。
所以,未來(lái)我們需要新的方法論,從現(xiàn)在有監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法論,變成知識(shí)和數(shù)據(jù)聯(lián)合驅(qū)動(dòng)的方法論,為了完成這些事情,我們需要更強(qiáng)大的機(jī)器學(xué)習(xí)方法。使得我們?cè)诓煌瑪?shù)據(jù)條件下也可以獲得穩(wěn)定、可靠的識(shí)別能力,這就體現(xiàn)在我們可能需要利用小數(shù)據(jù)、臟數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。
此外,用來(lái)學(xué)習(xí)的數(shù)據(jù)還可能是半監(jiān)督的數(shù)據(jù)、弱監(jiān)督的數(shù)據(jù),比如給你一張照片告訴你其中有狗屎,但并沒(méi)有明確告訴你這個(gè)狗屎在什么位置,如果我們能有可以充分利用這些數(shù)據(jù)的更好的機(jī)器學(xué)習(xí)方法,我們才可能更加快速的開(kāi)發(fā)AI技術(shù)。
這還不夠,我們還希望有更快捷的AI開(kāi)發(fā)方法。比如我們希望開(kāi)發(fā)一個(gè)安全帽檢測(cè)的引擎,這是實(shí)際需求。我們一旦把這個(gè)任務(wù)交給機(jī)器之后,希望AI生產(chǎn)平臺(tái)可以全自動(dòng)完成全部的開(kāi)發(fā)過(guò)程。機(jī)器完成這個(gè)任務(wù)的可能流程是:首先,它會(huì)理解這是一個(gè)檢測(cè)任務(wù),檢測(cè)目標(biāo)是安全帽,然后機(jī)器自動(dòng)在百度上去搜索大量安全帽的圖像,然后在百度上搜索一些關(guān)于安全帽的知識(shí)描述,例如安全帽多數(shù)是圓的,顏色各異,經(jīng)常戴在人頭上等等。然后,算法就通過(guò)對(duì)這樣一些數(shù)據(jù)的自動(dòng)處理和學(xué)習(xí),以及知識(shí)的利用完成一個(gè)“安全帽檢測(cè)”AI引擎的開(kāi)發(fā)。
遺憾的是,從算法的角度來(lái)講,以我對(duì)該領(lǐng)域?qū)W術(shù)前沿的了解,要達(dá)到這樣的目標(biāo)我們可能還需要5-10年,還不一定100%完全做到那種程度。
在此之前,工業(yè)界最靠譜的做法恐怕還是采用“數(shù)據(jù)暴力”來(lái)完成多數(shù)類似AI任務(wù)的研發(fā)。但我們?nèi)绾谓鉀Q缺少大量AI算法工程師的問(wèn)題呢?我認(rèn)為我們需要一個(gè)更強(qiáng)大、更便捷的AI算法生產(chǎn)基礎(chǔ)設(shè)施。這樣的基礎(chǔ)設(shè)施,就像當(dāng)年從專業(yè)相機(jī)到傻瓜相機(jī)的歷史演變一樣。
為了讓我們有更多的人才可以開(kāi)發(fā)AI,以滿足大量的視覺(jué)智能開(kāi)發(fā)任務(wù),我們的AI生產(chǎn)工具要從Caffe,Mxnet和Tensorflow等只能昂貴的高端人才可以使用的開(kāi)發(fā)工具發(fā)展到“傻瓜式”的AI開(kāi)發(fā)平臺(tái)。這樣的平臺(tái)應(yīng)該使更多的中低端人才,即使不懂AI、不懂深度學(xué)習(xí),也可以經(jīng)過(guò)簡(jiǎn)單的培訓(xùn),就可以利用自己的私有數(shù)據(jù),在這樣的軟硬建基礎(chǔ)設(shè)施平臺(tái)上,方便快捷的開(kāi)發(fā)出自己所需要的AI技術(shù)引擎,并便捷的嵌入自己的業(yè)務(wù)系統(tǒng)中。
我作為主要?jiǎng)?chuàng)始人成立的中科視拓,自去年8月成立以來(lái),不僅做了大量人臉識(shí)別、無(wú)人機(jī)視覺(jué)等計(jì)算機(jī)視覺(jué)技術(shù)服務(wù)項(xiàng)目,開(kāi)發(fā)了多款人臉識(shí)別產(chǎn)品和解決方案。與此同時(shí),我們已經(jīng)研發(fā)了一個(gè)稱為SeeTaaS的深度學(xué)習(xí)算法開(kāi)發(fā)平臺(tái),這個(gè)平臺(tái)不但在我們公司內(nèi)部逐步得到了應(yīng)用,也已經(jīng)開(kāi)始提供給我們的B端客戶,使他們也具備了用自己的私有數(shù)據(jù)訓(xùn)練自己所需的深度學(xué)習(xí)算法和引擎的能力。相信這個(gè)SeeTaaS平臺(tái)會(huì)越來(lái)越好用,最終實(shí)現(xiàn)我們“讓天下沒(méi)有難開(kāi)發(fā)的AI”這一夢(mèng)想!
謝謝大家!
-
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269217 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121207 -
山世光
+關(guān)注
關(guān)注
0文章
1瀏覽量
985
原文標(biāo)題:山世光:AI產(chǎn)業(yè)需要賦能平臺(tái)
文章出處:【微信號(hào):deeplearningclass,微信公眾號(hào):深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論