對(duì)騰訊優(yōu)圖的發(fā)展歷程,吳永堅(jiān)表示,優(yōu)圖是非常幸運(yùn)的,幸運(yùn)的同時(shí)也知道優(yōu)圖選對(duì)了方向,只要堅(jiān)持,還是會(huì)有收獲的。
12 月 15 日,以"新趨勢(shì)、新技術(shù)、新應(yīng)用"為主題的首屆騰訊云+社區(qū)開(kāi)發(fā)者大會(huì)上,騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān)吳永堅(jiān)分享了《計(jì)算機(jī)視覺(jué)在產(chǎn)業(yè)中的應(yīng)用實(shí)踐和前沿思考》。目前,騰訊優(yōu)圖在計(jì)算機(jī)視覺(jué)技術(shù)方面的產(chǎn)業(yè)研究和應(yīng)用,涵蓋了零售、安防、金融等領(lǐng)域的實(shí)際應(yīng)用案例和經(jīng)驗(yàn)。
以下為演講整理,文章略有刪減:
什么是計(jì)算機(jī)視覺(jué)?計(jì)算機(jī)視覺(jué)到底是一個(gè)什么樣的問(wèn)題?簡(jiǎn)言之,計(jì)算機(jī)視覺(jué)是一門研究如何讓機(jī)器“看”的學(xué)問(wèn),涉及的重要一點(diǎn)是圖像理解的技術(shù)。
大家也許會(huì)問(wèn)為什么計(jì)算機(jī)視覺(jué)在近五年來(lái)發(fā)展特別快,同時(shí)也誕生了很多的創(chuàng)業(yè)公司?就本質(zhì)來(lái)講,計(jì)算機(jī)視覺(jué)能夠?qū)⒕€上線下的東西關(guān)聯(lián),關(guān)聯(lián)人、關(guān)聯(lián)物,這是它能發(fā)展起來(lái)的一個(gè)重要原因。
簡(jiǎn)單介紹下,騰訊優(yōu)圖是騰訊旗下的一個(gè)頂尖 AI 實(shí)驗(yàn)室,主要專注于人臉、人體、交通、醫(yī)療、影像、自動(dòng)駕駛等有關(guān)計(jì)算機(jī)視覺(jué)領(lǐng)域的前沿研究和落地應(yīng)用,曾有過(guò)多次刷新的實(shí)驗(yàn)記錄。
有幾個(gè)數(shù)字需要了解:騰訊優(yōu)圖實(shí)驗(yàn)室可提供 12 個(gè)行業(yè)解決方案,接入超過(guò) 70 多個(gè)騰訊明星產(chǎn)業(yè)的產(chǎn)品,擁有超過(guò) 700 多個(gè)全球?qū)@?/p>
作為一個(gè)技術(shù)人員來(lái)說(shuō),我覺(jué)得這一組數(shù)據(jù)都是非常值得驕傲的。同時(shí),實(shí)驗(yàn)室每年都會(huì)刷新一些新的世界紀(jì)錄,在今年 10 月,騰訊優(yōu)圖推出了DSFD 人臉檢測(cè)算法,在兩個(gè)關(guān)于人臉檢測(cè)的權(quán)威數(shù)據(jù)庫(kù) WIDERFACE 和 FDDB 上再次刷新世界紀(jì)錄。
通過(guò)展示騰訊優(yōu)圖相關(guān)技術(shù)棧,可以看到騰訊優(yōu)圖聚焦計(jì)算機(jī)視覺(jué),輸出整體技術(shù)能力,希望覆蓋到包括社交娛樂(lè)、安防、零售在內(nèi)的各行各業(yè)。
嘗試——從QQ空間到“天天P圖”
在騰訊內(nèi)部,我們最先落地的是社交娛樂(lè),這也是我們這幾年來(lái)一直去做的事情。優(yōu)圖團(tuán)隊(duì)在 2012 年成立,當(dāng)時(shí)正處于 PC 互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代,我們需要不斷將技術(shù)輸入到 PC 端的相關(guān)應(yīng)用中。而人臉技術(shù)在當(dāng)時(shí)對(duì)騰訊甚至整個(gè)行業(yè)都很新。那我們?yōu)槭裁催x擇這個(gè)行業(yè)?選擇人臉技術(shù)這個(gè)比較新的領(lǐng)域進(jìn)行研究?
當(dāng)時(shí),我們發(fā)現(xiàn) QQ 空間上有很多用戶上傳的圖片素材,而很多用戶公開(kāi)的圖片中有一半以上是和人的臉部信息相關(guān)的,比如自拍、合照等。我們認(rèn)為這是下一個(gè)風(fēng)口,需要提前布局。
雖然我們很早運(yùn)用了人臉檢測(cè)的技術(shù),在 QQ 空間或 PC 端進(jìn)行嘗試,但怎么做都沒(méi)有產(chǎn)生很大的價(jià)值。我們對(duì)選擇的技術(shù)方向曾經(jīng)有過(guò)糾結(jié),但我們想既然用戶上傳這么多圖片都有人臉,一定是我們沒(méi)研究透徹,不等于它沒(méi)有將來(lái)。
很幸運(yùn),我們等到了另一個(gè)移動(dòng)端的爆款產(chǎn)品“天天P圖”。隨著 2015 年《武媚娘》電視劇火了起來(lái),我們的技術(shù)如人臉美妝、人臉檢測(cè)有了用武之地??梢哉f(shuō)我們是非常幸運(yùn)的,幸運(yùn)的同時(shí)也知道我們賭對(duì)了方向,只要堅(jiān)持,還是會(huì)有亮點(diǎn)的。
“天天P圖”去年還做的一款變臉 H5 “我的軍裝照”,更成為現(xiàn)象級(jí)刷屏事件,訪問(wèn)量超過(guò) 10 億次,作為創(chuàng)新方面的案例被人民日?qǐng)?bào)重點(diǎn)收錄。
延伸——從消費(fèi)場(chǎng)景到產(chǎn)業(yè)端
從消費(fèi)互聯(lián)網(wǎng)到產(chǎn)業(yè)互聯(lián)網(wǎng),從基于消費(fèi)場(chǎng)景的不斷積累到探索產(chǎn)業(yè)場(chǎng)景的應(yīng)用和落地,這成為騰訊多年發(fā)展歷程里所經(jīng)歷的一個(gè)必然階段。騰訊優(yōu)圖也開(kāi)始嘗試在產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域的落地,我們首先瞄準(zhǔn)的是安防行業(yè)。2017 年,騰訊優(yōu)圖推出了面向治安管理場(chǎng)景的優(yōu)圖天眼智能安防平臺(tái),以及面向交通監(jiān)督場(chǎng)景的智能交通平臺(tái)。
以優(yōu)圖天眼智能安防平臺(tái)為例,它支持上億張人臉照的搜索,只要用戶上傳一張人臉照,就可以跟系統(tǒng)庫(kù)進(jìn)行核對(duì)反饋,毫秒級(jí)別識(shí)別速度,比如說(shuō)對(duì)失蹤老人和失蹤兒童問(wèn)題有很大的社會(huì)價(jià)值。我們?cè)诮衲晔讓弥袊?guó)國(guó)際進(jìn)口博覽會(huì)上,以及深圳市人臉核審統(tǒng)一認(rèn)證平臺(tái)項(xiàng)目等等,得到了很多客戶的認(rèn)可。
除了安防外,我們還在零售領(lǐng)域進(jìn)行了嘗試。
這個(gè)賽道里最重要的一點(diǎn)就是如何連接好線上線下。如通過(guò)人臉檢測(cè)設(shè)備,計(jì)算機(jī)視覺(jué)技術(shù)就可以做一個(gè)線上線下很好的關(guān)聯(lián),所以視覺(jué)AI將零售自然而言地關(guān)聯(lián)了起來(lái)。
去年年底,我們跟騰訊云聯(lián)合推出了“騰訊優(yōu)Mall智慧零售系統(tǒng)”,可幫助企業(yè)用戶打造“知人知面更知心”的智慧門店,借助計(jì)算機(jī)視覺(jué)能力為不同的顧客進(jìn)行定制化推薦等。目前我們已與百麗國(guó)際旗下的滔博運(yùn)動(dòng)建立合作,今年 5 月,我們還聯(lián)合微信支付為家樂(lè)福上海天山店提供了刷臉支付系統(tǒng)。
此外,我們還有在金融行業(yè)的嘗試。
在金融領(lǐng)域最主要的應(yīng)用是人臉核身的解決方案,它有效提升了銀行、保險(xiǎn)、證券等行業(yè)的核身效率。什么是核身技術(shù)?就是驗(yàn)證線下這個(gè)人是否是與身份證呈現(xiàn)的是同一個(gè)人的技術(shù)。這種技術(shù)包括身份證 OCR 技術(shù)、活體檢測(cè)和人臉比對(duì)技術(shù),綜合保障人臉核身的準(zhǔn)確性與有效性。目前我們跟騰訊旗下的微眾銀行有了很好的落地合作。
深化——深度學(xué)習(xí)模型推斷與訓(xùn)練研究
剛才說(shuō)了很多案例,接下來(lái)我介紹下騰訊優(yōu)圖在深度學(xué)習(xí)這股技術(shù)浪潮中對(duì)計(jì)算機(jī)視覺(jué)的研究與思考。
首先來(lái)看看圖像在社交領(lǐng)域的探索。
短視頻這一年非常火,如何進(jìn)行實(shí)時(shí)裝飾是一個(gè)非常大的技術(shù)挑戰(zhàn):
第一點(diǎn),需要有很高的計(jì)算精度,因?yàn)閷⒀b飾物投影到人臉上,看得到的人臉像素要非常穩(wěn),就是說(shuō)從這一幀到下一幀,人臉位置盡量不能浮動(dòng),需要很高的精度;
第二點(diǎn)是計(jì)算的速度,因?yàn)樗采w了很多計(jì)算機(jī)型,需要一秒能夠處理100 幀以上;
對(duì)模型的大小要求也非常高,因?yàn)楝F(xiàn)在前端的很多處理是放在手機(jī)端的,其容量及安裝更新都有很大的限制,這就要求我們的大小只能控制在5 兆以內(nèi)。
最后,就是需要特別廣的平臺(tái)支持,除了支持如蘋果等高端機(jī)型以外,我們還要支持其他中低端的機(jī)型,至少實(shí)現(xiàn)90% 以上的機(jī)型覆蓋。因?yàn)椴煌臋C(jī)型計(jì)算芯片也不一樣,對(duì)CPU、GPU 都要有很好的兼容。
我們的首要訴求是,在面對(duì)移動(dòng)端上的實(shí)時(shí)計(jì)算時(shí),對(duì)人臉配置需要實(shí)時(shí)、兼容性好的深度學(xué)習(xí)前向推斷框架。
同樣在安防和商超場(chǎng)景的模型里,對(duì)人臉識(shí)別模型的需求也非常大。
通過(guò)圖中展示的學(xué)術(shù)里程碑,從2012 年開(kāi)始,深度學(xué)習(xí)的訓(xùn)練模型層數(shù)在不斷加深,訓(xùn)練的能力也越來(lái)越強(qiáng)。從最開(kāi)始的AlexNet/VGGNet模型,到最近的DPN 結(jié)構(gòu),模型已經(jīng)達(dá)到了上千層,并且有了更復(fù)雜的網(wǎng)絡(luò)子模型。
從優(yōu)圖的角度來(lái)看,業(yè)務(wù)持續(xù)落地帶來(lái)更多的業(yè)務(wù)數(shù)據(jù),2014 年我們訓(xùn)練的只有百萬(wàn)級(jí)別的數(shù)據(jù),而現(xiàn)在已是10 億級(jí)別甚至更高,如果還是使用單機(jī)訓(xùn)練的話需要超過(guò)半年時(shí)間。
在具體的場(chǎng)景里,如安防、娛樂(lè)、商超等,每個(gè)場(chǎng)景略有不同。如果對(duì)每個(gè)場(chǎng)景訓(xùn)練獨(dú)立模型,周期太長(zhǎng),無(wú)法滿足業(yè)務(wù)快速迭代的需求;此外百萬(wàn)級(jí)搜索參數(shù)規(guī)模已高達(dá)4GB,帶寬成為嚴(yán)重的通信瓶頸。
面對(duì)計(jì)算、帶寬瓶頸和大量定制化的訓(xùn)練需求,這需要我們要有一個(gè)大規(guī)模集群化平臺(tái)統(tǒng)一訓(xùn)練和解決。
總結(jié)來(lái)講,在傳統(tǒng)機(jī)器學(xué)習(xí)邁向深度學(xué)習(xí)的過(guò)程中,我們始終面臨模型訓(xùn)練與模型推斷的挑戰(zhàn)。現(xiàn)有的深度學(xué)習(xí)開(kāi)源框架,面對(duì)這兩方面的挑戰(zhàn),無(wú)法提供合適的解決方案。
實(shí)際上,我們內(nèi)部研發(fā)了兩個(gè)系統(tǒng):
一個(gè)是高性能分布式訓(xùn)練平臺(tái)RadpidFlow,可支持多機(jī)多卡訓(xùn)練,提供完整的定點(diǎn)量化解決方案?!岸c(diǎn)量化”即意味著從原來(lái)的 32 位能夠降到 8 位甚至更低,只有 8 位的訓(xùn)練模型才能更快的在前端跑起來(lái),對(duì)帶寬能夠進(jìn)行充分的利用。
另一個(gè)是跨平臺(tái)的框架RadpidNet,能夠針對(duì)不同的芯片異構(gòu)設(shè)備進(jìn)行深度定制和優(yōu)化,資源占用少,計(jì)算速度快。
值得一提的是,去年,騰訊優(yōu)圖推出了一款移動(dòng)端開(kāi)源神經(jīng)推斷網(wǎng)絡(luò)庫(kù) NCNN(RadpidNet的前身)。目前它不僅在業(yè)界所有開(kāi)源深度前向推斷框架中排名第一,而且已經(jīng)被很多公司所應(yīng)用,在今年被邀請(qǐng)加入了 Facebook ONNX 社區(qū)。當(dāng)然,在我們看來(lái)NCNN還是有很多不能滿足業(yè)務(wù)需求的,所以我們后來(lái)基于NCNN做了很多研發(fā)創(chuàng)新,形成了現(xiàn)在我們使用的RapidNet。
演進(jìn)——性能不斷提升,功耗持續(xù)優(yōu)化
另外再說(shuō)一下當(dāng)前芯片的發(fā)展趨勢(shì)。
大家經(jīng)常會(huì)聽(tīng)到 CPU、GPU、AI 芯片,它們到底是什么關(guān)系?我簡(jiǎn)單總結(jié)一下芯片的發(fā)展趨勢(shì)。
就芯片本身來(lái)講,因面積有限,最開(kāi)始 CPU 為保證通用處理性能會(huì)占用很多的控制單元,而這部分不是用來(lái)計(jì)算的,算力比較弱;到了 GPU 時(shí)代,也就是 NVIDIA 發(fā)展起來(lái)的一個(gè)重要時(shí)期,它能夠把原來(lái)圖形處理的設(shè)計(jì)單元與深度學(xué)習(xí)進(jìn)行適配,算力強(qiáng),但功耗比較高;再往后的專用 AI 芯片,專用卷積加速模塊,為 AI 加速設(shè)計(jì),包括很多的大公司或創(chuàng)業(yè)公司都在做這類的 AI 芯片。
通過(guò)騰訊優(yōu)圖過(guò)去幾年嘗試的真實(shí)場(chǎng)景中所積累的經(jīng)驗(yàn),可以發(fā)現(xiàn)兩個(gè)很明顯的發(fā)展趨勢(shì):
首先是性價(jià)比會(huì)越來(lái)越高,同樣的價(jià)格,同一芯片所能提供的算力越來(lái)越強(qiáng),這符合摩爾定律;但如果打通這些芯片橫向?qū)Ρ?,我們還發(fā)現(xiàn)一個(gè)規(guī)律,單位功耗所買到的算力也越來(lái)越高,也就是說(shuō),單位算力輸出的情況下,功耗越來(lái)越低,這就引入了所謂“云+端”的概念。
這導(dǎo)致的另一個(gè)趨勢(shì)是,計(jì)算力開(kāi)始從云向端上走。如從前段時(shí)間的英偉達(dá)的GPU到現(xiàn)在的英特爾Movidus芯片和國(guó)內(nèi)的華為海思芯片都在進(jìn)行這方面的嘗試,騰訊優(yōu)圖深度學(xué)習(xí)平臺(tái)的研究方向也從原來(lái)的 CPU、GPU 往 AI 芯片的方向上走。
在 11 月初的騰訊全球合作伙伴大會(huì)上,騰訊優(yōu)圖推出了一系列智能硬件產(chǎn)品,其中包括優(yōu)圖人臉識(shí)別一體機(jī)、優(yōu)圖盒子及騰訊優(yōu)圖 AI 攝影機(jī)。通過(guò)軟硬件協(xié)同,騰訊優(yōu)圖以更低成本、更佳性能和更優(yōu)體驗(yàn)打造一體化的行業(yè)解決方案。
圖中展現(xiàn)了我們當(dāng)前在商超里面部署的三款硬件產(chǎn)品,可以看到:優(yōu)圖人臉識(shí)別一體機(jī),可實(shí)現(xiàn)便利店無(wú)人值守自助進(jìn)店、員工考勤簽到等功能;優(yōu)圖盒子,通過(guò)攝像機(jī)進(jìn)行前端人臉檢測(cè)與識(shí)別,解決的是存量的問(wèn)題;騰訊優(yōu)圖 AI 攝影機(jī),解決的則是增量的問(wèn)題,既可進(jìn)行人臉檢測(cè),也可輸出區(qū)域熱力圖。這是比較完整的軟硬一體化的、“云+端”的商超場(chǎng)景下的解決方案。
目前,優(yōu)圖人臉識(shí)別一體機(jī)已經(jīng)率先在上海佘山世茂洲際深坑酒店落地,用戶只需“刷臉”就可完成會(huì)員注冊(cè)與綁定、酒店用餐、結(jié)賬免密支付等操作。
總結(jié)一下,騰訊優(yōu)圖以計(jì)算機(jī)視覺(jué)技術(shù)為核心,通過(guò)騰訊云以及騰訊 AI 開(kāi)放平臺(tái)將自身的 AI 技術(shù)能力輸出給更多的開(kāi)發(fā)者和企業(yè),從最底層的計(jì)算平臺(tái),到中間的算法能力,再到安防、金融、零售、工業(yè)、教育等多個(gè)行業(yè)解決方案的能力輸出。
-
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46050 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132837 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121338
原文標(biāo)題:騰訊優(yōu)圖吳永堅(jiān):邁向深度學(xué)習(xí),我們面臨模型訓(xùn)練與推薦的雙重考驗(yàn)
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論