硬核干貨+權(quán)威大咖,騰訊優(yōu)圖AI技術(shù)沙龍全紀(jì)錄
當(dāng)警方通過人臉識(shí)別在明星演唱會(huì)現(xiàn)場抓捕逃犯時(shí),當(dāng)人們走進(jìn)餐廳只用“靠臉吃飯”時(shí),當(dāng)凌晨 2:30 還有智能客服解答售后問題時(shí),你是否會(huì)有這樣的疑問:人臉識(shí)別在應(yīng)用的安全性上如何保證?智慧零售如何獲取感知分析能力?AI 算法如何與硬件結(jié)合?終端硬件的計(jì)算能力不足問題該如何解決?伴隨著數(shù)據(jù)量的迅猛增長,帶寬和存儲(chǔ)倍增的壓力又該如何釋放?
3月23日,騰訊優(yōu)圖實(shí)驗(yàn)室首場AI技術(shù)沙龍?jiān)诒本┸噹炜Х葟d成功舉辦。沙龍主題名為智變未來-淺談人工智能技術(shù)應(yīng)用與實(shí)踐,來自騰訊優(yōu)圖、騰訊云、騰訊AI LAB、英特爾的五位技術(shù)講師,圍繞著智慧零售、智能硬件、人臉核身、語音識(shí)別等產(chǎn)品技術(shù),基于實(shí)際業(yè)務(wù)場景的落地與用戶痛點(diǎn)開始了這場布道。
計(jì)算機(jī)視覺技術(shù)在場景的應(yīng)用
騰訊優(yōu)圖產(chǎn)品負(fù)責(zé)人周可菁
智慧零售是以消費(fèi)體驗(yàn)過程為核心,以數(shù)據(jù)驅(qū)動(dòng)的泛零售業(yè)態(tài)。其主要包括場景數(shù)據(jù)化和數(shù)據(jù)網(wǎng)絡(luò)化兩個(gè)結(jié)構(gòu)。以電商為例,當(dāng)消費(fèi)者入店時(shí),其形成的客戶畫像,以及整個(gè)流動(dòng)軌跡,與商品的交互行為,購買,復(fù)購,到最終的離店。全閉程的環(huán)節(jié)都可以以數(shù)據(jù)的形式呈現(xiàn)出來,這也是零售中所談到的非常重要的概念叫做人- 貨 - 場的關(guān)系。
而原本需要依靠門店運(yùn)營者人眼觀察進(jìn)行的分析,現(xiàn)在可通過計(jì)算機(jī)視覺技術(shù)的應(yīng)用實(shí)現(xiàn)數(shù)據(jù)從非結(jié)構(gòu)化到結(jié)構(gòu)化的轉(zhuǎn)變,并實(shí)時(shí)準(zhǔn)確的幫助門店運(yùn)營者分析統(tǒng)計(jì)數(shù)據(jù),為門店實(shí)現(xiàn)降本增效。計(jì)算機(jī)視覺技術(shù)也成為了建立人- 貨 - 場三者聯(lián)系的天然紐帶,并幫助商家提升全鏈路運(yùn)營效率,優(yōu)化客戶體驗(yàn),創(chuàng)造新的商業(yè)機(jī)會(huì)。
那么CV 技術(shù)是如何在線下指導(dǎo)實(shí)踐與應(yīng)用?騰訊優(yōu)圖嘗試將 CV 技術(shù)運(yùn)用到線下門店運(yùn)營的問題解決上,基于圖像識(shí)別技術(shù),人臉識(shí)別技術(shù)等計(jì)算機(jī)視覺技術(shù),幫助商家將線下的場景做到數(shù)字化的分析。此解決方案分為到店—逛店—購買三大模塊,通過對(duì)各個(gè)環(huán)節(jié)的分解和洞察,為零售商打造知人知面更知心的智慧門店。
首先在影響營銷銷售額的10 大因素中過店客流、進(jìn)店客流是非常重大的因素。因此在到店模塊中,客流從過店到進(jìn)店的轉(zhuǎn)換分析下,CV 技術(shù)能力可幫助商家分時(shí)分段的實(shí)時(shí)統(tǒng)計(jì)過店客流,以及過店到進(jìn)店的客流轉(zhuǎn)換,以此來指導(dǎo)零售商分析店鋪的高峰期和冷淡期。同時(shí),按照性別、年齡等特征維度,也可描繪出店家過店客流的人群畫像。這些數(shù)據(jù)一方面可以指導(dǎo)店家調(diào)整櫥窗陳列,另外一方面還可幫助營銷活動(dòng)的決策。如果是一個(gè)大型 Mall 的業(yè)態(tài),或者連鎖店的業(yè)態(tài),還可通過進(jìn)店客流對(duì)所有店鋪進(jìn)行排名,對(duì)比分析不同店鋪客流量好與不好的影響因素,進(jìn)行更加全面的分析與優(yōu)化。
在第一層漏斗轉(zhuǎn)換的分析,接下來就是用戶進(jìn)店后,逛店到購買的轉(zhuǎn)化。
啤酒尿布這個(gè)經(jīng)典營銷案例的背后就隱含著人- 貨 - 場關(guān)系對(duì)營銷的影響,并體現(xiàn)著零售業(yè)中非常重要的一個(gè)指標(biāo):連帶率。它反應(yīng)了顧客購物的深度和廣度。影響連帶率的因素非常多,人的方面像銷售技巧,比如客戶在麥當(dāng)勞中買了薯?xiàng)l,售貨員可能會(huì)詢問客戶是否需要可樂;在貨的層面,商品的 SKU 是否豐富,擺放是否具備吸引力;在場的層面,貨架之間是否有關(guān)聯(lián),場內(nèi)的游逛軌跡是否合理。如果說第一環(huán)節(jié)從過店 - 進(jìn)店是粗力度的客流統(tǒng)計(jì)和畫像刻畫。那么第二環(huán)節(jié),在逛店模塊就需要對(duì)客流做非常細(xì)粒度的統(tǒng)計(jì),幫助提升連帶率的指標(biāo)。
在逛店模塊中,CV 技術(shù)再次幫助用戶實(shí)現(xiàn)客流軌跡和全場熱力的解決方案。
第一步,場內(nèi)精細(xì)客流的統(tǒng)計(jì)。從客流進(jìn)店后,CV可以做到精確到每一分鐘,每幾小時(shí)客流分布情況,以一個(gè)服裝店為例,可以精確到男裝、女裝區(qū)域的客流分布情況,進(jìn)行一個(gè)細(xì)粒度的客流統(tǒng)計(jì);第二步,刻畫客流軌跡。精確到進(jìn)店后人流行走路線,客流整個(gè)的軌跡游逛的動(dòng)線是怎么樣的;第三步,實(shí)現(xiàn)區(qū)域熱力的統(tǒng)計(jì)。熱力分析的業(yè)務(wù)價(jià)值主要體現(xiàn)在零售 KPI 中的“坪效”的指標(biāo)(通常是店長和陳列師的 KPI),表征單位面積區(qū)域?qū)蛻舻奈芰Α?/p>
通過實(shí)現(xiàn)對(duì)場內(nèi)精細(xì)客流的統(tǒng)計(jì)、客流軌跡的刻畫和熱區(qū)的分析,刻畫場內(nèi)用戶行為,給到商家科學(xué)的可視化的數(shù)據(jù),幫助商家合理規(guī)劃顧客行走路線、洞察品類、洞察商品相關(guān)性,從而實(shí)現(xiàn)品類調(diào)換,布局優(yōu)化,以及更加精準(zhǔn)的定位人貨場關(guān)系。
AI算法與智能硬件
騰訊優(yōu)圖AI應(yīng)用研究高級(jí)研究員 王川南
在零售的場景中,客流統(tǒng)計(jì)、屬性分析以及VIP 客戶識(shí)別的過程跟安防不太一樣,安防大多是局域網(wǎng)的環(huán)境,從攝像頭到處理單元基本上都在同一網(wǎng)絡(luò)內(nèi)。但零售場景的遍布全國各地線下商家非常多,攝像頭布置在門店中,數(shù)據(jù)處理則一般放在云端,這勢必會(huì)產(chǎn)生這樣的問題:攝像機(jī)的視頻如果上傳時(shí)帶寬不夠該如何解決?常規(guī)的處理思路一般是使用 AI 攝像頭,在攝像頭側(cè)進(jìn)行 AI 預(yù)處理。對(duì)于沒有智能的傳統(tǒng)碼流機(jī),騰訊優(yōu)圖會(huì)提供盒子類的解決方案。
在當(dāng)今這個(gè)人工智能惠及生活的時(shí)代,大部分用戶都有這樣的疑問:刷臉支付除了考驗(yàn)人臉識(shí)別技術(shù)以外,它的安全性如何保證?
首先用戶需了解刷臉支付的開通流程。用戶需在終端上先進(jìn)行人臉檢測,再進(jìn)行端和云兩側(cè)都需要驗(yàn)證的活體防攻擊檢測,驗(yàn)證后會(huì)進(jìn)行人臉核身,就是上傳人臉并與從公安拿到身份證圖片進(jìn)行比對(duì),驗(yàn)證本人身份。如果確認(rèn),即可開通免密刷臉支付。刷臉支付的使用過程與開通區(qū)別不大,但由于用戶規(guī)模過大,使用上億人臉庫用來做支付的準(zhǔn)確率和風(fēng)險(xiǎn)較大,所以在進(jìn)行人臉檢測后,通常會(huì)要求用戶輸入手機(jī)號(hào)進(jìn)行二次確認(rèn)。但從長遠(yuǎn)來看,輸入手機(jī)號(hào)的過程最終將會(huì)淘汰。
對(duì)于人臉支付硬件,其中有兩個(gè)十分重要的特性,一個(gè)是3D 攝像頭,它主要是進(jìn)行活體檢測。第二,是在流程當(dāng)中進(jìn)行檢測、跟蹤、優(yōu)癬活體算法的前項(xiàng)計(jì)算過程。最早騰訊優(yōu)圖推出交互式的活體,通過搖頭、眨眼動(dòng)作驗(yàn)證真人身份,緊接著推出針對(duì)手機(jī)的應(yīng)用場景推出光線活體檢測,以及針對(duì)通用設(shè)備的紅外活體檢測以及3D 活體檢測。
紅外雙目活體檢測方案采用的是雙目攝像頭,檢測過程中輸出一張RGB 圖與一張紅外圖,其算法原理是利用人的皮膚與紙張對(duì)紅外光的反射不同,以此保證檢測精度。但如若找到一種與皮膚相類似的材料進(jìn)行檢測,就不能保證識(shí)別的安全性,所以紅外雙目活體多用于刷臉開門等場景。
針對(duì)有著更高安全要求的刷臉支付,通常會(huì)使用3D 攝像頭配合檢測,并輸出一張 RGB 的圖與一張人臉深度圖,紙張等平面不存在深度信息,但人臉是有三維深度信息的,其輸出的人臉深度圖就可以用來做活體檢測。
除了深度的要求以外,在實(shí)際應(yīng)用中RGB 攝像頭的成像質(zhì)量也至關(guān)重要。其實(shí),技術(shù)人員是很難判斷人臉支付 POS 機(jī)所處的具體環(huán)境,比如,若 POS 機(jī)放置于窗邊,識(shí)別時(shí)人臉處于背光的場景,從而無法進(jìn)行識(shí)別,這些都會(huì)給 RGB 成像帶來巨大挑戰(zhàn)。這時(shí)通常需要與 3D 攝像頭的廠商明確,要求攝像機(jī)需優(yōu)化到適配不同場景都能進(jìn)行正常識(shí)別工作。
有了硬件之后,為了保證算法的流暢運(yùn)行,還需進(jìn)行性能加速。NCNN 是目前騰訊優(yōu)圖已經(jīng)開源的移動(dòng)端高性能前向計(jì)算框架,它支持卷積神經(jīng)網(wǎng)絡(luò),支持多輸入和多分枝的結(jié)構(gòu),支持多核并行加速,可擴(kuò)展的模型設(shè)計(jì),8bit 而量化半精度的存儲(chǔ),內(nèi)存占用率比較低,計(jì)算速度較快。
為解決維護(hù)成本高、網(wǎng)絡(luò)不斷加深、用戶規(guī)模龐大等問題,騰訊優(yōu)圖在NCNN 框架的基礎(chǔ)上推出擁有跨平臺(tái)、高性能、模型壓縮、代碼裁剪的 RapidNet 深度學(xué)習(xí)推斷框架。它可以在各個(gè)平臺(tái)上提供統(tǒng)一的接口,在性能優(yōu)化上更加極致。但由于CPU/GPU 交互延遲高,參數(shù)傳輸、數(shù)據(jù)拷貝耗時(shí)過多;網(wǎng)絡(luò)中部分層運(yùn)算量小,GPU 并行度不足;多路處理 CPU 性能不足,負(fù)載過大等原因,異構(gòu)多核 CPU/GPU 加速技術(shù)成為了 RapidNet 主要的核心特性之一。其深度融合了基于 AMD 平臺(tái)的 OpenCL GPU 并行計(jì)算加速技術(shù)和基于 IOS 平臺(tái)的 Metal 加速技術(shù),完美解決以上問題。
在零售方案中,由于線下門店遍布全國,設(shè)備以及服務(wù)的可靠性也是至關(guān)重要的。騰訊優(yōu)圖在終端上設(shè)計(jì)了分層架構(gòu),無論前端設(shè)備是什么,其接入取流是獨(dú)立的一層。把AI 相關(guān)的處理包括檢測、跟蹤、優(yōu)選以及軌跡處理放于算法層。在算法層之上是服務(wù)監(jiān)控層,監(jiān)控包括設(shè)備的監(jiān)控、服務(wù)的監(jiān)控。在設(shè)備層監(jiān)控服務(wù)基礎(chǔ)之上是網(wǎng)絡(luò)監(jiān)控層,通過分離架構(gòu)的設(shè)計(jì)兼容多個(gè)終端設(shè)備,保證服務(wù)的可靠性。
語音技術(shù)的應(yīng)用與實(shí)踐
騰訊AI Lab高級(jí)研究員 金明杰
現(xiàn)如今,語音合成若不局限于時(shí)效性,完全可以做到與人類相似,語音合成技術(shù)也多被運(yùn)用到導(dǎo)航、智能客服等場景。
語音和聲音其實(shí)并不相同,聲音包括大家所能聽到的聲音包括風(fēng)聲、水聲、車聲、動(dòng)物生,語音是指人的發(fā)生器官發(fā)出具有一定社會(huì)意義的聲音。語音是人的聲音,機(jī)器可以理解的信號(hào)通常使用的是音頻信號(hào),音頻信號(hào)是一個(gè)有規(guī)律聲波的信號(hào)變化和載體,其特點(diǎn)是采樣率、量化位數(shù)和編碼算法。其中,量化位數(shù)是每個(gè)點(diǎn)采集的信息量,最常見的是16 比特;在語音識(shí)別領(lǐng)域通常使用未壓縮無損的編碼算法進(jìn)行存儲(chǔ)。
以智能客服為例,從人開始說話到傳輸音頻信號(hào)到云端,再做語音檢測、語音識(shí)別,之后進(jìn)行意圖識(shí)別,由于通話不僅是一句話就可以完成,所以還需進(jìn)行任務(wù)決策與目標(biāo)引導(dǎo),引導(dǎo)完成后再進(jìn)行播報(bào)。其中,當(dāng)用戶在說話時(shí),從電話里可能會(huì)夾雜很多噪聲,這時(shí)語音活動(dòng)檢測能準(zhǔn)確的把關(guān)注的話語內(nèi)容挑選出來,從而進(jìn)行語義理解。
其中,語音識(shí)別技術(shù)是把人類語音中的詞匯內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可讀的輸入,簡單來說就是把語音轉(zhuǎn)為文本。當(dāng)音頻信號(hào)產(chǎn)生后,被傳輸至云端,也就是解碼器。而解碼器中的聲學(xué)模型會(huì)把音頻信號(hào)轉(zhuǎn)化成建模單元,建模單元通常為拼音,之后接入詞典,通過詞典把拼音轉(zhuǎn)化為文本,把發(fā)音相近的字或詞挑選出來;語言模型部分,把最有可以的字或詞按照時(shí)序組合出來,顯示為識(shí)別結(jié)果文本。
最為常見的聲學(xué)模型網(wǎng)絡(luò)包括DNN 網(wǎng)絡(luò)以及 CLDNN 網(wǎng)絡(luò)。其中,基礎(chǔ)的 DNN 網(wǎng)絡(luò),下層為輸入層,中間包含若干隱層,上層為輸出層。而較為通用的 CLDNN 網(wǎng)絡(luò),C 就是卷積網(wǎng)絡(luò),L 是 LSTM 網(wǎng)絡(luò),D 就是 DNN,其特點(diǎn)為快速收斂,可快速達(dá)成較好的識(shí)別效果。
人臉核身技術(shù)的應(yīng)用
騰訊云高級(jí)產(chǎn)品經(jīng)理 周吉成
人臉核身技術(shù),換句話說即是實(shí)名、實(shí)人:實(shí)名,就是你的名字是合法有效的。實(shí)人,是要證明你是你。
早期人們都有這種體驗(yàn),比如說去銀行、運(yùn)營商開卡都需要本人到現(xiàn)場,領(lǐng)養(yǎng)老退休金的,年紀(jì)已經(jīng)很大了,還要去社保局親自做實(shí)人證明,這些成本都非常高。此外,網(wǎng)絡(luò)辦事在當(dāng)下已經(jīng)很普遍,然而要想進(jìn)行網(wǎng)上身份驗(yàn)證依然非常困難,更別說還有身份冒用的問題,以及線下場景遇到檢查卻沒帶身份證的情況。因此,無論央行、運(yùn)營商還是保險(xiǎn)行業(yè)都提倡利用OCR 技術(shù)運(yùn)用至業(yè)務(wù)流程中以提升效率,這是國內(nèi)人臉技術(shù)的應(yīng)用背景。
活體檢測方面,最典型的流程是通過遠(yuǎn)程進(jìn)行核身——第一步是身份證 OCR 識(shí)別,然后系統(tǒng)提示讀數(shù)字,以證明是在場的人,最后再錄制視頻給出最終結(jié)果,在這過程中系統(tǒng)會(huì)進(jìn)行照片比對(duì)。這個(gè)流程會(huì)嵌入到很多業(yè)務(wù)環(huán)節(jié)里,比如說身份證更新或者身份證號(hào)更改。
總的來說,活體核驗(yàn)技術(shù)是一個(gè)不斷演化的過程,活體算法在落地實(shí)際場景時(shí),實(shí)際上是一個(gè)用戶體驗(yàn)與安全性上兩者相互妥協(xié)的過程。比如早期做動(dòng)作交互,用戶就對(duì)此表示厭惡,認(rèn)為這種驗(yàn)證模式特別傻;后來微眾銀行做讀數(shù)字,雖然安全性有所提升,用戶依然不買賬;這才有了后來的“激光守衛(wèi)”——通過屏幕反光做活體檢測以及更高安全級(jí)別的紅外、3D 結(jié)構(gòu)光照。
核身從某種程度上也要做多種模式的融合,才能有更高的安全性,即便如此,依然免不了遭遇很多“攻擊”。遇到這種情況,純粹依賴底層算法是不現(xiàn)實(shí)的。其他可考慮的方案就包括接入渠道層面做安全控制、后端風(fēng)控、人工審核或者多種活體模式的組合。
評(píng)論
查看更多