2018年5月9-10日,15屆論道在西安隆重舉行。50多場演講,干貨滿滿;30多個展臺,亮點多多;多場高峰對話,火花四濺。深圳市海思半導(dǎo)體有限公司高級產(chǎn)品經(jīng)理姚世勇進行了主題為《智慧家庭中的AI》的演講。
兩三年前,智慧家庭還停留在概念階段,現(xiàn)在情況完全不同,已經(jīng)變成了進行時,從全球范圍來看,歐洲的法電、德電、意電,美國的comcast、Verison,到東南亞的韓國、日本,都相繼推出智慧家庭的戰(zhàn)略。國內(nèi)情況大家比較熟悉,運營商均成立了智慧家庭聯(lián)盟,全球范圍內(nèi),60%的領(lǐng)先運營商正在開展智慧家庭業(yè)務(wù)。
AI將會成為智慧家庭最核心的要素
對于智慧家庭,不同的人有不同的理解,家庭是一個非常特殊的場景,家庭里面應(yīng)該做到高速網(wǎng)絡(luò)無處不在,智能服務(wù)無處不在。家庭里可享受以下三種服務(wù):
一是安全的家,希望通過安防業(yè)務(wù),構(gòu)建安全的應(yīng)用場景;二是舒適的家,這也是大家夢寐以求的,也是核心的應(yīng)用場景;三是健康的家,圖中都是目前正在開展的業(yè)務(wù),當(dāng)然不限于這些業(yè)務(wù)。針對這些業(yè)務(wù),最重要的就是實現(xiàn)智慧服務(wù),不管是大趨勢、還是大戰(zhàn)略,都頻繁被提到,我們看到的情況也是如此,AI將會成為智慧家庭最核心的要素。
大家一起回顧一下AI發(fā)展的情況,在50年代初,AI概念被提出來,馬上就有相應(yīng)成果,開始是國際跳棋,但算法太簡單,從此以后AI沉寂了近40年。直到1996年,IBM的“深藍”與人類對弈,機器第一次戰(zhàn)勝了國際象棋大師,引起轟動,但仍擺脫不了機器暴力計算的問題。2017年,谷歌的“阿爾法狗”戰(zhàn)勝國際象棋大師,AI重回聚光燈下。總覺得AI跟棋有不解之緣。工業(yè)自動化很早就實現(xiàn)了,但是大家覺得用機器做工作,只是比人快一點、更準(zhǔn)確些。為什么棋類引起這么大轟動?因為棋類是人類引以為豪的智慧活動。
特別是“阿爾法狗”戰(zhàn)勝人類,其模式已經(jīng)走向深度智能化,選擇性運算產(chǎn)生的效果已經(jīng)非常的震撼,前景已經(jīng)超出大家想象,有人充滿希望,有人充滿恐慌。今天,我們看到智能領(lǐng)域發(fā)生了很大變化,取得了很大成功。
一頭狼具有識別獵物的能力,甚至有簡單的協(xié)同,但我們現(xiàn)在智能顯然差距很大,有很多人開玩笑,說現(xiàn)在人工智能比不過一條狗,可能就是這個原因,人工智能絕大部分聚焦于專家系統(tǒng),在某一個特定領(lǐng)域產(chǎn)生非常大的作用,還不能用于廣泛的人工智能。
這個視頻是憨豆去年拍的片,用的是一輛車勞斯萊斯,可以做遠場語音控制,憨豆跟別人聊天的時候,提到車名,車就自動啟動了,還沒有注意到車,車也自動跟隨在身后,隨人走走停停,無意中轉(zhuǎn)身,發(fā)現(xiàn)車很蹊蹺的挪了個地方。這說明一個問題,最高端的語音識別系統(tǒng)也無法區(qū)別語境,只能機械接受語音命令,可能會造成笑話。
AI技術(shù)兩大科技革命,驅(qū)動用戶體驗升級
以后產(chǎn)品會沿著兩大方向演進,一個是交互革命,一個是AI革命。早期的操控,人機界面局限于遙控器、手柄,現(xiàn)在智能語音技術(shù)出現(xiàn)了,后續(xù)很可能出現(xiàn)智能視頻技術(shù),再到后面可能會出現(xiàn)VR、AR技術(shù)實現(xiàn)人機交互,這種控制會完全突破大家一直詬病的操作笨、不方便問題。另外一個是人工智能,從最早的用戶側(cè)感知,不斷的進行演進,深度學(xué)習(xí)到對客戶行為的認(rèn)知,到最后實現(xiàn)能媲美人類的人工智能。
AI語音技術(shù),是目前成熟度最高的領(lǐng)域之一,人工智能按應(yīng)用可歸結(jié)為兩大類,一類是語音識別,一類是圖片分類。語音識別的成熟度最高,這個生態(tài)里面大部分的網(wǎng)絡(luò)巨頭在資源整合上有很大潛力。專業(yè)語音公司像科大訊飛等,包括BAT廠家也做語音識別,內(nèi)容廠商的視頻內(nèi)容聚集,各種音箱硬件廠商都會參與進來,最后由運營商或設(shè)備廠家做業(yè)務(wù)運營。從技術(shù)方面看,這么多技術(shù)模塊才構(gòu)建了一個語音識別功能,從最上層的語音分析到中間的拾音、語音增強等,最下面是用戶,通過技術(shù)模塊疊加互動,最終實現(xiàn)智能音箱,或者帶STB特性的智能盒子。
作為芯片廠家,我們的著力點在端側(cè),我們希望把云端的語音技術(shù)不斷端側(cè)化,語音能力在端側(cè)建立,最終實現(xiàn)一個效果:在家庭環(huán)境里面自然交互。大家有沒有想過買了一個智能音箱,用起來不像宣傳中那么順手、便利,語音識別率沒有那么高,可能就是這個原因。換言之,它是在特定環(huán)境里才可以高識別,真正客廳里面人比較多的時候,有噪音的時候,是否操作起來輕松自如,這是一個疑問。
隨著當(dāng)前語音技術(shù)發(fā)展,家庭里面要達到真正的自然語音交互,應(yīng)該做到分布式語音層面,不能說買一個盒子放在客廳,要做一次語音交互,一定得跑到客廳去,家里還有那么多房間,甚至很多人習(xí)慣待在房間怎么辦?比如出門前查一個天氣,想問一下交通是否擁堵,怎么辦? 分布式語音解決方案解決這個問題,借助于G.hn+WIFI分布式網(wǎng)絡(luò)解決方案,能夠讓整個家庭做到網(wǎng)絡(luò)完全覆蓋。順著高速網(wǎng)絡(luò),語音也可以延伸到家庭的每一個角落,拾取主人聲音,給主人一個反饋。
AI視頻技術(shù),借助于AI,可以用攝像頭捕捉家庭情況,或者同步進行3D建模,最后把人像從環(huán)境中提取出來,疊加到視頻或者增值內(nèi)容上面去,比如在家里打太極、學(xué)國標(biāo)舞,可以把整個形象動作同步到原教學(xué)視頻里面做比對,可以更精準(zhǔn)、高效的學(xué)習(xí)。借助于圖象技術(shù)可以衍生出很多應(yīng)用,我們怎樣把流量變成大家喜聞樂見的增值業(yè)務(wù),這是一個非常大的難題。比如游戲,我們可以通過攝像頭捕捉人物輪廓,作為游戲操控的媒介,來控制游戲里面的角色。第二種是現(xiàn)在玩的比較火的抖音,有舞蹈指導(dǎo)動作,很多感興趣的年輕人可以實現(xiàn)他錄抖音的愛好。第三種是智能試衣鏡,通過現(xiàn)在的3D攝像頭,可以獲取人的三維信息,現(xiàn)在已有技術(shù)誤差達到厘米級,非常接近真實人體,獲取的模型跟衣服矢量圖像結(jié)合,這樣在網(wǎng)上將會有一個全新購衣體驗,這個衣服可以不買,可以試穿,拍一個照片做一個留念也可以。大家會發(fā)現(xiàn)在這幾種應(yīng)用場景里面,這都是大屏獨有的應(yīng)用,是手機、電腦做不到的。
視頻AI技術(shù),也是目前在好萊塢大的影視制作公司廣泛采用的技術(shù),在面對低分辨率的圖象時,通過智能技術(shù)提升整個畫質(zhì)。現(xiàn)在家庭影視娛樂設(shè)備,包括機頂盒、電視,視頻依然是消費主線,是最基本的元素,脫離這個元素可能會造成用戶大量的流失,我們想在這個方面做技術(shù)的加強?,F(xiàn)在海量的標(biāo)清節(jié)目、高清節(jié)目,可不可以通過AI技術(shù)直接提升到4K,同時圖像質(zhì)量有明顯的提升?這是有可能的。通過AI技術(shù)分析視頻對象,結(jié)合我們的數(shù)據(jù)庫和模型,做到真正的“無中生有”,不斷的提升原始圖象的分辨率。
大家可以看一下示例,提升前和提升后的對比,雖然提升后還不是最真實原形,但是相對真實走近了一大步。還有一種AI視頻技術(shù)做到人臉、物體的識別,人臉識別基本成熟,甚至有一些地方考慮用人臉支付,能做到這種程度,也是相當(dāng)精確的技術(shù)。
我們跟大家一起探討主動安全,今天新媒體的人講到他們的責(zé)任、使命,我們作為芯片廠家,可探索利用終端側(cè)的技術(shù)去保證安全,我們通過人臉識別技術(shù),能夠識別一些關(guān)鍵的信息,比如敏感的人臉或者文字,一旦識別,可以在終端直接打上馬賽克,我們用這個技術(shù),可以將一些人為造成的非法行為攔截住,這是通過技術(shù)手段解決的,以前只能在前端,現(xiàn)在有后端技術(shù)處理這個事。
增值業(yè)務(wù)的投放點、投放方式,是整個行業(yè)摸索的,作為運營商,運營著這么大的用戶群,可以投放廣告,如果有AI技術(shù)加持,可以跟廣告商談投什么廣告,我們把產(chǎn)品的模型記錄下來,在所有播放的視頻畫面中進行識別,一旦出現(xiàn)設(shè)定的產(chǎn)品,就會自動識別,運營商可通過用戶可接受的方式,把廣告內(nèi)容打出來,產(chǎn)生一個增值點。
還有千人千面,大家也比較清楚了,人臉識別技術(shù)能比較準(zhǔn)確識別家庭成員,根據(jù)家庭成員推薦內(nèi)容EPG。不一定做到按人管理,可以按分類,比如大人、小孩、老人這樣更自然。這里幾個場景采用的技術(shù)基本上比較相似,通過信號采集預(yù)處理,根據(jù)數(shù)據(jù)庫里面模型進行匹配,最終識別。
AI技術(shù)的兩大挑戰(zhàn):端側(cè)智能和實用程度
人工智能并不是像我們想象的那么簡單,這可能也是大家提的比較多,但是用的比較少的原因,我們?nèi)斯ぶ悄墚?dāng)前面臨兩大挑戰(zhàn):云端化和實用性問題。單一的云端化造成了很多問題,一是太多的人工智能技術(shù)依賴于云端,大量的運算堆積在云端造成很大算力負擔(dān),給運營商投資帶來很大影響。二是語音、視頻通過網(wǎng)絡(luò),實時傳到網(wǎng)上云端,總感覺自己生活內(nèi)容被直播,體驗非常差,不管你說怎么保證內(nèi)容安全,但是心里感受還是差。三是把自家視頻傳上云端,最后在云端處理完,結(jié)果返回來,周期長延時大,不是很自然。
現(xiàn)在端側(cè)提供智能能力是重點,行業(yè)也正在努力,今天是谷歌I/O大會的第一天。他們正式推出AI框架,在Android系統(tǒng)里面已經(jīng)集成了,facebook也推出了端側(cè)架構(gòu),包括蘋果也會提出端側(cè)人工智能方案。后續(xù)端側(cè)智能方案會是一個大方向。
另外一個實用性問題,人工智能現(xiàn)在發(fā)展到什么階段,大家印象比較深的還是智能音箱,這個產(chǎn)品大家用了以后,口碑不算很好,國外賣的比較多,也可能跟生活習(xí)慣有關(guān),國內(nèi)這個產(chǎn)品并沒預(yù)期中那么普及,接受度并不是那么高,為什么?我們語音識別不是很方便,不能說在家庭環(huán)境里面,需要事先讓大家不要說話,再開始語音交互,這樣很詭異。還有識別率怎么樣,實驗室可以98%,甚至有人說語音識別率是百分之百,一旦放在自然環(huán)境里面識別率可能是40%、50%,這是不可接受的。另外是要考慮成本與功耗,人工智能跟生物質(zhì)能相比,能耗比差很多,這個功耗是否大家可以接受,人工智能集成進芯片,發(fā)現(xiàn)芯片成本會顯著上升,這個成本是否可以接受。
總結(jié)一下,我們認(rèn)為,現(xiàn)在的人工智能大致處于好玩階段,后面還有兩個階段,一個是好用階段,一個是好管家,終極目標(biāo)是好管家,希望在家庭環(huán)境里面,人工智能像大管家一樣,時刻關(guān)注家庭成員的各種狀態(tài)和需求,積極主動提供周到細致的服務(wù)。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238900 -
智慧家庭
+關(guān)注
關(guān)注
5文章
300瀏覽量
40484
原文標(biāo)題:【大屏AI】海思姚世勇:智慧家庭中的AI
文章出處:【微信號:iptvott,微信公眾號:流媒體網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論