0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ARKit、3D引擎、深度學習等技術(shù)在直播場景下的應(yīng)用

LiveVideoStack ? 來源:未知 ? 作者:李倩 ? 2018-09-04 16:56 ? 次閱讀

本文來自花椒直播海外技術(shù)負責人唐賡在LiveVideoStackCon 2017上的分享,并由LiveVideoStack整理而成,在分享中唐賡詳細介紹了直播的基本組成部分以及ARKit、3D引擎、深度學習等技術(shù)在直播場景下的應(yīng)用。

大家好,我是唐賡,現(xiàn)就職于花椒直播。主要負責iOS和一些新技術(shù)的應(yīng)用。本次的分享內(nèi)容主要是介紹一下我們包括個人對直播這項新技術(shù)應(yīng)用的一些看法。

1. 直播的基本組成部分

直播行業(yè)大約是在2015開始火起來,由于是剛起步,所以整個直播行業(yè)不是特別成熟。在早期時甚至會出現(xiàn)音畫不同步等一些基礎(chǔ)的問題。之后也做了很多的工作,比如直播視頻秒開的優(yōu)化,包括網(wǎng)絡(luò)自適應(yīng)、碼率自適應(yīng)、分辨率以及幀率的自適應(yīng)。對于碼率自適應(yīng),在點播的場景下,服務(wù)器會事先準備幾段不同碼率的視頻,觀眾根據(jù)不同的需要、網(wǎng)絡(luò)狀況從服務(wù)器上拉取不同的碼流。但是在直播的場景下,網(wǎng)絡(luò)自適應(yīng)更多的是發(fā)生在主播端,比如當主播的網(wǎng)絡(luò)不太好時,我們就會根據(jù)上行的碼流情況來實時的進行調(diào)整,包括調(diào)整視頻的分辨率、碼率、幀率。然后對于超大型的聊天室或者一些直播網(wǎng)站,就要求每個直播間能夠承受百萬量級并發(fā)的在線用戶,包括私信、群組,這都是我們過去已經(jīng)做過的一些優(yōu)化工作。

隨著直播行業(yè)的發(fā)展,單向的直播已經(jīng)沒有什么新意了,現(xiàn)在大家開始關(guān)注連麥、一對一的單聊、群聊等。這些功能在我們的APP中都已經(jīng)實現(xiàn)了,包括上層的展現(xiàn),比如美顏、濾鏡、瘦臉、大眼、人臉識別貼紙、3D頭盔等等。我們在2015年5月份左右起步做直播,這些都是我們在這兩年里做過的一些事情,目前這些功能已經(jīng)逐漸成為直播APP的標配,那么下一步該如何去做?在我個人認為至少可以關(guān)注以下方面,如Augment Reality,Computer Graphics、Computer Vision以及Machine Learning.,接下來將分別給大家介紹一下這四個方面。

2. Augment Reality

首先是人臉識別技術(shù),從2016年開始已經(jīng)初步實現(xiàn),而我們可以說是第一個把這項技術(shù)應(yīng)用到直播場景中的。2016年初,我們發(fā)現(xiàn)手機上實時的人臉識別非常消耗CPU內(nèi)存,因此就可能導(dǎo)致直播卡頓,無法播放。為了解決這個問題,我們當時進行了非常多的優(yōu)化,比如,最先在有限的手機資源之上實現(xiàn)了實時的人臉貼紙功能。但當時人臉識別的SDK普遍的CPU消耗都在50%以上,甚至蘋果自己提供的人臉識別的消耗都在80%以上,而且抖動非常厲害。到了2017年,在不斷的優(yōu)化之后,人臉識別在手機上的應(yīng)用就非常成熟了。

現(xiàn)在基于ARKit、ARCore、SenseAR或者是基于IMU都可以實現(xiàn)很多玩法,比如利用AI/AR可以實現(xiàn)手勢識別與真實場景的結(jié)合。那么AR可以怎么利用呢?從一些小視頻可以看到,拍攝者與表演者以及一些動畫效果要配合的很好才能實現(xiàn)AR特效,但是這些都是假的AR,而我們用AR技術(shù)就完全可以把這些做成真的。另外,基于AR在直播間里的視頻上面展現(xiàn)一些廣告或者好玩的東西,這實際也是比較經(jīng)典的AR應(yīng)用。

3. Computer Fraphics

AR可以反饋一些基本場景的認知信息,包括平面在哪里,墻在哪里等。那么如何在上面疊加這些場景,這就需要基于圖形學的一些技術(shù)。最常見的就是基于OpenGL/Metal提供的一些API去實現(xiàn),當然也有利用像Unity、Unreal之類相對成熟的引擎,包括蘋果提供的SceneKit 3D引擎。另外就是利用一些開源的引擎,比如Cocos2d-x、Crystal Space、Blender Game Engine,它們的功能也都比較強。像Cocos2DX目前已經(jīng)發(fā)展出比較強的3D能力,它能夠展現(xiàn)骨骼動畫以及一些比較復(fù)雜的光影效果。如果能力足夠也可以開發(fā)自制引擎,據(jù)我所知,國內(nèi)的很多游戲廠商比如騰訊、暢游、搜狐,他們用的都是自己研發(fā)的強大引擎。

4. Computer Vision

直播行業(yè)目前對計算機視覺的依賴也變得非常的強烈。計算機視覺的開源實現(xiàn)主要體現(xiàn)在兩個開源庫,分別是OpenCV和Dlib。OpenCV是由Intel發(fā)布的一個非常強大的視覺庫。包括實時計算機視覺、機器學習,包括一些圖像處理、分析等基本都離不開它,而且它的代碼實現(xiàn)非常的簡單快速。Dlib的使用非常方便,而且它自帶了它所依賴的一些東西,包括網(wǎng)絡(luò)、線程、GUI、各種各樣的線性代數(shù)、機器學習、圖像處理等各種模塊。它最大的一個優(yōu)勢是自帶強大的人臉識別引擎。接下來可以看一下基于OpenCV和Dlib實現(xiàn)的一些功能。

A.人臉朝向識別

從上面這幅圖可以看到,根據(jù)Dlib給出的人臉關(guān)鍵點坐標信息,計算出了人臉的朝向,人臉前面的這根紅線就是顯示出了人臉的朝向。基于人臉關(guān)鍵點坐標、朝向信息,就可以實現(xiàn)比較炫酷的3D頭盔功能,此處例子的實現(xiàn)目前在網(wǎng)上有開源的代碼可以進行參考。

B.精確估算手勢位置和姿勢

從上圖可以看到,在直播中可以精確的估算主播的手指頭的位置以及姿勢,主播可以利用這種技術(shù)完成很多有趣的交互。

目前,在PC上已經(jīng)可以實現(xiàn)對于一個場景中多個人的復(fù)雜的肢體運動的實時識別。但是面臨的一個非常大的挑戰(zhàn)是如何將這個能力內(nèi)嵌到手機APP中,如果能夠做到這一點,那么就可以把主播跳舞之類的身體動作實時截取出來并與動畫人偶相結(jié)合,會使得整個直播間顯得非常生動。

5. Machine Learning

接下來簡單介紹一下機器學習。機器學習在直播中已經(jīng)有了很多的運用,比如人臉識別、物體識別、手勢識別、背景分割摳像等,再進一步的運用就是實時翻譯、跨語種連麥、畫質(zhì)改進以及自動生成主播漫畫人偶。

機器學習的運用除了此前介紹到的一些前臺功能,還具有后臺功能,包括實時判斷主播的性別年齡、顏值才藝類型、識別場景、口才打分、人氣等。

下面幾頁PPT簡單介紹一下深度學習的一些入門知識。上面展現(xiàn)的是Google的一個Neural Network Playground ,在playground.tensorflow.org上可以看到,可以嘗試設(shè)計自己的神經(jīng)網(wǎng)絡(luò),了解深度學習的過程。(DEMO)。實際上深度學習就是在不斷地調(diào)整它的超參數(shù),增加深度學習的深度以及細胞的數(shù)量?,F(xiàn)在所謂的深度學習的研究實際上就是用各種各樣的排列組合來找出一種網(wǎng)絡(luò)結(jié)構(gòu)能夠更適合的解決某一類問題。

上面列出了各種開源的網(wǎng)絡(luò)結(jié)構(gòu),它們都是由各種學術(shù)機構(gòu)花了很多的時間精力找出的比較適合解決某些問題的網(wǎng)絡(luò)結(jié)構(gòu)。當網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜時,訓(xùn)練模型的時間就越久。

這是一個簡單的深度學習的例子,其中高亮的幾行是對網(wǎng)絡(luò)結(jié)構(gòu)的描述。它使用Keras/TensorFlow訓(xùn)練模型,在進行了一千次迭代之后,誤差就降到了千分之四,我們就可以認為訓(xùn)練出來的模型已經(jīng)學會了異或運算法則。

前面例子中訓(xùn)練出來的模型可以直接放在CoreML中使用,運行出來的結(jié)果可以在上圖中的輸出看到,所以說CoreML開發(fā)過程是非常簡單快速的。

上面這個例子也是實現(xiàn)判斷異或功能,但是它沒有依賴任何框架,只是利用了一個最基本的數(shù)學運算庫,這個例子可以看到深度學習核心算法工作原理,右邊是訓(xùn)練跑出來的結(jié)果,可以看到最終得到的結(jié)果跟前面的一樣。所以深度學習就是這么簡單暴力。

綜上所述,有這么多的技術(shù)等著我們?nèi)グ阉诺街辈ブ惺褂?,我覺得后面的前景還是非常廣闊的,我們還有很多事情要去做。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5554

    瀏覽量

    122487
  • arkit
    +關(guān)注

    關(guān)注

    0

    文章

    23

    瀏覽量

    11387

原文標題:從CV到ML 直播場景下新技術(shù)的應(yīng)用

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    什么叫3D微波技術(shù)

    3D電影已成為影院觀影的首選,當3D打印已普及到雙耳無線藍牙耳機,一種叫“3D微波”的技術(shù)也悄然而生。初次聽到“3D微波”,你可能會一臉茫
    發(fā)表于 07-02 06:30

    3D TOF深度剖析

    這段時間以來,最熱的話題莫過于iPhone X的Face ID,關(guān)于用它刷臉的段子更是滿天飛。其實iPhone X 實現(xiàn)3D視覺刷臉是采用了深度機器視覺技術(shù)(亦稱3D機器視覺)。由于i
    發(fā)表于 07-25 07:05

    HDC2021技術(shù)分論壇:酷炫3D效果在瘦設(shè)備上也能實現(xiàn)?

    ,這些引擎往往會對不同的硬件平臺做抽象,提供一站式的統(tǒng)一開發(fā)框架,讓開發(fā)者開發(fā)應(yīng)用時無需關(guān)注硬件平臺的差異性。這雖然給開發(fā)者帶來了便利,但在一些輕量級3D場景
    發(fā)表于 12-21 10:40

    基于深度學習3D圖像處理的精密加工件外觀缺陷檢測系統(tǒng)

    檢測,檢測準確性和檢測穩(wěn)定性較差、容易誤判。 基于深度學習3D圖像處理的精密加工件外觀缺陷檢測系統(tǒng)創(chuàng)新性結(jié)合深度學習以及
    發(fā)表于 03-08 13:59

    全球首家支持OpenHarmony的3D引擎,Cocos Creator 3.6.1社區(qū)版發(fā)布

    前言2021年,Cocos 正式成立專項項目組,協(xié)同華為團隊對 OpenHarmony 2D3D 內(nèi)容的開發(fā)流程與效率進行深度優(yōu)化。目前已在 Cocos Creator 3.6.1 的基礎(chǔ)上
    發(fā)表于 10-19 14:17

    構(gòu)件化嵌入式3D引擎的研究與設(shè)計

    本文研究了嵌入式3D引擎的特征,并給出了一個基于構(gòu)件技術(shù)的嵌入式3D引擎ElaDX的設(shè)計框架和初步實現(xiàn)。該
    發(fā)表于 05-30 09:14 ?17次下載

    3D圖像引擎,3D圖像引擎原理

    3D圖像引擎,3D圖像引擎原理 產(chǎn)生的背景和定義 隨著計算機軟、硬件突飛猛進的發(fā)展,計算機圖形學各個行業(yè)的應(yīng)用也得
    發(fā)表于 03-26 15:54 ?1499次閱讀

    阿里3D AI技術(shù)已成功應(yīng)用諸多場景中,可迅速批量生產(chǎn)高質(zhì)量3D模型

    阿里資深算法專家樂田表示:“3D重建是3D機器學習的核心,只有高質(zhì)量3D數(shù)據(jù)集支持,工業(yè)級
    發(fā)表于 08-26 13:50 ?1739次閱讀

    探討關(guān)于3D視覺技術(shù)3D傳感器

    年內(nèi)得到快速發(fā)展。與深度學習算法結(jié)合,智能制造/機器人、自動駕駛、AR/VR、SLAM、無人機、三維重建、人臉識別領(lǐng)域取得了優(yōu)異的效果。 3D
    的頭像 發(fā)表于 04-01 14:01 ?4930次閱讀
    探討關(guān)于<b class='flag-5'>3D</b>視覺<b class='flag-5'>技術(shù)</b>和<b class='flag-5'>3D</b>傳感器

    HarmonyOS 3D渲染引擎介紹

    隨著3D技術(shù)的應(yīng)用普及,越來越多的場景都能看到3D的身影,比如充電動效、3D壁紙、游戲等等,給用戶帶來了更有趣、更豐富的體驗。要滿足用戶的
    的頭像 發(fā)表于 12-23 09:49 ?4836次閱讀
    HarmonyOS <b class='flag-5'>3D</b>渲染<b class='flag-5'>引擎</b>介紹

    基于深度學習3D視覺引導(dǎo)系統(tǒng)引導(dǎo)工件上下料中的應(yīng)用

    基于深度學習3D視覺引導(dǎo)工件上下料,系統(tǒng)穩(wěn)定,識別速度快,整體抓取放置節(jié)拍控制8s以內(nèi)
    的頭像 發(fā)表于 10-17 17:31 ?1341次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>3D</b>視覺引導(dǎo)系統(tǒng)<b class='flag-5'>在</b>引導(dǎo)工件上下料中的應(yīng)用

    超詳細的3D視覺技術(shù)學習路線

    的前沿。近年來,3D視覺技術(shù)快速發(fā)展,并開始結(jié)合深度學習算法,智能制造、自動駕駛、AR/VR、SLAM、無人機、三維重建、人臉識別
    的頭像 發(fā)表于 04-16 10:36 ?1603次閱讀

    基于深度學習3D點云實例分割方法

    3D實例分割(3DIS)是3D領(lǐng)域深度學習的核心問題。給定由點云表示的 3D
    發(fā)表于 11-13 10:34 ?3137次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>3D</b>點云實例分割方法

    騰訊混元3D AI創(chuàng)作引擎正式上線

    近日,騰訊公司宣布其自主研發(fā)的混元3D AI創(chuàng)作引擎已正式上線。這一創(chuàng)新性的創(chuàng)作工具,標志著騰訊3D內(nèi)容生成領(lǐng)域邁出了重要一步。 混元3D
    的頭像 發(fā)表于 01-22 10:26 ?487次閱讀

    騰訊混元3D AI創(chuàng)作引擎正式發(fā)布

    近日,騰訊公司宣布其自主研發(fā)的混元3D AI創(chuàng)作引擎已正式上線。這一創(chuàng)新性的創(chuàng)作工具將為用戶帶來前所未有的3D內(nèi)容創(chuàng)作體驗,標志著騰訊AI技術(shù)
    的頭像 發(fā)表于 01-23 10:33 ?510次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品