01 AR與RTC的應(yīng)用場景
我們先給大家簡單的介紹一下在AR里我們的應(yīng)用場景有哪些。為什么會(huì)提這些點(diǎn)呢?我們?cè)?020年向國內(nèi)的客戶推AR眼鏡的時(shí)候,客戶是基本上是不太能理解的。因?yàn)槟菚r(shí)大家都不懂這個(gè)東西對(duì)企業(yè)能帶來什么價(jià)值?但是在國外,像德國本身就是工業(yè)起家的,尤其它們自己也在推工業(yè)互聯(lián)網(wǎng)4.0,它們就能夠反過來找我們談,找我們要AR眼鏡,這就是在早期時(shí)候的一些差距。到2021年的時(shí)候,國內(nèi)的客戶會(huì)主動(dòng)跟我們聊AR眼鏡對(duì)他們的幫助有哪些,因?yàn)榇蠹铱赡芨惺艿搅粟厔?shì),也更愿意去嘗試去了解AR眼鏡的用途。
我就以這一張圖簡單的給大家說一下AR上的應(yīng)用。Rokid是一家專注新一代人機(jī)交互技術(shù)的產(chǎn)品平臺(tái)公司,有自己的OS和云,基于這點(diǎn)我們會(huì)有自己的AR硬件,我們自己會(huì)對(duì)外輸出這些產(chǎn)品,已經(jīng)在淘寶、京東上可以看到的ToC的RokidAir眼鏡;有面向數(shù)字文化(博物館、景區(qū)等)的Rokid Air Pro,也有ToB的RokidGlass和面向重工業(yè)的X-Craft。同樣,我們也與一些硬件廠商合作,它們會(huì)集成我們的系統(tǒng),然后整個(gè)輸出一個(gè)硬件的產(chǎn)品。同時(shí),我們也對(duì)外推出Rokid Solution,包括針對(duì)各行各業(yè)輸出一些解決方案。當(dāng)然,也有其它的客戶基于我們的硬件跟軟件做第三方。
我們整個(gè)的應(yīng)用場景大概有三塊:一塊是數(shù)字文化相關(guān),展示文物以及教育知識(shí)等應(yīng)有的生動(dòng)形象,讓文物和文化遺產(chǎn)“活”起來;第二塊是工業(yè),包括制造、汽車等,還有電力等,用AR賦能一線人員提升協(xié)作效率,打造“超級(jí)工人”;還有一塊是B端和G端上的公共服務(wù)等。那么,我們AR在行業(yè)應(yīng)用的一些點(diǎn),哪些是跟我們RTC相關(guān)的呢?我就以公司銷售端對(duì)外播放的一個(gè)視頻向大家展示。
視頻提到了幾個(gè)點(diǎn):
第一個(gè)是高清的音視頻。因?yàn)樵贏R尤其是在B端的應(yīng)用上很多,比如我們的客戶是在山區(qū)、海上或者是其它的煤礦這種弱網(wǎng)環(huán)境,我們?cè)趺礃幽軌蜃龅礁咔逡粢曨l這是其中一個(gè)點(diǎn);
另外一個(gè)點(diǎn)是面向B端的時(shí)候, 主要就是低碳出行和高效工作;所謂的低碳出行,以前出現(xiàn)什么現(xiàn)場問題專家會(huì)立刻趕過去,現(xiàn)在就是減少飛機(jī)/火車等交通工具帶來的排放,線上解決問題;至于高效工作,我們會(huì)有遠(yuǎn)程協(xié)作平臺(tái),平臺(tái)會(huì)允許專家端跟現(xiàn)場客戶以第一視角來連線,并且它會(huì)根據(jù)你這邊的現(xiàn)狀去做一些指導(dǎo),這個(gè)指導(dǎo)涉及AR的一些標(biāo)注。最右圖中紅色的跟綠色的是2D或3D的數(shù)字模型,是虛擬的數(shù)字內(nèi)容,它會(huì)告訴你這一塊需要怎么做或者一些東西扔過來會(huì)顯示在上面。這些數(shù)字的模型會(huì)根據(jù)SLAM的技術(shù),錨定在技師現(xiàn)場,它是不會(huì)變的。專家端看到的東西都是現(xiàn)實(shí)世界的內(nèi)容疊加上數(shù)字世界的內(nèi)容,虛擬加上現(xiàn)實(shí)是融合在一起的,專家端可以始終以這個(gè)視角看到。
這里面還包括協(xié)作、共享。比如說它遇到什么問題隨時(shí)需要跟你說明這個(gè)問題怎么解開,從電腦端找任何的圖片、截圖、文字都會(huì)跟你協(xié)作發(fā)送過來。
這些都是AR下RTC的應(yīng)用。
AR下RTC遇到通訊的問題:
第一個(gè)就是弱網(wǎng)的環(huán)境。剛才有提到,包括有一些電力的人是帶著頭盔爬桿上去,他的雙手是一直在操作的,而AR頭環(huán)是一直戴在眼睛上的。不管是山區(qū)、弱網(wǎng)還是海上油田等,弱網(wǎng)是最基本改變不了的;
第二個(gè)是嘈雜的環(huán)境,就是經(jīng)常通信起來專家端聽不清,因?yàn)楣S的噪聲特別大。像核電現(xiàn)場的噪聲我們這邊需要做處理,各種化工區(qū)現(xiàn)場制造車間的嘈雜聲音,這些聲音都是影響我們RTC通信的;
視聽的視野是什么意思呢?就是在AR音頻中Audio跟Video是典型不一樣的,Audio Focus有全局感受野,所以在360°的環(huán)境中,聲音是能夠全局捕獲到的,但是因?yàn)閂ideo是純球體360度,沒法瀏覽出Video的Focus,是需要依賴Audio的聲音來進(jìn)行感受野的切換。Audio可能此時(shí)出聲打游戲的時(shí)候有聲音來了,我可能會(huì)轉(zhuǎn)過來。所以這是它們一個(gè)大的不同點(diǎn),這也是我們會(huì)在AR的RTC上會(huì)講到,對(duì)Audio做一些處理的原因;
還有個(gè)是開放式的喇叭,就是在AR上我們喇叭的出聲口和speaker是在耳朵上,大概離耳道口有3厘米的距離。其實(shí)這個(gè)距離下,比如說本來弱網(wǎng)就使得聲音很糟糕,再離開一點(diǎn)距離基本上就沒法聽到更有效的聲音,所以這是我們現(xiàn)在在AR上做RTC試圖去解決的一些問題。
02 AR RTC中的著力點(diǎn)
RTC的著力點(diǎn),是否不同的行業(yè)都需要卷RTC?其實(shí)做RTC的,不管是大廠,包括騰訊、頭條等,其實(shí)大家都做RTC。從我們自己的角度出發(fā),我們要做的不僅僅是RTC本身,那我們要做的點(diǎn)在哪?
為什么我們不去講RTC本身,包括我們自己用一些合作伙伴的SDK,他們的SDK已經(jīng)可以做到從A端到B端不管是抖動(dòng)、時(shí)延還是抖動(dòng)本身時(shí)延的方法提升已經(jīng)很大。我們不試圖在這個(gè)基礎(chǔ)上卷網(wǎng)絡(luò)的優(yōu)化,卷一些云端的分發(fā)、鏈路。
我們做的事就是里面核心的兩塊標(biāo)顏色的。我們從最外層講RTC有RTC的量度或者CDN的量度。一整套已經(jīng)有成熟的產(chǎn)品,靠近里面的不管是網(wǎng)絡(luò)傳輸上的重傳、FEC這些也不需要我們做,再到里面的網(wǎng)絡(luò)抖動(dòng),其優(yōu)化也有很多,像騰訊的SDK針對(duì)它專門做算法上的優(yōu)化。其實(shí)我們自己focus的點(diǎn)在于音視頻的數(shù)據(jù)最終到了工業(yè)頭盔等產(chǎn)品上還能怎樣進(jìn)行音質(zhì)、畫質(zhì)上的提升,這就是我們?cè)谧龅囊恍┦?,包括最里面的源泉是語音跟視頻發(fā)生了切切實(shí)實(shí)的數(shù)據(jù)丟失,更長遠(yuǎn)一點(diǎn)就是在解碼上我們是否能夠做出一些改變,用我們的自己場景做優(yōu)化,這就是我們自己在做的,講RTC實(shí)際上是在收到數(shù)據(jù)之后。
03AR RTC中的技術(shù)應(yīng)用
下面,我從以下四個(gè)方面給大家介紹一下AR里面我們做的RTC的技術(shù)應(yīng)用點(diǎn)。
第一塊是語音的降噪,就是我們剛才提到的工廠嘈雜噪聲;第二塊是超分,就是為了把弱網(wǎng)下工人或者技師端看到的一些小畫面進(jìn)行超分;第三塊涉及音頻的補(bǔ)償,對(duì)于一些確切發(fā)生丟包的數(shù)據(jù),我們會(huì)把它的語音數(shù)據(jù)進(jìn)行算法處理,使得它聽起來會(huì)更順滑;第四塊是空間聲場,其實(shí)我們解決的就是剛剛提到的在AR或者是VR里現(xiàn)在已經(jīng)是很現(xiàn)實(shí)的問題,打游戲的時(shí)候全依賴聲音來切畫面進(jìn)行一些實(shí)時(shí)的渲染變更,包括編解碼上的處理。
語音的降噪涉及到的模塊偏技術(shù)。整個(gè)語音降噪就是在于把一個(gè)帶噪的語音x(n)經(jīng)過一些濾波處理來得到預(yù)測的y(n),這個(gè)y(n) 其實(shí)就是預(yù)測出的干凈語音,通過和參考的d(n)比較,看差值是否能滿足迭代收斂的條件。從傳統(tǒng)的LMS,再到AP,發(fā)展到如今大家都是在用深度學(xué)習(xí)的方向去做這件事,因?yàn)樗梢葬槍?duì)不同工廠、不同場景下的噪聲做專門的處理和濾波。我們也是采用深度學(xué)習(xí)上的一些線路。
我們也是基于CRN加上復(fù)數(shù)卷積的方式進(jìn)行處理,包括對(duì)網(wǎng)絡(luò)本身去做一些端上跑,達(dá)到工廠噪聲、核電噪聲等,到最終消噪的目的來提升通信體驗(yàn)。我們自己在AR眼鏡終端上同時(shí)配合定向波束,加上降噪跟語音識(shí)別技術(shù),最終提升至95db的工業(yè)噪聲下到90+%的語音識(shí)別準(zhǔn)確率。當(dāng)然降噪本身是為了提升RTC,專家端聽到的也可以更好。這里面的測試結(jié)果就是2021年的DNS測試數(shù)據(jù),外加核電工業(yè)噪聲后得到的PESQ的提升結(jié)果。就是降噪前后以及STOI的數(shù)據(jù)。
圓桌會(huì)議是真實(shí)的應(yīng)用場景。我們用客戶的SDK,但是客戶的SDK在一些場景下嘯叫跟回聲解決不掉,那些垂直黃線其實(shí)就是噪聲,然后我們把自己的降噪用進(jìn)去,就可以一定程度上消除掉嘯叫。另外一個(gè)就是核電客戶現(xiàn)場的噪聲,本身聲音是有點(diǎn)吵的,整個(gè)平臺(tái)都是客戶現(xiàn)場機(jī)器噪聲,聽不到語音內(nèi)容的;最后就是很普通的辦公室的這里面的聲音。
其實(shí)深度學(xué)習(xí)解決了傳統(tǒng)解決不了的一個(gè)問題,就是傳統(tǒng)的信號(hào)處理只能解決一些平穩(wěn)的噪聲,對(duì)于非平穩(wěn)的“pia pia pia”或者是工廠巨大的機(jī)器噪聲收斂不了或者不停的收斂效果就會(huì)不好。
超分是針對(duì)AR頭環(huán)端收到的一些數(shù)據(jù),數(shù)據(jù)本身視頻分辨率只有360P,在山區(qū)等弱網(wǎng)下收到RTC的數(shù)據(jù)后,我們會(huì)再做實(shí)時(shí)的超分。超分本身這件事就是從深度學(xué)習(xí)PixelShuffle后的時(shí)候開始,基本上網(wǎng)絡(luò)結(jié)構(gòu)就是呈現(xiàn)到一個(gè)從低分辨率的LR再到HR的過程。Shuffle本身是視頻超分的一個(gè)恢復(fù)操作,非時(shí)流的經(jīng)歷過一些發(fā)展路線,大家都是換中間的一些骨架,包括ResBlock、SEBlock等,再到提出實(shí)時(shí)流的框架ECBSR,大家會(huì)基于NAS做實(shí)時(shí)檢索,自己做搜索找一個(gè)更達(dá)到目標(biāo)的東西,別人再從參數(shù)化去做。我們自己也是基于這個(gè)大的框架,只不過本身卷積Block就會(huì)根據(jù)端上的性能做一些裁剪使得它在端上能夠做到實(shí)時(shí)。
除了框架之外,我們會(huì)同時(shí)把CPU跟GPU放一起,因?yàn)槲覀兊脑O(shè)備上有NPU加速,把這幾個(gè)流水線跑起來。其實(shí)一次性把很多東西放在GPU上去做,然后有一些東西在服務(wù)端可以直接走TensorRT的處理,在我們端上的話就直接走NPU的。我們會(huì)根據(jù)算法和硬件的性能去設(shè)計(jì)、調(diào)優(yōu)這個(gè)pipeline,我們把很多能在NPU上操作的全部移到4核NPU上,包括利用圖片的解碼,以及解碼的數(shù)據(jù)直接放在CPU上放著。NPU直接去獲取,減少CPU跟區(qū)間的通信,同時(shí)把CPU的資源利用起來做一些并行處理。
圖中是工程加上模型塊達(dá)到的效果,頭盔上面是實(shí)時(shí)的四核的A73加上兩核的A53還有5 TOPS NPU,上面的算法性能就是大家做超分基本數(shù)據(jù)集的PSNR提升。如果我們把整個(gè)模型的input輸入比固定下來的時(shí)候,NPU的優(yōu)化程度會(huì)更高,它就能從28提升到38。 當(dāng)然,我們也在服務(wù)端的A30單卡上做了測試,把編解碼都算進(jìn)去大概1170fps,
這個(gè)是我們自己做的一個(gè)測試集視頻,左邊會(huì)是超分后的,右邊是沒超分的,一次下雨天測試錄的。
開放式的喇叭在弱網(wǎng)下本身聽起來就會(huì)比較吃緊不清楚,如果再發(fā)生丟幀的話效果就會(huì)更差,所以我們針對(duì)這一點(diǎn)專門做了音頻的補(bǔ)償。當(dāng)然,音頻的補(bǔ)償其實(shí)本身的歷史也是從LPC技術(shù)切換到深度學(xué)習(xí)的方式做。Web RTC其實(shí)也改成用深度學(xué)習(xí)的方式,大家很多都在用GAN的方式去進(jìn)行丟包生成。我們本身的操作就是模擬丟包率在10%到30%之間,整個(gè)丟包時(shí)長最長的大概是120毫米之內(nèi),然后驗(yàn)證PESQ的效果。這個(gè)基于的是在DNS挑戰(zhàn)賽的模型上做優(yōu)化。
這里給大家放一下效果。最上面的是丟包處理之前的。第二個(gè)是處理后的聲音頻譜圖。第三個(gè)是最原始的聲音小的。從圖上可以看出來,凡是豎線的就是丟數(shù)據(jù)造成的,凡是一整條豎線從上面畫下來,修復(fù)之后就會(huì)少很多。圖像識(shí)別跟原始圖像很接近,就說明你恢復(fù)的越接近。
剛才有提到AR、VR里Audio Focus是一個(gè)全局感受野。我們?cè)趺礃幽軌虬颜鎸?shí)聲音的方位感給還原出來?這是我們其中做的一件事,就是空間聲場。這里跟B端剛剛講的3個(gè)不一樣的點(diǎn)在于B端上的那些都是屬于真實(shí)有用的。而C端更偏向于使沉浸感更好。你要說沒有它可不可以?可以。但擁有空間聲場的好處就在于,在真實(shí)RTC通信的時(shí)候,能使得語音到了之后能分清這個(gè)人在我的左邊還是右邊,以及在大概什么位置,把真實(shí)空間位置感還原出來,包括轉(zhuǎn)頭轉(zhuǎn)向誰說話。轉(zhuǎn)向誰說話這個(gè)方向的聲音會(huì)大是一樣的。像在線教育、在線會(huì)議,尤其是在線的社交里面應(yīng)用會(huì)比較多一些。
聲音的發(fā)展情況,最開始的空間表達(dá)上是單聲道、雙聲道,后來的5.1、7.1屬于平面上有五個(gè)喇叭加一個(gè)低音炮,再到5.1.x、7.1.x,就是空間布局上也會(huì)加喇叭,但這些還是個(gè)體不連續(xù)的。再發(fā)展到編碼的維度上來講就是我們從最開始單聲道到面向?qū)ο蟮木幋a。比如大家經(jīng)常到電影院看 3D電影,把整個(gè)炮彈或者是其它的戰(zhàn)爭打起來的時(shí)候東西飛過來的聲音,整個(gè)朝你逼近過來,你會(huì)感覺很真實(shí),因?yàn)樗前堰@個(gè)對(duì)象,不管是炮彈還是其它武器的發(fā)出的聲音按照空間喇叭的位置跟你以最接近的路線給你播出來,所以你才會(huì)有真實(shí)感。再到后面就是面向場景的,像HOA的技術(shù)就意味著我盡可能地把任何東西都還原,不只是人為處理過的局部。從XR的角度來講,其實(shí)我們要做的就是把割裂的感覺,1是1,2是2變成沉浸式的,所以從C端來講它的效果就是在往這個(gè)方向走。
我們自己定義空間聲場是從產(chǎn)生再到傳播,整個(gè)傳播過程中因?yàn)樵贏R、VR里都會(huì)出現(xiàn),聲音出來之后,大家很多利用頭傳或者是其它方式模擬球體范圍內(nèi)聲音的產(chǎn)生,然后再到球體范圍之外的聲音該以平面波,還是以一維的波動(dòng)方程,還是該以三維的波動(dòng)方程去模擬、仿真的時(shí)候,每個(gè)人需要根據(jù)自己的算力去平衡去簡化的,同時(shí)需要考慮傳播過程中涉及到的一些障礙物。我戴著AR眼鏡確實(shí)走到了另一個(gè)地方被一堵墻隔了聲音,要不要遮擋,怎么去遮擋?包括經(jīng)過那些東西的反射吸收了多少,還剩多少。這些都是去考慮的問題,再到編解碼的模塊定義外面的一些全景聲能不能導(dǎo)到你這里進(jìn)行播放。這是對(duì)于模塊的一些定義。
整個(gè)空間聲場的難題在于聲場的仿真。波動(dòng)方程很多都沒有解析解,只有數(shù)值解,因?yàn)閷?shí)時(shí)計(jì)算出來的東西沒有固定的表達(dá)公式能夠所有位置都做到,它只能不停地迭代。包括開放式喇叭帶來的效果,因?yàn)楝F(xiàn)在大家仿真生產(chǎn)的時(shí)候都是按頭傳去做的,先不說投傳的精細(xì)度做到什么程度,它仿真出來的結(jié)果是建立在到你耳道里面的聲音,實(shí)際上AR的喇叭是在外面且還有30厘米,會(huì)導(dǎo)致聲音發(fā)塞很厲害,聽出來的效果會(huì)下降很多。
另外還有一個(gè)就是RTC中的傳輸。在線社交就像麥克,輸出一些在線社交視頻大家純是在元宇宙里面跟你聊,但是你轉(zhuǎn)過來,轉(zhuǎn)過去的語音都是可以通過RTC的方式過來。這種盡可能地模擬真實(shí)場景說話的方式跟RTC的傳輸也有關(guān)系。
因?yàn)榭臻g聲場是喇叭。假設(shè)這里面有5.1個(gè)喇叭,其實(shí)都很難聽出一個(gè)比較明顯的效果。這是虛擬的一個(gè)音響,你靠的近聲音會(huì)很大,你一旦背對(duì)著它聲音會(huì)越來越小,隔著門可以聽到房間里的一個(gè)虛擬聲音在發(fā)聲,但是進(jìn)來把門推開的時(shí)候聲音會(huì)變得很大。這就是傳播中的一個(gè)遮擋問題。大家只要帶著同一個(gè)眼鏡,同一個(gè)東西你走到這都可以聽到它。
04AR RTC的一些挑戰(zhàn)
最后跟大家說一下AR下RTC的一些挑戰(zhàn)。
第一個(gè)就是極低功耗,這些功耗是算法本身性能跟資源消耗之間的一些balance。因?yàn)槲覀冏约旱脑O(shè)備都是AR終端,如何減少功耗、減少發(fā)熱、增加設(shè)備使用時(shí)常,始終是我們?cè)诮K端上做的一些探索。另外,音視頻到達(dá)設(shè)備之后,我還能夠用哪些手段把音頻的音質(zhì)增強(qiáng),視頻的畫質(zhì)增強(qiáng)呢?
第二塊涉及到弱網(wǎng)。大部分低端應(yīng)用的場景就是惡劣的環(huán)境,所以很多算法就是針對(duì)弱網(wǎng)優(yōu)化的,包括我們正在做的也會(huì)涉及到音頻的超分,也是解決同樣的問題。
第三塊就是360度的超清高刷畫面。其實(shí)在VR里面它的刷新率目前最高可以到240Hz,分辨率是有在4K并且還是全方位的。在我們AR里面,比如FOV大幾十度,隨時(shí)切進(jìn)這么大的畫面就是對(duì)RTC的挑戰(zhàn)。實(shí)時(shí)視頻該怎么去編?因?yàn)橐郧耙曨l是實(shí)時(shí)基于上一幀、下一幀能夠進(jìn)行預(yù)測編碼,冗余度很強(qiáng),但是如果現(xiàn)在這樣隨時(shí)切該怎么做?不過當(dāng)下行業(yè)里也已經(jīng)都在思考這個(gè)問題,推出新的3D編碼方式。
還涉及到一個(gè)點(diǎn)是虛擬模型里面通信的東西怎么跟RTC一起發(fā)走。比如RTC有時(shí)候這里還跟富媒體有關(guān)系,就是RTC更新的時(shí)候除了音頻、視頻、文字流之外,我們還有圖片、2D或者3D的模型,包括一些辦公文件。當(dāng)然這些東西不見得一定得進(jìn)RTC的協(xié)議里面,但是起碼我們實(shí)時(shí)處理的時(shí)候遇到了問題。
以上就是我給大家?guī)淼腁R×RTC的一個(gè)分享,包括遇到的一些點(diǎn)跟針對(duì)這些點(diǎn)我們做的一些技術(shù)應(yīng)用與思考。謝謝大家!
審核編輯:劉清
-
Ar
+關(guān)注
關(guān)注
24文章
5098瀏覽量
169662 -
編解碼
+關(guān)注
關(guān)注
1文章
140瀏覽量
19620 -
RTC
+關(guān)注
關(guān)注
2文章
539瀏覽量
66651 -
SDK
+關(guān)注
關(guān)注
3文章
1037瀏覽量
45996
原文標(biāo)題:AR下的RTC技術(shù)與應(yīng)用
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論