當(dāng)我們談?wù)?a target="_blank">視頻技術(shù)時(shí),超高清視頻(Ultra High Definition,簡(jiǎn)稱UHD)無(wú)疑是當(dāng)今最令人興奮的領(lǐng)域之一。上期,我們介紹了讓人眼花繚亂的超高清視頻編解碼格式,以及各大組織、企業(yè)在視頻編解碼上的投入,博弈與紛爭(zhēng),致力于爭(zhēng)奪技術(shù)和專利上的制高點(diǎn)。本期,我們就聊聊和超高清圖像同樣非常重要的技術(shù)——三維聲。
關(guān)聯(lián)回顧
全圖說(shuō)電視的發(fā)展歷史
全圖說(shuō)視頻編解碼的發(fā)展歷史
由淺入深說(shuō)高清——聊聊高動(dòng)態(tài)范圍(HDR)
由淺入深說(shuō)高清——HDR的標(biāo)準(zhǔn)之爭(zhēng)
由淺入深說(shuō)高清——HDR的適配性與流程化的挑戰(zhàn)由淺入深說(shuō)高清——讓人眼花繚亂的超高清視頻編解碼格式立體聲-環(huán)繞聲-三維聲
自古以來(lái),聲音一直是人類體驗(yàn)不可或缺的一部分。從鳥鳴到風(fēng)聲,我們總是被豐富的聲音所包圍。幾個(gè)世紀(jì)以來(lái),從留聲機(jī)到數(shù)字音頻工作站,人類開(kāi)發(fā)了各種捕捉和再現(xiàn)聲音的技術(shù)。而聲音技術(shù)在電影、電視、游戲等影音藝術(shù)中的作用顯而易見(jiàn)。有聲電影誕生以來(lái),聲音技術(shù)扮演越來(lái)越重要的角色。由于能夠提供畫面所不具備的親密感和物理存在,聲音有時(shí)更能打動(dòng)我們。導(dǎo)演科波拉和喬治·盧卡斯都曾表示,聲音在電影中的重要作用“占到整體體驗(yàn)的一半”。在影視作品《權(quán)力的游戲》中,當(dāng)極速飛過(guò)的巨龍卓耿長(zhǎng)嘯的怒火橫掃多斯拉克騎兵的隆隆馬蹄聲在耳畔響起,沒(méi)有人會(huì)否認(rèn)他們?cè)诤彤嬅嬷械娜宋镆黄鸾?jīng)歷那種緊張、激動(dòng)或是恐懼。
音頻技術(shù)的演進(jìn)歷程是“單聲道-立體聲-環(huán)繞聲-三維聲”,相應(yīng)地,人耳感受經(jīng)歷了由“點(diǎn)”及“線”到“面”再到“空間”的過(guò)程。
立體聲可以追溯到20世紀(jì)初,當(dāng)時(shí)研究人員開(kāi)始探索聲音定位的心理聲學(xué)。20世紀(jì)30年代,EMI的英國(guó)工程師Alan Blumlein發(fā)明了現(xiàn)代立體聲技術(shù),并且獲得了立體聲唱片、立體聲電影和環(huán)繞聲的專利。為該領(lǐng)域的進(jìn)一步研究鋪平了道路。
立體聲是一種基本的聲音設(shè)置,它使用兩個(gè)揚(yáng)聲器來(lái)創(chuàng)建左右聲場(chǎng)。左右聲道分別錄制和混音,并通過(guò)獨(dú)立的揚(yáng)聲器播放,營(yíng)造出一種寬度感和深度感。立體聲是最常見(jiàn)的聲音設(shè)置,用于從音樂(lè)播放到電影配樂(lè)的所有內(nèi)容。
環(huán)繞聲是一項(xiàng)已經(jīng)存在了一段時(shí)間的技術(shù),它通常涉及在房間周圍放置揚(yáng)聲器以創(chuàng)造更加身臨其境的聆聽(tīng)體驗(yàn)。最常見(jiàn)的設(shè)置是 5.1 系統(tǒng),它有五個(gè)揚(yáng)聲器(左前、右前、中置、左后、右后)和一個(gè)低音炮。環(huán)繞聲旨在讓聽(tīng)眾置身于動(dòng)作之中,聲音來(lái)自不同的方向,營(yíng)造出一種空間感和維度感。
????Ambisonics技術(shù)中的虛擬麥克風(fēng),這種算法可以保證在任何一階指向性的恒定增益。這種效果會(huì)衍生出圓形、寬心形、心形、超心形、或八字形。
三維聲(3D Sound)的概念可以追溯到 20 世紀(jì) 70 年代,英國(guó)數(shù)學(xué)家和聲學(xué)家 Michael Gerzon 開(kāi)發(fā)了一種新的 3D 聲音方法。Gerzon 的方法被稱為 Ambisonics,除了水平面之外,它還覆蓋聽(tīng)者上方和下方的聲源。它使用數(shù)學(xué)模型來(lái)捕捉完整的 3D 聲場(chǎng)并使用環(huán)繞聲系統(tǒng)再現(xiàn)。Ambisonics算法使用四個(gè)或更多麥克風(fēng)捕捉來(lái)自各個(gè)方向的聲音,然后對(duì)其進(jìn)行處理以創(chuàng)建可通過(guò)多個(gè)揚(yáng)聲器播放的聲場(chǎng)。通過(guò)調(diào)整不同通道的電平和時(shí)間,3D 音響系統(tǒng)可以營(yíng)造出來(lái)自不同方向和距離的聲音效果。雖然 Ambisonics 從未取得廣泛的商業(yè)成功,但它為三維聲技術(shù)的未來(lái)發(fā)展奠定了基礎(chǔ)。
從單聲道、立體聲、環(huán)繞聲發(fā)展到三維聲,技術(shù)演進(jìn)使聲音的制作手段不斷進(jìn)步。從環(huán)繞聲時(shí)代開(kāi)始,得益于多聲道良好的分離度、數(shù)字系統(tǒng)寬闊的動(dòng)態(tài)范圍以及獨(dú)立出來(lái)的低頻效果聲道,觀眾的觀影體驗(yàn)逐漸被改變,從作為局外人簡(jiǎn)單地看和聽(tīng),變成沉浸在敘事世界中。當(dāng)動(dòng)作發(fā)生時(shí),它把觀眾定位在動(dòng)作中間,使其注意力保持在即將到來(lái)的那一刻;它突出影視劇的敘事性,使觀眾與角色處在同一世界中,可以像角色一樣體驗(yàn)故事;它“隱藏”了影院自身的空間,以創(chuàng)造出來(lái)的敘事環(huán)境空間取而代之;它使得聲音和畫面更緊密同步,表現(xiàn)畫面內(nèi)的事件和觀眾能聽(tīng)到的畫外故事世界,為畫面內(nèi)容提供特殊的空間定位。最終,觀眾和敘事世界之間的距離“縮小”了,甚至能感覺(jué)到自己被“移入”故事場(chǎng)景之中的那個(gè)世界。
三維聲的技術(shù)內(nèi)核三維聲是一項(xiàng)較新的技術(shù),旨在通過(guò)模擬來(lái)自不同方向和距離的聲音來(lái)創(chuàng)造更加身臨其境和逼真的聆聽(tīng)體驗(yàn)。這項(xiàng)技術(shù)使用復(fù)雜的算法來(lái)創(chuàng)建一個(gè)三維聲場(chǎng),聽(tīng)者可以感覺(jué)到它來(lái)自上方、下方、前方、后方,甚至周圍。換句話說(shuō),三維聲試圖模仿我們的耳朵和大腦在現(xiàn)實(shí)生活中處理聲音的方式。三維聲技術(shù)的出現(xiàn),讓聲音在原來(lái)平面聲場(chǎng)的基礎(chǔ)上,增加了高度感,每個(gè)聲音精準(zhǔn)定位,將聲場(chǎng)還原為三維空間,更接近真實(shí)世界,強(qiáng)化了沉浸式感受。三維聲技術(shù)作為超高清體驗(yàn)的重要組成部分,帶來(lái)音頻的空間感、方位感、高還原度、高沉浸度,帶給觀眾更具感染力的臨場(chǎng)感,個(gè)性化和交互體驗(yàn)。
三維聲技術(shù)決定超高清視頻的聲音真實(shí)感。相比目前常用的5.1環(huán)繞聲,三維聲增加了多個(gè)頂部聲道,通過(guò)算法模擬人耳聽(tīng)音過(guò)程重建三維虛擬聲像,或通過(guò)揚(yáng)聲器優(yōu)化布局,實(shí)現(xiàn)了聲場(chǎng)的精確重構(gòu)。觀眾在聽(tīng)音過(guò)程中不僅能辨別聲源的位置和方向,還能感知聲源的移動(dòng)軌跡,從而使得音效更加逼真、細(xì)膩。沉浸式的三維聲配合高清晰度、高色彩還原度的超高清畫面,能夠真實(shí)再現(xiàn)場(chǎng)景,給觀眾以更具沉浸感、參與感的體驗(yàn)。
5.1環(huán)繞聲誕生之初,業(yè)內(nèi)曾經(jīng)探討過(guò)究竟使用多少聲道才能讓觀眾獲得最為真實(shí)的沉浸式體驗(yàn)。然而三維聲技術(shù)并沒(méi)有糾結(jié)于聲道的數(shù)量,而是引入了“對(duì)象”的概念。在三維聲場(chǎng)內(nèi),每一個(gè)“對(duì)象”都具有與之對(duì)應(yīng)的位置坐標(biāo)。對(duì)于內(nèi)容生產(chǎn)者(導(dǎo)演、混音師)來(lái)說(shuō),“對(duì)象”這一概念的應(yīng)用可以實(shí)現(xiàn)更加精準(zhǔn)的定位和更加平滑的位移。例如,配合電影中攝影機(jī)視角移動(dòng)和切換,每個(gè)聲音的方位也在不停地游移。聲音這種飄忽不定的呈現(xiàn)方式無(wú)意中為銀幕前的觀眾強(qiáng)化了沉浸感和參與感,這種效果在傳統(tǒng)制作方式中是很難達(dá)到的。
三維聲體驗(yàn)中使用了多項(xiàng)關(guān)鍵技術(shù),包括:
頭部相關(guān)傳遞函數(shù) (HRTF):HRTF 是一種數(shù)學(xué)模型,描述了聲波從聲源傳播到耳道時(shí)如何轉(zhuǎn)換。通過(guò)模擬聽(tīng)眾的 HRTF,三維聲音響系統(tǒng)可以創(chuàng)造更準(zhǔn)確和逼真的空間音頻體驗(yàn)。該算法考慮了聽(tīng)者頭部和耳朵的形狀,以模擬聲波進(jìn)入耳道時(shí)被過(guò)濾和修改的方式。通過(guò)將不同的 HRTF 應(yīng)用于來(lái)自不同方向的聲音,三維聲系統(tǒng)可以營(yíng)造出聲音來(lái)自空間特定位置的印象。
HRTF濾波效果基于對(duì)象的音頻:基于對(duì)象的音頻是三維聲中使用的一項(xiàng)關(guān)鍵技術(shù),它允許將聲音視為可以定位在三維空間中的單個(gè)對(duì)象。這使聲音工程師能夠創(chuàng)建更逼真和動(dòng)態(tài)的聲場(chǎng),模擬來(lái)自不同方向和距離的聲音。通過(guò)使用 AI 算法分析聲音對(duì)象的聲學(xué)特性,聲音工程師可以創(chuàng)建更準(zhǔn)確、更逼真的聲音對(duì)象,以響應(yīng)環(huán)境的變化。
空間音頻處理:空間音頻處理是一組用于在三個(gè)維度上處理聲音的技術(shù)。這包括聲場(chǎng)旋轉(zhuǎn)、空間濾波和空間混響等技術(shù),可用于創(chuàng)造更加身臨其境和逼真的聆聽(tīng)體驗(yàn)。
-
-
聲場(chǎng)旋轉(zhuǎn):此技術(shù)涉及操縱聲場(chǎng)的方向以創(chuàng)建空間感。通過(guò)旋轉(zhuǎn)聲場(chǎng),音響工程師可以模擬來(lái)自不同方向的聲音,創(chuàng)造更加身臨其境的音頻體驗(yàn)。例如,在虛擬現(xiàn)實(shí)游戲中,聲場(chǎng)旋轉(zhuǎn)可以用來(lái)模擬物體圍繞聽(tīng)者頭部移動(dòng)的聲音。
-
空間過(guò)濾:該技術(shù)涉及選擇性地過(guò)濾音頻信號(hào)中的某些頻率,以模擬聲波與聽(tīng)者的頭部和耳朵相互作用的方式。通過(guò)模仿聲波在空氣中傳播并與聽(tīng)者的頭部互動(dòng)時(shí)被過(guò)濾和扭曲的方式,空間過(guò)濾可以創(chuàng)造更逼真的和身臨其境的音頻體驗(yàn)。
-
空間混響:這項(xiàng)技術(shù)涉及模擬聲波從房間表面反彈的方式,在音頻環(huán)境中創(chuàng)造空間感和深度感。通過(guò)為音頻信號(hào)添加空間混響,音響工程師可以營(yíng)造出聽(tīng)者身處特定房間或環(huán)境的錯(cuò)覺(jué),即使他們是戴著耳機(jī)聆聽(tīng)。
-
三維聲技術(shù)解決聲音從構(gòu)建到還原的整個(gè)環(huán)節(jié),三維聲技術(shù)用于多種應(yīng)用,可在音樂(lè)會(huì)、大型體育賽事、戲曲等的直播/制播和電影、紀(jì)錄片等影視內(nèi)容制作、家庭環(huán)境、影院環(huán)境、個(gè)人、AR/VR以及車載中得到廣泛應(yīng)用。包括:
電影和電視:三維聲徹底改變了我們?cè)陔娪昂碗娨暪?jié)目中體驗(yàn)聲音的方式。借助三維聲,音響工程師可以創(chuàng)造更加身臨其境和逼真的音頻體驗(yàn),模擬來(lái)自不同方向和距離的聲音,以增強(qiáng)觀眾對(duì)內(nèi)容的情感投入。
音樂(lè)制作:三維聲也被用于音樂(lè)制作,以創(chuàng)建更加身臨其境和空間準(zhǔn)確的錄音。借助三維聲音效,藝術(shù)家和制作人可以創(chuàng)造出更加動(dòng)態(tài)和逼真的聲場(chǎng),讓聽(tīng)眾能夠以更發(fā)自內(nèi)心的方式體驗(yàn)音樂(lè)。
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí):三維聲是虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用程序的重要組成部分,可讓用戶體驗(yàn)完全身臨其境且空間準(zhǔn)確的音頻體驗(yàn)。這在游戲中尤為重要,因?yàn)槿S聲音效可以增強(qiáng)玩家在游戲世界中的臨場(chǎng)感和沉浸感。虛擬現(xiàn)實(shí)的頭盔的三維聲技術(shù)要更為復(fù)雜,因?yàn)闉榱吮WC沉浸感,虛擬環(huán)境中相對(duì)固定的聲音也能感知頭部的運(yùn)動(dòng)而調(diào)整相對(duì)位置,以確保給人以穩(wěn)定聲音來(lái)源的感受。
現(xiàn)場(chǎng)活動(dòng):三維聲技術(shù)也被用于音樂(lè)會(huì)和戲劇表演等現(xiàn)場(chǎng)活動(dòng)。借助三維聲,音響工程師可以為觀眾創(chuàng)造更具動(dòng)感和身臨其境的音頻體驗(yàn),模擬來(lái)自不同方向和距離的聲音,以增強(qiáng)表演的情感影響。前面提到的“對(duì)象”概念,在直播節(jié)目制作中也可以為混音師和消費(fèi)者提供更多選擇。例如,將解說(shuō)等語(yǔ)言類內(nèi)容作為“對(duì)象”定義,即可實(shí)現(xiàn)對(duì)語(yǔ)言的開(kāi)關(guān)、切換選擇甚至是音量大小的調(diào)整;將事件中某些信息內(nèi)容定義為“對(duì)象”,可以讓混音師實(shí)現(xiàn)個(gè)性化制作或者讓消費(fèi)者實(shí)現(xiàn)定制化收看。在2018年俄羅斯足球世界杯的三維聲制作中,制作團(tuán)隊(duì)將兩支對(duì)陣球隊(duì)球迷的群雜效果定義為兩組“對(duì)象”,分別放置在聲場(chǎng)的左右兩邊。實(shí)際轉(zhuǎn)播中的呈現(xiàn)效果一如真實(shí)的比賽現(xiàn)場(chǎng),雙方球迷的吶喊助威隨著攻守的易位此消彼長(zhǎng)。觀眾如果愿意,還可以選擇關(guān)掉對(duì)方球迷的聲音而只聽(tīng)自家球迷的助威。
汽車音頻:三維聲越來(lái)越多地用于汽車音頻系統(tǒng),以創(chuàng)造更逼真的和身臨其境的聆聽(tīng)體驗(yàn)。通過(guò)模擬三維聲場(chǎng),駕駛員和乘客即使坐在車內(nèi)也能體驗(yàn)到仿佛置身于音樂(lè)廳中的音樂(lè)。
三維聲的技術(shù)標(biāo)準(zhǔn)和解決方案維聲主流標(biāo)準(zhǔn)及解決方案實(shí)現(xiàn)廠家集中,以杜比、DTS等為主,專利壁壘較高,并形成了較為成熟的生態(tài)體系。目前,四種主流的三維聲技術(shù)解決方案分別為杜比全景聲系Dolby Atmos(美國(guó)Dolby Labratories)、臨境音DTS:X(美國(guó)DTS)、Auro 3D(比利時(shí) Auro Technologies)、MPEG-H(德國(guó)Fraunhofer IIS)。
杜比全景聲 (Dolby Atmos) 通過(guò)模擬來(lái)自不同方向和距離的聲音來(lái)創(chuàng)造更加身臨其境和逼真的聆聽(tīng)體驗(yàn)。與基于聲道音頻的傳統(tǒng)環(huán)繞聲不同,杜比全景聲 (Dolby Atmos) 是基于對(duì)象的,這意味著聲音被視為可以放置在三維空間中的單獨(dú)對(duì)象。這使音響工程師能夠在聲場(chǎng)內(nèi)精確定位聲音,創(chuàng)造更加逼真和動(dòng)態(tài)的聆聽(tīng)體驗(yàn)。杜比全景聲 (Dolby Atmos) 可以通過(guò)各種揚(yáng)聲器配置進(jìn)行播放,包括傳統(tǒng)的 5.1 或 7.1 環(huán)繞聲設(shè)置,但它還支持額外的縱向聲道和頭頂揚(yáng)聲器,以創(chuàng)造更具包圍感的聲場(chǎng)。此外,杜比全景聲 (Dolby Atmos) 可以通過(guò)耳機(jī)播放,以在移動(dòng)設(shè)備或私人聆聽(tīng)中營(yíng)造更加身臨其境的聆聽(tīng)體驗(yàn)。
DTS:X 是由 DTS(數(shù)字影院系統(tǒng))開(kāi)發(fā)的一種類似于杜比全景聲 (Dolby Atmos) 的 三維聲格式。它使用基于對(duì)象的音頻來(lái)創(chuàng)造更加身臨其境和逼真的聆聽(tīng)體驗(yàn)。
Auro-3D 是由 Auro Technologies 開(kāi)發(fā)的一種 三維聲格式,它使用獨(dú)特的揚(yáng)聲器配置來(lái)創(chuàng)建更具包圍感的聲場(chǎng)。Auro-3D 支持多達(dá) 13.1 聲道的音頻,包括縱向聲道和頂置揚(yáng)聲器。
Sony 360 Reality Audio 是一種專為音樂(lè)播放而設(shè)計(jì)的 三維聲格式。它使用基于對(duì)象的音頻來(lái)創(chuàng)造更加身臨其境和空間準(zhǔn)確的聆聽(tīng)體驗(yàn)。
MPEG-H 由運(yùn)動(dòng)圖像專家組 (MPEG) 開(kāi)發(fā)的標(biāo)準(zhǔn),支持沉浸式音頻,包括用于廣播和流媒體應(yīng)用的三維聲。MPEG-H 也是一種基于對(duì)象的音頻格式,可以將音頻傳送到各種揚(yáng)聲器配置,從傳統(tǒng)的立體聲或環(huán)繞聲設(shè)置到更復(fù)雜的三維聲系統(tǒng)。MPEG-H 的設(shè)計(jì)具有靈活性和可擴(kuò)展性,允許廣播公司和流媒體服務(wù)向各種設(shè)備和播放系統(tǒng)提供身臨其境的音頻。它還包括高級(jí)功能,例如交互式音頻,允許觀眾根據(jù)自己的喜好調(diào)整音頻組合,以及音頻描述,為視障觀眾提供額外的音頻信息。
在編解碼方面,杜比全景聲的編碼技術(shù)和MPEG-H編碼技術(shù)較為成熟,如Dolby ED2、Dolby DD+集成到了音頻工作站Protools、Nuendo中,MPEG-H已被韓國(guó)4K頻道使用。在渲染方面,通過(guò)算法模擬人耳聽(tīng)音過(guò)程重建三維虛擬聲像,或通過(guò)揚(yáng)聲器優(yōu)化布局重構(gòu)聲場(chǎng)。杜比全景聲的渲染方案在影院、電視、手機(jī)等產(chǎn)品中均有使用,Auro 3D的揚(yáng)聲器布局方案已被ITU系列標(biāo)準(zhǔn)采用。
我國(guó)研制的三維聲標(biāo)準(zhǔn)及解決方案已步入推廣落地階段。我國(guó)的三維聲標(biāo)準(zhǔn)由世界超高清視頻產(chǎn)業(yè)聯(lián)盟(UWA)牽頭,與AVS工作組協(xié)同,聯(lián)合產(chǎn)業(yè)端到端生態(tài),于2022年4月推動(dòng)發(fā)布三維菁彩聲(Audio Vivid)技術(shù)團(tuán)隊(duì)標(biāo)準(zhǔn)草案,并被國(guó)家廣播電視總局接納為行業(yè)標(biāo)準(zhǔn)。喜馬拉雅已完成了120小時(shí)有聲書音樂(lè)內(nèi)容制作,總臺(tái)中秋晚會(huì)采用該標(biāo)準(zhǔn)進(jìn)行直播應(yīng)用示范。國(guó)內(nèi)企業(yè)的WANOS全景聲解決方案已于央視網(wǎng)CNTV、芒果TV、騰訊視頻、百度云合作布局應(yīng)用于央視網(wǎng)“2019年春節(jié)晚會(huì)”、芒果TV“歌手2019”“聲入人心”等重要節(jié)目中,并服務(wù)了全國(guó)300多個(gè)影廳。
三維聲的未來(lái)展望
三維聲預(yù)計(jì)未來(lái)將與虛擬現(xiàn)實(shí)、元宇宙等結(jié)合逐步,并進(jìn)一步向會(huì)議辦公、醫(yī)療健康等場(chǎng)景延伸。隨著音視頻技術(shù)逐步由向沉浸式、交互式方向發(fā)展,三維聲將拓展產(chǎn)業(yè)互聯(lián)網(wǎng)的應(yīng)用,深化行業(yè)應(yīng)用領(lǐng)域的使用,擴(kuò)大技術(shù)規(guī)范在垂直行業(yè)的影響力,預(yù)計(jì)2023~2025年將加速發(fā)展。隨著技術(shù)的不斷進(jìn)步,三維聲的潛在應(yīng)用幾乎是無(wú)限的。從醫(yī)學(xué)模擬到建筑聲學(xué),三維聲有可能徹底改變我們?cè)跓o(wú)數(shù)領(lǐng)域體驗(yàn)聲音的方式。此外,人工智能和機(jī)器學(xué)習(xí)的進(jìn)步正在為三維聲技術(shù)開(kāi)辟新的可能性,從而實(shí)現(xiàn)更準(zhǔn)確和個(gè)性化的空間音頻體驗(yàn)。
今天,我們就先聊到這里,下一期,我們?cè)僬归_(kāi)談一下超高清視頻的超分技術(shù)。
-
開(kāi)源技術(shù)
+關(guān)注
關(guān)注
0文章
389瀏覽量
7976 -
OpenHarmony
+關(guān)注
關(guān)注
25文章
3731瀏覽量
16436
原文標(biāo)題:河套IT TALK 66: (原創(chuàng)) 超高清視頻的三維聲技術(shù)
文章出處:【微信號(hào):開(kāi)源技術(shù)服務(wù)中心,微信公眾號(hào):共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論