語音助手和集成已在投放市場的大多數(shù)產(chǎn)品,設(shè)備和技術(shù)中實(shí)現(xiàn)。話雖這么說,這些有用的語音助手始終會監(jiān)聽激活/喚醒單詞(例如“ okay Google”或“ Alexa”),這通常會消耗大量電量,這已不是什么秘密。在當(dāng)今技術(shù)日新月異的世界中,必須考慮其對能源消耗的影響。
本文提供了使用語音活動檢測(VAD)的低功耗,始終在線語音命令系統(tǒng)的設(shè)計注意事項。在選擇創(chuàng)建易于使用,節(jié)能的語音用戶界面(VUI)所需的組件時,它探討了取舍和注意事項。
VAD功能可在聆聽喚醒詞之前檢測環(huán)境中的人聲,這意味著當(dāng)沒人在家時,您的語音助手將不會浪費(fèi)不必要的能量。據(jù)估計,全球使用的數(shù)字語音助手有42億,到2024年,這個數(shù)字有望翻一番。將該技術(shù)應(yīng)用于語音助手軟件和其他依賴語音集成的產(chǎn)品,將大大降低其能耗。使用語音助手的人。
有幾種用于實(shí)現(xiàn)VUI系統(tǒng)的硬件體系結(jié)構(gòu)。通常,典型的語音用戶界面實(shí)現(xiàn)由麥克風(fēng)組成,麥克風(fēng)可以是單個麥克風(fēng),也可以是與音頻處理器相連的麥克風(fēng)陣列,用于捕獲和處理語音。
可以在邊緣音頻邊緣處理器,具有內(nèi)置音頻邊緣處理器的智能麥克風(fēng)或標(biāo)準(zhǔn)應(yīng)用處理器(AP)上處理輸入的音頻流。邊緣音頻處理器針對音頻信號的低功耗和低延遲處理進(jìn)行了優(yōu)化。除了提供對輸入音頻的專門處理之外,邊緣音頻處理器還可以用于后處理音頻輸出信號。如果VUI系統(tǒng)是云連接的,則音頻邊緣處理器還可以通過具有無線連接性的主單芯片系統(tǒng)(SoC)與云VUI接口進(jìn)行通信。本文介紹了VUI系統(tǒng)的兩種不同實(shí)現(xiàn),以及它們各自的權(quán)衡。
超低功耗VAD(語音活動檢測)
圖1所示的體系結(jié)構(gòu)使用模擬信號路徑支持超低功耗VUI,該路徑包括模擬麥克風(fēng)和模擬比較器以提供喚醒觸發(fā)。當(dāng)檢測到聲音活動時,模擬信號鏈會產(chǎn)生一個中斷,以喚醒音頻處理器以進(jìn)行語音捕獲。該設(shè)備還可以包括“一鍵通”功能,從而用戶按下按鈕即可喚醒音頻處理器。
圖1.超低功耗,始終在線的VUI硬件信號鏈,無需進(jìn)行前滾動緩沖即可進(jìn)行遠(yuǎn)程控制。
模擬喚醒麥克風(fēng)必須始終在聆聽環(huán)境,因此該麥克風(fēng)以及比較器必須消耗很少的功率。Knowles IA8201是高效音頻處理器的一個示例,在最簡單的喚醒觸發(fā)模式下其功耗小于1mW,并且具有1MB的存儲器用于高級音頻處理。盡管圖1中所示的方法為設(shè)備(例如,遙控器和可穿戴設(shè)備)中始終在線的VUI提供了一種簡單的低功耗AAD(聲學(xué)活動檢測)方法,但它具有局限性。這種實(shí)現(xiàn)方式會喚醒音頻處理器的任何聲音信號,并且在嘈雜的情況下會導(dǎo)致總體系統(tǒng)功耗過高。還,與云連接的語音用戶界面系統(tǒng)要求在捕獲喚醒字之前的一段時間內(nèi)獲取音頻數(shù)據(jù),以提高喚醒字檢測的準(zhǔn)確性。這通常稱為預(yù)滾動,是支持Alexa的設(shè)備和其他智能揚(yáng)聲器設(shè)備的必備條件。
圖2.支持諸如智能揚(yáng)聲器之類的設(shè)備的前置滾動緩沖的架構(gòu)。
圖2顯示了一種支持針對智能揚(yáng)聲器等設(shè)備的前置滾動緩沖的體系結(jié)構(gòu)。這些設(shè)備通常具有更大的電池,并且/或者一次充電可能不需要多個月的電池壽命。VUI系統(tǒng)始終處于打開狀態(tài),可以收聽環(huán)境并在循環(huán)緩沖區(qū)中記錄預(yù)滾動。預(yù)卷的長度通常約為500毫秒的音頻數(shù)據(jù),用于校準(zhǔn)環(huán)境噪聲水平。
有幾種不同的方法可以設(shè)計永遠(yuǎn)在線的前端體系結(jié)構(gòu)。音頻處理器的選擇取決于所用麥克風(fēng)的數(shù)量,以及它們是模擬還是數(shù)字。
上面顯示的體系結(jié)構(gòu)使用Knowles IA611進(jìn)行語音活動檢測,使用SPH0655LM4H-1 Cornell II數(shù)字麥克風(fēng)進(jìn)行波束成形,并使用Knowles IA8201進(jìn)行音頻處理。Knowles IA611是一款智能麥克風(fēng),可為系統(tǒng)設(shè)計人員帶來好處,如以下部分所述。
麥克風(fēng)選擇
對于圖1所示的體系結(jié)構(gòu),當(dāng)檢測到聲音活動時,將單個模擬麥克風(fēng)和比較器用作觸發(fā)輸入,以喚醒音頻處理器。喚醒麥克風(fēng)應(yīng)為低功率模擬麥克風(fēng),其信噪比(SNR)最好高于62 dB。Knowles SiSonic MEMS麥克風(fēng)產(chǎn)品組合為喚醒麥克風(fēng)提供了多種選擇。例如,SPV1840LR5H-B Kaskade模擬麥克風(fēng)是一個不錯的選擇,當(dāng)打開時僅消耗45μA。包括麥克風(fēng),放大器和比較器在內(nèi)的始終在線的模擬路徑消耗的電流小于67μA。市場上有一些壓電麥克風(fēng),它們的始終接通功率很低(10μA),但是它們通常具有低SNR,這會影響系統(tǒng)性能。
對于圖2所示的具有預(yù)卷緩沖功能的體系結(jié)構(gòu),具有嵌入式音頻處理器和足夠內(nèi)存以在2秒的循環(huán)緩沖區(qū)中連續(xù)捕獲語音數(shù)據(jù)的麥克風(fēng)(例如Knowles IA611)是始終在線語音活動的可行選擇。檢測。它還帶有移植語音觸發(fā)器和命令的生態(tài)系統(tǒng),例如亞馬遜的Alexa。當(dāng)檢測到關(guān)鍵字時,預(yù)滾動緩沖區(qū)和發(fā)出的語音音頻都會發(fā)送到云自動語音識別(ASR)引擎。IA611的始終開啟的語音喚醒功率為0.39 mA(電池1.8V,效率為90%),使其成為電池供電設(shè)備(如藍(lán)牙揚(yáng)聲器)中語音用戶界面的理想選擇。該設(shè)備還接受來自數(shù)字麥克風(fēng)的PDM輸入,
雖然這種始終接通的功率對于預(yù)卷式應(yīng)用是可以接受的,但對于圖1所示的非預(yù)卷式架構(gòu),也值得考慮。如前所述,模擬喚醒麥克風(fēng)將觸發(fā)任何傳入聲音并打開揚(yáng)聲器。音頻處理器。在嘈雜的環(huán)境中(例如在電視開機(jī)時),這可能會成問題,因為那里會有許多虛假的喚醒,導(dǎo)致功率的大量浪費(fèi)。如果使用語音活動檢測而不是低功率模擬喚醒麥克風(fēng),則系統(tǒng)僅在檢測到關(guān)鍵字時才打開。從邏輯上看,為什么在嘈雜的環(huán)境中使用語音活動檢測麥克風(fēng)可能比簡單的模擬喚醒麥克風(fēng)更有效。
圖3顯示了模擬數(shù)據(jù),該數(shù)據(jù)比較了使用IA611上的VAD的典型電視遙控器與競爭性的壓電低功率AAD麥克風(fēng)和音頻處理器在不同聲活動開啟時間下的電池壽命天數(shù)。當(dāng)電視或其他家用電器打開時,或在其他情況下,如鼓鼓聲等時,可能會出現(xiàn)聲音活動。如圖3所示,在大約3小時處有一個交叉點(diǎn),因此使用模擬AAD的功率優(yōu)勢競爭對手的麥克風(fēng)上的IA611上的語音活動檢測消失了。
在聲音活動開啟時間為五個小時的情況下,語音活動檢測解決方案比基于競爭的基于AAD的解決方案多了八天的電池壽命。為了充分發(fā)揮這一優(yōu)勢,根據(jù)尼爾森(Nielsen)在2017年發(fā)布的一項研究,美國成年人每天看電視的時間將近八小時。隨著對聯(lián)網(wǎng)設(shè)備(例如智能電視,游戲機(jī)和其他多媒體設(shè)備)的需求不斷增加,在典型的美國家庭中,聲音活動的小時數(shù)也可能會繼續(xù)增加。使用基于智能VAD的喚醒將幫助系統(tǒng)設(shè)計人員開發(fā)更節(jié)能的VUI系統(tǒng)。
圖3. VAD與AAD的遠(yuǎn)程控制電池壽命。
結(jié)論
從智能家居,酒店,數(shù)字工作場所,語音支付,智能能源管理,邊緣語音和醫(yī)療保健,一直到改變廠房的工業(yè)物聯(lián)網(wǎng)應(yīng)用,語音都為新技術(shù)增加了靈活性,效率,可持續(xù)性和采用接受性。
用于語音用戶界面設(shè)計的各種硬件體系結(jié)構(gòu)以及麥克風(fēng)部分,根據(jù)最終設(shè)備的應(yīng)用程序和設(shè)計人員的喜好,各自滿足的需求略有不同。例如,支持Alexa的設(shè)備和智能揚(yáng)聲器需要具有預(yù)卷緩沖功能的體系結(jié)構(gòu)。
電子工程師和設(shè)計師必須仔細(xì)評估終端設(shè)備將如何利用語音,他們希望訪問的功能,并據(jù)此確定正確的架構(gòu)和麥克風(fēng)組件,這一點(diǎn)很重要。
Raj Senguttuvan 在面向消費(fèi)者和工業(yè)應(yīng)用的新技術(shù)開發(fā),早期業(yè)務(wù)開發(fā)以及為Analog Devices和Texas Instruments等公司提供的項目管理方面擁有超過15年的經(jīng)驗。在擔(dān)任Knowles戰(zhàn)略營銷總監(jiān)期間,他指導(dǎo)系統(tǒng)級開發(fā),推動風(fēng)險投資和合作伙伴關(guān)系以及IoT和消費(fèi)者技術(shù)(包括音頻處理器,算法,麥克風(fēng),傳感器和接收器)的營銷策略。Raj擁有康奈爾大學(xué)(Cornell University)的MBA學(xué)位和佐治亞理工學(xué)院(Georgia Institute of Technology)的電氣工程博士學(xué)位。
編輯“hfy”
-
麥克風(fēng)
+關(guān)注
關(guān)注
15文章
644瀏覽量
54872 -
模擬信號
+關(guān)注
關(guān)注
8文章
1136瀏覽量
52535 -
智能家居
+關(guān)注
關(guān)注
1928文章
9585瀏覽量
185740 -
語音系統(tǒng)
+關(guān)注
關(guān)注
1文章
27瀏覽量
13009 -
智能揚(yáng)聲器
+關(guān)注
關(guān)注
0文章
32瀏覽量
6299
發(fā)布評論請先 登錄
相關(guān)推薦
評論