對(duì)嬰兒來(lái)說(shuō),啼哭聲是一種通訊的方式,一個(gè)非常有限、但類(lèi)似成年人進(jìn)行交流的方式。它也是一種生物報(bào)警器,向外界傳達(dá)著嬰兒生理和心理的需求。 基于啼哭聲聲波攜帶的信息,嬰兒的身體狀況才能被確定,疾病才能被檢測(cè)出來(lái)。因此,有效辨識(shí)啼哭聲,成功地將嬰兒啼哭聲“翻譯”成“成人語(yǔ)言”,讓成年人讀懂啼哭聲的含義,有重大的實(shí)際意義。 2020 iFLYTEK A.I.開(kāi)發(fā)者大賽中,有一項(xiàng)關(guān)于嬰兒啼哭聲識(shí)別的挑戰(zhàn)賽任務(wù)。本次競(jìng)賽總共吸引了678只隊(duì)伍參賽,分別來(lái)自國(guó)內(nèi)不同的公司和高校。最終小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)以0.99123分的高分奪得第一名。
比賽的訓(xùn)練數(shù)據(jù)集包含了awake(蘇醒)、diaper(換尿布)、hug(要抱抱)、hungry(饑餓)、sleepy(困乏)和uncomfortable(不舒服)六類(lèi)哭聲,并且人工添加了來(lái)自Noisex-92標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的噪聲。 這項(xiàng)任務(wù)旨在判別嬰兒啼哭聲所傳遞的信息,需要分別在簡(jiǎn)單噪聲環(huán)境和復(fù)雜噪聲環(huán)境下對(duì)嬰兒啼哭進(jìn)行識(shí)別,判斷容易引起混淆的啼哭聲,分析各類(lèi)啼哭聲的明顯特征及簡(jiǎn)單直接的判別方式。 初賽訓(xùn)練數(shù)據(jù)包含918條音頻,測(cè)試集包含228條。復(fù)賽賽方提供了添加不同噪聲的30294條訓(xùn)練數(shù)據(jù),需對(duì)7524條測(cè)試音頻進(jìn)行識(shí)別。
嬰兒啼哭比賽背后的技術(shù)原理 小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)借鑒說(shuō)話(huà)人確認(rèn)的方法,訓(xùn)練網(wǎng)絡(luò)使得vector的余弦距在離類(lèi)間間距拉大而類(lèi)內(nèi)間距減小。 在模型的訓(xùn)練過(guò)程中,首先使用VAD算法對(duì)嬰兒啼哭音頻中的靜音部分進(jìn)行剔除。去除靜音后隨機(jī)選取160幀,不足160幀的語(yǔ)音采用Cycle Padding方式,利用中間特征進(jìn)行循環(huán)填充,相比與傳統(tǒng)的補(bǔ)0或用尾部填充的方式,特征更加豐富。 模型采用3 層 LSTM+256Dense 層,每層節(jié)點(diǎn)為 512。初賽訓(xùn)練集中的所有純凈語(yǔ)音均看作 enroll 語(yǔ)料,所有訓(xùn)練集中每個(gè)類(lèi)別的 embedding 由該類(lèi)別中的所有語(yǔ)音過(guò)模型求整體平均得到。測(cè)試集中的每條語(yǔ)音過(guò)模型后得到的 embedding與 enroll 中的每類(lèi) embedding 求余弦距離,分?jǐn)?shù)對(duì)應(yīng)最高的類(lèi)別為預(yù)測(cè)類(lèi)別。 訓(xùn)練策略為:首先迭代第一個(gè) 5000 次,學(xué)習(xí)率設(shè)置為 1e-3,第二次加載預(yù)訓(xùn)練模型(mAp 分?jǐn)?shù)高的),調(diào)整學(xué)習(xí)率,再迭代 5000 次,最終交叉加載預(yù)訓(xùn)練模型在不同的 part 上訓(xùn)練。
模型的選擇和推理過(guò)程分為以下4個(gè)步驟:
測(cè)試集統(tǒng)計(jì)分析:首先統(tǒng)計(jì)測(cè)試集語(yǔ)音的信噪比、時(shí)長(zhǎng)、靜音占比及語(yǔ)音相似度。通過(guò)對(duì)比分析,對(duì)相似數(shù)據(jù)進(jìn)行歸類(lèi),選取最高信噪比數(shù)據(jù)進(jìn)行預(yù)測(cè)。
模型選擇:在 5 個(gè)訓(xùn)練集上分別擇優(yōu)選取 2 個(gè)模型作為備用。
推理:計(jì)算測(cè)試語(yǔ)料經(jīng)模型推理得到的vector 與每類(lèi)哭聲embedding間的余弦距離,取分?jǐn)?shù)最高的對(duì)應(yīng)類(lèi)為備選結(jié)果。
投票:根據(jù)單個(gè)模型預(yù)測(cè)的結(jié)果投票得到最終結(jié)果。
聲學(xué)感知技術(shù)未來(lái)將如何發(fā)展? 當(dāng)前主流的聲學(xué)感知技術(shù)使用的是強(qiáng)監(jiān)督的深度學(xué)習(xí)方法,隨著數(shù)據(jù)量的增大和技術(shù)的發(fā)展,未來(lái)監(jiān)督學(xué)習(xí)的方法將逐漸過(guò)度為半監(jiān)督甚至無(wú)監(jiān)督學(xué)習(xí)。其中半監(jiān)督學(xué)習(xí)正是當(dāng)前聲音事件檢測(cè)技術(shù)的研究重點(diǎn)。 不僅如此,深度學(xué)習(xí)的網(wǎng)絡(luò)模型也從人工專(zhuān)家設(shè)計(jì)逐漸轉(zhuǎn)變?yōu)樽詣?dòng)搜索架構(gòu),而元學(xué)習(xí)等小樣本學(xué)習(xí)方法也開(kāi)始逐步應(yīng)用在聲學(xué)感知方向。 嬰兒哭聲分析只是聲學(xué)感知技術(shù)的其中一個(gè)應(yīng)用。當(dāng)前的聲音場(chǎng)景分類(lèi)和聲音事件檢測(cè)技術(shù)已能在設(shè)備端上實(shí)時(shí)分析當(dāng)前用戶(hù)所處的場(chǎng)景和識(shí)別出各式各樣的聲音,如貓狗寵物叫聲、警報(bào)聲、汽車(chē)?guó)Q笛聲等。
不僅如此,聲學(xué)感知技術(shù)還能分析出一些連人耳也無(wú)法聽(tīng)出的聲音,如本次競(jìng)賽的嬰兒啼哭意圖,以及應(yīng)用在工業(yè)上,通過(guò)分析機(jī)器發(fā)出的聲音來(lái)判斷機(jī)器保養(yǎng)狀態(tài)的聲學(xué)分析技術(shù)。聲音作為一種最常見(jiàn)的傳感媒介之一,聲音感知技術(shù)在智能家庭、自動(dòng)駕駛、智能工業(yè)化等領(lǐng)域都有廣泛的應(yīng)用場(chǎng)景。 手機(jī)xAIoT小米AI全力打造小米智能家居 隨著小米最新的手機(jī)xAIoT戰(zhàn)略,智能家居環(huán)境是手機(jī)設(shè)備與全部智能家居設(shè)備聯(lián)動(dòng)最全面的使用場(chǎng)景。手機(jī)、TWS耳機(jī)和越來(lái)越多的智能家居設(shè)備比如智能音箱、智能電視、米家IoT設(shè)備等都具有麥克風(fēng)拾音功能。 我們獲得了足夠多場(chǎng)景下的聲音數(shù)據(jù)時(shí),構(gòu)建基于設(shè)備端的場(chǎng)景感知、事件感知、人體感知和空間感知能力成為了可能。 依賴(lài)于全球第一的AIoT平臺(tái),小米可以實(shí)現(xiàn)對(duì)家中每一個(gè)角落無(wú)處不在的感知能力,并完成手機(jī)端事件提醒與多事件時(shí)間線(xiàn)回溯,聲學(xué)作為智能感知的一種手段,在未來(lái)與UWB技術(shù)、視覺(jué)圖像技術(shù)相結(jié)合,相互取長(zhǎng)補(bǔ)短將成為主流的趨勢(shì)。
責(zé)任編輯:xj
原文標(biāo)題:小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)榮獲2020 iFLYTEK A.I.開(kāi)發(fā)者大賽嬰兒啼哭聲識(shí)別挑戰(zhàn)賽冠軍
文章出處:【微信公眾號(hào):小米公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
AI
+關(guān)注
關(guān)注
87文章
31028瀏覽量
269371 -
智能語(yǔ)音
+關(guān)注
關(guān)注
10文章
786瀏覽量
48805 -
小米
+關(guān)注
關(guān)注
70文章
14363瀏覽量
144368
原文標(biāo)題:小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)榮獲2020 iFLYTEK A.I.開(kāi)發(fā)者大賽嬰兒啼哭聲識(shí)別挑戰(zhàn)賽冠軍
文章出處:【微信號(hào):xiaomigongsi0406,微信公眾號(hào):小米公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論