亚洲色成人网站www永久蜜芽,欧美日韩一区二区三区精品不卡

對(duì)嬰兒來(lái)說(shuō)，啼哭聲是一種通訊的方式，一個(gè)非常有限、但類(lèi)似成年人進(jìn)行交流的方式。它也是一種生物報(bào)警器，向外界傳達(dá)著嬰兒生理和心理的需求。基于啼哭聲聲波攜帶的信息，嬰兒的身體狀況才能被確定，疾病才能被檢測(cè)出來(lái)。因此，有效辨識(shí)啼哭聲，成功地將嬰兒啼哭聲“翻譯”成“成人語(yǔ)言”，讓成年人讀懂啼哭聲的含義，有重大的實(shí)際意義。 2020 iFLYTEK A.I.開(kāi)發(fā)者大賽中，有一項(xiàng)關(guān)于嬰兒啼哭聲識(shí)別的挑戰(zhàn)賽任務(wù)。本次競(jìng)賽總共吸引了678只隊(duì)伍參賽，分別來(lái)自國(guó)內(nèi)不同的公司和高校。最終小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)以0.99123分的高分奪得第一名。

比賽的訓(xùn)練數(shù)據(jù)集包含了awake（蘇醒）、diaper（換尿布）、hug（要抱抱）、hungry（饑餓）、sleepy（困乏）和uncomfortable（不舒服）六類(lèi)哭聲，并且人工添加了來(lái)自Noisex-92標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的噪聲。這項(xiàng)任務(wù)旨在判別嬰兒啼哭聲所傳遞的信息，需要分別在簡(jiǎn)單噪聲環(huán)境和復(fù)雜噪聲環(huán)境下對(duì)嬰兒啼哭進(jìn)行識(shí)別，判斷容易引起混淆的啼哭聲，分析各類(lèi)啼哭聲的明顯特征及簡(jiǎn)單直接的判別方式。初賽訓(xùn)練數(shù)據(jù)包含918條音頻，測(cè)試集包含228條。復(fù)賽賽方提供了添加不同噪聲的30294條訓(xùn)練數(shù)據(jù)，需對(duì)7524條測(cè)試音頻進(jìn)行識(shí)別。

嬰兒啼哭比賽背后的技術(shù)原理小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)借鑒說(shuō)話(huà)人確認(rèn)的方法，訓(xùn)練網(wǎng)絡(luò)使得vector的余弦距在離類(lèi)間間距拉大而類(lèi)內(nèi)間距減小。在模型的訓(xùn)練過(guò)程中，首先使用VAD 算法對(duì)嬰兒啼哭音頻中的靜音部分進(jìn)行剔除。去除靜音后隨機(jī)選取160幀，不足160幀的語(yǔ)音采用Cycle Padding方式，利用中間特征進(jìn)行循環(huán)填充，相比與傳統(tǒng)的補(bǔ)0或用尾部填充的方式，特征更加豐富。模型采用3 層 LSTM+256Dense 層,每層節(jié)點(diǎn)為 512。初賽訓(xùn)練集中的所有純凈語(yǔ)音均看作 enroll 語(yǔ)料,所有訓(xùn)練集中每個(gè)類(lèi)別的 embedding 由該類(lèi)別中的所有語(yǔ)音過(guò)模型求整體平均得到。測(cè)試集中的每條語(yǔ)音過(guò)模型后得到的 embedding與 enroll 中的每類(lèi) embedding 求余弦距離,分?jǐn)?shù)對(duì)應(yīng)最高的類(lèi)別為預(yù)測(cè)類(lèi)別。訓(xùn)練策略為：首先迭代第一個(gè) 5000 次,學(xué)習(xí)率設(shè)置為 1e-3，第二次加載預(yù)訓(xùn)練模型(mAp 分?jǐn)?shù)高的)，調(diào)整學(xué)習(xí)率，再迭代 5000 次，最終交叉加載預(yù)訓(xùn)練模型在不同的 part 上訓(xùn)練。

模型的選擇和推理過(guò)程分為以下4個(gè)步驟：

測(cè)試集統(tǒng)計(jì)分析：首先統(tǒng)計(jì)測(cè)試集語(yǔ)音的信噪比、時(shí)長(zhǎng)、靜音占比及語(yǔ)音相似度。通過(guò)對(duì)比分析，對(duì)相似數(shù)據(jù)進(jìn)行歸類(lèi)，選取最高信噪比數(shù)據(jù)進(jìn)行預(yù)測(cè)。

模型選擇：在 5 個(gè)訓(xùn)練集上分別擇優(yōu)選取 2 個(gè)模型作為備用。

推理：計(jì)算測(cè)試語(yǔ)料經(jīng)模型推理得到的vector 與每類(lèi)哭聲embedding間的余弦距離，取分?jǐn)?shù)最高的對(duì)應(yīng)類(lèi)為備選結(jié)果。

投票：根據(jù)單個(gè)模型預(yù)測(cè)的結(jié)果投票得到最終結(jié)果。

聲學(xué)感知技術(shù)未來(lái)將如何發(fā)展？當(dāng)前主流的聲學(xué)感知技術(shù)使用的是強(qiáng)監(jiān)督的深度學(xué)習(xí)方法，隨著數(shù)據(jù)量的增大和技術(shù)的發(fā)展，未來(lái)監(jiān)督學(xué)習(xí)的方法將逐漸過(guò)度為半監(jiān)督甚至無(wú)監(jiān)督學(xué)習(xí)。其中半監(jiān)督學(xué)習(xí)正是當(dāng)前聲音事件檢測(cè)技術(shù)的研究重點(diǎn)。不僅如此，深度學(xué)習(xí)的網(wǎng)絡(luò)模型也從人工專(zhuān)家設(shè)計(jì)逐漸轉(zhuǎn)變?yōu)樽詣?dòng)搜索架構(gòu)，而元學(xué)習(xí)等小樣本學(xué)習(xí)方法也開(kāi)始逐步應(yīng)用在聲學(xué)感知方向。嬰兒哭聲分析只是聲學(xué)感知技術(shù)的其中一個(gè)應(yīng)用。當(dāng)前的聲音場(chǎng)景分類(lèi)和聲音事件檢測(cè)技術(shù)已能在設(shè)備端上實(shí)時(shí)分析當(dāng)前用戶(hù)所處的場(chǎng)景和識(shí)別出各式各樣的聲音，如貓狗寵物叫聲、警報(bào)聲、汽車(chē)?guó)Q笛聲等。

不僅如此，聲學(xué)感知技術(shù)還能分析出一些連人耳也無(wú)法聽(tīng)出的聲音，如本次競(jìng)賽的嬰兒啼哭意圖，以及應(yīng)用在工業(yè)上，通過(guò)分析機(jī)器發(fā)出的聲音來(lái)判斷機(jī)器保養(yǎng)狀態(tài)的聲學(xué)分析技術(shù)。聲音作為一種最常見(jiàn)的傳感媒介之一，聲音感知技術(shù)在智能家庭、自動(dòng)駕駛、智能工業(yè)化等領(lǐng)域都有廣泛的應(yīng)用場(chǎng)景。手機(jī)xAIoT小米AI全力打造小米智能家居隨著小米最新的手機(jī)xAIoT戰(zhàn)略，智能家居環(huán)境是手機(jī)設(shè)備與全部智能家居設(shè)備聯(lián)動(dòng)最全面的使用場(chǎng)景。手機(jī)、TWS耳機(jī)和越來(lái)越多的智能家居設(shè)備比如智能音箱、智能電視、米家IoT設(shè)備等都具有麥克風(fēng)拾音功能。我們獲得了足夠多場(chǎng)景下的聲音數(shù)據(jù)時(shí)，構(gòu)建基于設(shè)備端的場(chǎng)景感知、事件感知、人體感知和空間感知能力成為了可能。依賴(lài)于全球第一的AIoT平臺(tái)，小米可以實(shí)現(xiàn)對(duì)家中每一個(gè)角落無(wú)處不在的感知能力，并完成手機(jī)端事件提醒與多事件時(shí)間線(xiàn)回溯，聲學(xué)作為智能感知的一種手段，在未來(lái)與UWB技術(shù)、視覺(jué)圖像技術(shù)相結(jié)合，相互取長(zhǎng)補(bǔ)短將成為主流的趨勢(shì)。

責(zé)任編輯：xj

原文標(biāo)題：小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)榮獲2020 iFLYTEK A.I.開(kāi)發(fā)者大賽嬰兒啼哭聲識(shí)別挑戰(zhàn)賽冠軍

文章出處：【微信公眾號(hào)：小米公司】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴