我們可以學(xué)著了解設(shè)備發(fā)出的正常聲音是什么樣的。當(dāng)聲音出現(xiàn)變化時(shí),我們可以確認(rèn)出現(xiàn)異常。然后我們可以了解是什么問(wèn)題,通過(guò)這樣的方式把聲音和特定的問(wèn)題聯(lián)系在一起。識(shí)別異常可能需要進(jìn)行幾分鐘的訓(xùn)練,但將聲音、振動(dòng)和原因結(jié)合起來(lái)實(shí)施診斷可能需要一輩子的時(shí)間。經(jīng)驗(yàn)豐富的技工人員和工程師可能具備這種知識(shí),但他們屬于稀缺資源。單單通過(guò)聲音本身識(shí)別問(wèn)題可能相當(dāng)困難,即使使用錄音、描述性框架或接受專(zhuān)家親自培訓(xùn)也是如此。
因此,ADI團(tuán)隊(duì)在過(guò)去20年里一直致力于理解人類(lèi)是如何解讀聲音和振動(dòng)的。我們的目標(biāo)是建立一個(gè)系統(tǒng),能夠?qū)W習(xí)來(lái)自設(shè)備的聲音和振動(dòng),破譯它們的含義,以檢測(cè)異常行為,并進(jìn)行診斷。本文詳細(xì)介紹了OtoSense的體系結(jié)構(gòu),它是一種設(shè)備健康監(jiān)測(cè)系統(tǒng),支持我們所說(shuō)的計(jì)算機(jī)聽(tīng)覺(jué),讓計(jì)算機(jī)能夠理解設(shè)備行為的主要指標(biāo):聲音和振動(dòng)。
該系統(tǒng)適用于任何設(shè)備,可以實(shí)時(shí)工作,無(wú)需網(wǎng)絡(luò)連接。它已被應(yīng)用于工業(yè)應(yīng)用,支持實(shí)現(xiàn)一個(gè)可擴(kuò)展的高效設(shè)備健康監(jiān)測(cè)系統(tǒng)。
本文探討了引導(dǎo)開(kāi)發(fā)OtoSense的原則,以及在設(shè)計(jì)OtoSense期間,人類(lèi)聽(tīng)覺(jué)所發(fā)揮的作用。然后,本文討論了聲音或振動(dòng)特性的是如何被設(shè)計(jì)出來(lái)的、如何從這些特性了解其代表的意義,以及在持續(xù)學(xué)習(xí)中如何不斷改變和改進(jìn)OtoSense,用于執(zhí)行愈加復(fù)雜的診斷,且結(jié)果更為精準(zhǔn)。
指導(dǎo)原則為了保證耐用、不可知且高效,OtoSense設(shè)計(jì)理念秉持幾個(gè)指導(dǎo)原則:
-
從人類(lèi)神經(jīng)學(xué)中獲得靈感。人類(lèi)可以以一種非常節(jié)能的方式學(xué)習(xí)和理解他們聽(tīng)到的任何聲音。
-
能夠?qū)W習(xí)靜態(tài)聲音和瞬態(tài)聲音。這需要不斷調(diào)整功能和持續(xù)實(shí)施監(jiān)測(cè)。
-
在靠近傳感器的終端進(jìn)行識(shí)別。應(yīng)該無(wú)需通過(guò)網(wǎng)絡(luò)連接遠(yuǎn)程服務(wù)器來(lái)做出決策。
-
與專(zhuān)家互動(dòng),向他們學(xué)習(xí),前提是盡可能避免干擾他們的日常工作,且過(guò)程要盡可能愉悅。
人類(lèi)聽(tīng)覺(jué)系統(tǒng)和對(duì) OtoSense 的解析
聽(tīng)覺(jué)是一種關(guān)乎生存的感覺(jué)。它是對(duì)遙遠(yuǎn)的、看不見(jiàn)的事件的整體感覺(jué),在出生前就已成熟
人類(lèi)感知聲音的過(guò)程可以用四個(gè)熟悉的步驟來(lái)描述:聲音的模擬獲取、數(shù)字轉(zhuǎn)換、特征提取和解讀。在每個(gè)步驟中,我們都會(huì)將人耳與 OtoSense 系統(tǒng)比較。
-
模擬獲取和數(shù)字化。中耳中的膜和杠桿捕捉聲音,然后調(diào)整阻抗,將振動(dòng)傳輸?shù)匠湟呵坏乐?,在那里,另一層膜?huì)根據(jù)信號(hào)中存在的光譜成分選擇性地移位。這反過(guò)來(lái)彎曲了彈性單元,這些單元發(fā)出數(shù)字信號(hào),反映出彎曲程度和強(qiáng)度。然后,這些單獨(dú)的信號(hào)通過(guò)按頻率排列的平行神經(jīng)傳遞到初級(jí)聽(tīng)覺(jué)皮層。
-
在 OtoSense 中,這項(xiàng)工作由傳感器、放大器和編解碼器來(lái)完成。數(shù)字化過(guò)程使用固定的采樣速率,可在 250 Hz 和 196kHz 之間調(diào)節(jié),波形在 16 位編碼,然后存儲(chǔ)到大小在 128 到4096 之間的緩沖區(qū)。
-
-
特性提取發(fā)生在初級(jí)皮層:頻率域特性,如主頻率、諧波和頻譜形狀,以及時(shí)間域特性,如脈沖、強(qiáng)度變化和在大約 3 秒時(shí)間窗內(nèi)的主要頻率成分。
-
OtoSense 使用一個(gè)時(shí)間窗,我們稱(chēng)之為塊,它以固定的步長(zhǎng)移動(dòng)。這個(gè)塊的大小和步長(zhǎng)范圍為 23 毫秒到 3 秒,具體由需要識(shí)別的事件和在終端提取特性的采樣率決定。在下一節(jié)中,我們會(huì)就 OtoSense 提取的特性進(jìn)行更詳細(xì)地解釋。
-
-
解析發(fā)生在聯(lián)絡(luò)皮層,它融合了所有的感知和記憶,并賦予聲音以含義(比如通過(guò)語(yǔ)言),在塑造感知期間起著核心作用。解析過(guò)程會(huì)組織我們對(duì)事件的描述,遠(yuǎn)遠(yuǎn)不止是對(duì)它們進(jìn)行命名這么簡(jiǎn)單。為一個(gè)項(xiàng)目、一個(gè)聲音或一個(gè)事件命名可以讓我們賦予它更大、更多層的含義。對(duì)于專(zhuān)家來(lái)說(shuō),名字和含義能讓他們更好地理解周?chē)沫h(huán)境。
-
這就是為什么 OtoSense 與人的互動(dòng)始于基于人類(lèi)神經(jīng)學(xué)的視覺(jué)、無(wú)監(jiān)督的聲音映射。OtoSense 利用圖形表示所有聽(tīng)到的聲音或振動(dòng),它們按相似性排列,但不嘗試創(chuàng)建固定分類(lèi)。這讓專(zhuān)家們能夠組織屏幕上顯示的組,并為它們命名,而無(wú)需嘗試人為創(chuàng)建有界線(xiàn)的類(lèi)別。他們可以根據(jù)自身的知識(shí)、感知和對(duì) OtoSense 最終輸出的期望構(gòu)建語(yǔ)義地圖。對(duì)于同樣的音景,汽車(chē)機(jī)械師、航空工程師,或者冷鍛壓力機(jī)專(zhuān)家,甚至是研究相同領(lǐng)域,但來(lái)自不同公司的人員,都可以按不同的方式進(jìn)行劃分、組織和標(biāo)記。OtoSense則與塑造語(yǔ)言意義一樣,使用相同的自下而上的方法來(lái)給定意義。
-
經(jīng)過(guò)一段時(shí)間(如之前所示,時(shí)間窗或塊),我們會(huì)給某個(gè)特征分配一個(gè)單獨(dú)的編號(hào),用于描述該時(shí)間內(nèi)聲音或振動(dòng)的給定屬性/質(zhì)量。OtoSense 平臺(tái)選擇特性的原則如下:
-
對(duì)于頻率域和時(shí)域,特征都應(yīng)該盡可能完整地描述環(huán)境,供盡可能多的細(xì)節(jié)。它們必須描述靜止的嗡嗡聲,以及咔噠聲、嘩啦聲、吱吱聲和任何瞬間變化的聲音。
-
特征應(yīng)盡可能按正交方式構(gòu)成一個(gè)集合。如果一個(gè)特征被定義為“塊上的平均振幅”,那么就不應(yīng)該有另一個(gè)特征與之高度相關(guān),例如“塊上的總光譜能量”。當(dāng)然,正交性可能永遠(yuǎn)無(wú)法實(shí)現(xiàn),但不應(yīng)將任何一種表述為其他特征的組合,每種特征都必須包含單一信息。
-
特性應(yīng)該最小化計(jì)算量。我們的大腦只知道加法、比較和重置為0。大多數(shù)OtoSense特性都被設(shè)計(jì)成增量,這樣每個(gè)新示例都可以通過(guò)簡(jiǎn)單的操作修改特性,而不需要在完整的緩沖區(qū),或者更為糟糕的,在塊上重新進(jìn)行計(jì)算。最小化計(jì)算量還意味著可以忽略標(biāo)準(zhǔn)物理單元。例如,嘗試用值(以dBA為單位)表示強(qiáng)度是沒(méi)有意義的。如果需要輸出dBA值,則可以在輸出時(shí)完成(如果必要)。
在OtoSense平臺(tái)的2到1024個(gè)特性中,有一部分描述了時(shí)域。它們要么是直接從波形中提取,要么是從塊上任何其他特性的演化中提取。在這些特性中,有些包括平均振幅和最大振幅、由波形線(xiàn)性長(zhǎng)度得到的復(fù)雜度、振幅變化、脈沖的存在與否和其特性、第一個(gè)和最后一個(gè)緩沖區(qū)之間相似性的穩(wěn)定性、卷積的超小型自相關(guān)或主要頻譜峰值的變化。
在頻域上使用的特性提取自 FFT。FFT 在每個(gè)緩沖區(qū)上計(jì)算,產(chǎn)生從 128 到 2048 個(gè)單獨(dú)頻率的輸出。然后,該過(guò)程創(chuàng)建一個(gè)具 有所需維數(shù)的向量,該向量比FFT小得多,但仍能細(xì)致地描述環(huán)境。OtoSense最初使用一種不可知的方法在對(duì)數(shù)頻譜上創(chuàng)建大小相同的數(shù)據(jù)桶。然后,根據(jù)環(huán)境和要識(shí)別的事件,這些數(shù)據(jù)桶將重點(diǎn)放在信息密度高的頻譜區(qū)域,要么是從能夠熵最大化的無(wú)監(jiān)督視角,要么是從使用標(biāo)記事件作為指導(dǎo)的半監(jiān)督視角來(lái)判斷。這模擬了我們的內(nèi)耳細(xì)胞結(jié)構(gòu),在語(yǔ)言信息密度最大的地方,語(yǔ)音細(xì)節(jié)更密集。
結(jié)構(gòu):支持終端和本地?cái)?shù)據(jù)OtoSense在終端位置實(shí)施異常檢測(cè)和事件識(shí)別,無(wú)需使用任何遠(yuǎn)程設(shè)備。這種結(jié)構(gòu)確保系統(tǒng)不會(huì)受到網(wǎng)絡(luò)故障的影響,且無(wú)需將所有原始數(shù)據(jù)塊發(fā)送出去進(jìn)行分析。運(yùn)行 OtoSense 的終端設(shè)備是一種自包含系統(tǒng),可以實(shí)時(shí)描述所鑒聽(tīng)設(shè)備的行為。
運(yùn)行AI和HMI的OtoSense服務(wù)器一般托管在本地。云架構(gòu)可以將多個(gè)有意義的數(shù)據(jù)流聚合成為OtoSense設(shè)備的輸出。對(duì)于一個(gè)專(zhuān)門(mén)處理大量數(shù)據(jù)并在一個(gè)站點(diǎn)上與數(shù)百臺(tái)設(shè)備交互的AI 來(lái)說(shuō),使用云托管的意義不大。
圖1. OtoSense 系統(tǒng)
從特性到異常檢測(cè)正常/異常評(píng)估無(wú)需與專(zhuān)家進(jìn)行太多交互。專(zhuān)家只需要幫忙確定表示設(shè)備聲音和振動(dòng)正常的基線(xiàn)。然后,在推送給設(shè)備之前,先將這個(gè)基線(xiàn)在 Otosense 服務(wù)器上轉(zhuǎn)換為異常模型。
然后,我們使用兩種不同的策略來(lái)評(píng)估傳入的聲音或振動(dòng)是否正常:
-
第一種策略是我們所說(shuō)的“常態(tài)性”,即檢查任何進(jìn)入特性空間的新聲音的周?chē)h(huán)境、它與基線(xiàn)點(diǎn)和集群的距離,以及這些集群的大小。距離越大,集群越小,新的聲音就越不尋常,異常值也就越高。當(dāng)這個(gè)異常值高于專(zhuān)家定義的閾值時(shí),相應(yīng)的塊將被標(biāo)記為不尋常,并發(fā)送到服務(wù)器供專(zhuān)家查看。
-
第二種策略非常簡(jiǎn)單:任何特性值高于或低于特性定義的基線(xiàn)的最大值或最小值的傳入塊都被標(biāo)記為“極端”,并發(fā)送到服務(wù)器。
異常和極端策略的組合很好地涵蓋了異常的聲音或振動(dòng),這些策略在檢測(cè)日漸磨損和殘酷的意外事件方面也表現(xiàn)出色。
從特征到事件識(shí)別特征屬于物理領(lǐng)域,含義屬于人類(lèi)認(rèn)知。要將特征與含義聯(lián)系起來(lái),需要OtoSenseAI和人類(lèi)專(zhuān)家之間展開(kāi)互動(dòng)。我們花了大量時(shí)間研究客戶(hù)的反饋,開(kāi)發(fā)出人機(jī)界面(HMI),讓工程師能夠高效地與OtoSense交互,設(shè)計(jì)出事件識(shí)別模型。這個(gè)HMI允許探索數(shù)據(jù)、標(biāo)記數(shù)據(jù)、創(chuàng)建異常模型和聲音識(shí)別模型,并測(cè)試這些模型。
OtoSense Sound Platter(也稱(chēng)為splatter)允許通過(guò)完整概述數(shù)據(jù)集來(lái)探索和標(biāo)記聲音。Splatter在完整的數(shù)據(jù)集中選擇最有趣和最具代表性的聲音,并將它們顯示為一個(gè)混合了標(biāo)記和未標(biāo)記聲音的 2D 相似性地圖。
圖2. OtoSense Sound Platter 中的 2D splatter 聲音地圖。
任何聲音或振動(dòng),包括其環(huán)境,都可以通過(guò)許多不同的方式進(jìn)行可視化——例如,使用 Sound Widget(也稱(chēng)為 Swidget)。
圖3. OtoSense sound widget (swidget)。
在任何時(shí)候,都可以創(chuàng)建異常模型或事件識(shí)別模型。事件識(shí)別模型是一個(gè)圓形的混淆矩陣,它允許 OtoSense 用戶(hù)探索混淆事件。
圖4. 可以基于所需的事件創(chuàng)建事件識(shí)別模型
異常可以通過(guò)一個(gè)顯示所有異常和極端聲音的界面進(jìn)行考察和標(biāo)記。
圖5. 在 OtoSense 異??梢暬缑嬷校曇舴治鲭S時(shí)間的變化。
持續(xù)學(xué)習(xí)過(guò)程—從異常檢測(cè)到日益復(fù)雜的診斷OtoSense 的設(shè)計(jì)初衷是向多位專(zhuān)家學(xué)習(xí),并且隨著時(shí)間推移,進(jìn)行越來(lái)越復(fù)雜的診斷。常見(jiàn)過(guò)程是 OtoSense 和專(zhuān)家之間的循環(huán):
-
異常模型和事件識(shí)別模型都是在終端運(yùn)行。這些模型為潛在事件發(fā)生的概率以及它們的異常值創(chuàng)建輸出。
-
超出定義閾值的異常聲音或振動(dòng)會(huì)觸發(fā)異常通知。使用 OtoSense 的技術(shù)人員和工程師可以檢查該聲音和其前后聲音信息。
-
然后,這些專(zhuān)家會(huì)對(duì)這個(gè)異常事件進(jìn)行標(biāo)記。
-
對(duì)包含這些新信息的新識(shí)別模型和異常模型進(jìn)行計(jì)算,并推送給終端設(shè)備。
ADI提供的OtoSense技術(shù)旨在使聲音和振動(dòng)專(zhuān)業(yè)知識(shí)在任何設(shè)備上都持續(xù)可用,且無(wú)需連接網(wǎng)絡(luò)來(lái)執(zhí)行異常檢測(cè)和事件識(shí)別。在航空航天、汽車(chē)和工業(yè)監(jiān)測(cè)應(yīng)用中,該技術(shù)被越來(lái)越多地用于設(shè)備健康監(jiān)測(cè),這表示,在曾經(jīng)需要專(zhuān)業(yè)知識(shí),以及涉及嵌入式應(yīng)用的場(chǎng)景中,尤其是對(duì)于復(fù)雜設(shè)備而言,該技術(shù)都表現(xiàn)出了不錯(cuò)的性能。
-
ADI
+關(guān)注
關(guān)注
146文章
45857瀏覽量
251068 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121362
原文標(biāo)題:聽(tīng)懂聲音——ADI人工智能如何大幅延長(zhǎng)設(shè)備的正常運(yùn)行時(shí)間?
文章出處:【微信號(hào):analog_devices,微信公眾號(hào):analog_devices】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論