亚洲一区精品无码,好色先生APP最新下载入口

本文是基于NNoM神經(jīng)網(wǎng)絡框架實現(xiàn)的。NNoM是一個為單片機定制的神經(jīng)網(wǎng)絡框架，可以實現(xiàn)TensorFlow 模型的量化和部署到單片機上，可以在Cortex M4/7/33等ARM內(nèi)核的單片機上實現(xiàn)加速（STM32，LPC，Nordic nRF 等等）。

NNoM和本文代碼可以在后臺回復：“麥克風降噪”領取。

STM32實現(xiàn)單麥克風實時神經(jīng)網(wǎng)絡（RNN）降噪演示

硬聲創(chuàng)作者：麻博士在科研

這個例子是根據(jù)著名的 RNNoise (https://jmvalin.ca/demo/rnnoise/) 的降噪方法進行設計的。整體進行了一些簡化和定點化的一些修改。

本例與RNNoise主要的區(qū)別如下:

此例子并非從RNNoise的模型直接轉(zhuǎn)換而來，而是從新基于Keras訓練一個新模型，并轉(zhuǎn)化成NNoM模型。

音頻信號處理去掉了Pitch Filtering的部分。

RNN 網(wǎng)絡定點化時，根據(jù)定點模型的一些特點進行了部分神經(jīng)網(wǎng)絡結(jié)構(gòu)修改。

訓練數(shù)據(jù)集選擇上使用了微軟的可定制語音數(shù)據(jù)庫而不是RNNoise收集的數(shù)據(jù)庫。

此例子用到的三方庫如下，大部分為寬松許可，但請大家在使用時遵循他們的開源協(xié)議。

RNNoise (https://jmvalin.ca/demo/rnnoise/)

Microsoft Scalable Noisy Speech Dataset (https://github.com/microsoft/MS-SNSD)

python speech features (https://github.com/jameslyons/python_speech_features)

arduino_fft (https://github.com/lloydroc/arduino_fft)

CMSIS (https://github.com/ARM-software/CMSIS_5)

NNoM本身許可為 Apache-2.0，詳細信息請看NNoM 開源主倉庫下的許可信息 (https://github.com/majianjia/nnom).

一些背景知識

如何用神經(jīng)網(wǎng)絡進行語音降噪？

神經(jīng)網(wǎng)絡降噪通常有兩種方式：

語音信號直入神經(jīng)網(wǎng)絡模型，神經(jīng)網(wǎng)絡全權(quán)進行識別處理并輸出降噪后的語音信號。

神經(jīng)網(wǎng)絡識別語音和噪音的特征，動態(tài)輸出增益，使用傳統(tǒng)信號處理方法進行濾波。

RNNoise 使用的是第二種方法。

實際進行語音降噪（濾波）的部分，是一個均衡器，也就是大家播放器內(nèi)調(diào)節(jié)低音高音的那個玩意兒。而均衡器(Equalizer)的本質(zhì)是很多個平行的帶通濾波器(Bandpass Filter). 我們神經(jīng)網(wǎng)絡的輸出，就是均衡器內(nèi)各個filter band的增益。

那輸入是什么？跟之前的 KeyWord Spotting例子(https://github.com/majianjia/nnom/tree/master/examples/keyword_spotting) 一樣，我們這里使用了梅爾倒頻譜 (MFCC)。如果不熟悉的小伙伴，可以回去看看KWS的解釋或自行百度。

跟RNNoise有一些不一樣的是我們的例子使用MFCC和梅爾刻度 (Mel-scale) 而不是他們用的OPUS-Scale 或者響度刻度 (Bark-Scale)。單純從刻度的對比上，他們其實差別不是很大。感興趣的同學可以自己去查查他們的區(qū)別。

系統(tǒng)圖如下

運行步驟

如果想看詳細的解析，請?zhí)轿恼潞蟀氩糠?。這里介紹在RTT和STM32L476板子上把這套算法跑起來的步驟。

1.下載語音數(shù)據(jù)集

這里我們使用的數(shù)據(jù)集是微軟的可定制語音數(shù)據(jù)集Microsoft Scalable Noisy Speech Dataset (MS-SNSD: https://github.com/microsoft/MS-SNSD)。我們可以定制時長，噪音類型，噪音混合信噪比等。你需要把整個倉庫下載在 MS-SNSD/文件夾內(nèi)。整個數(shù)據(jù)庫有2.x GB大佬們請自行進行github加速。

下載完后，你就可以用它生成我們需要的干凈的語音和帶噪音的語音。同時我們還控制了語音混合的程度，也就是信噪比(SNR).

在MS-SNSD/目錄下修改 noisyspeech_synthesizer.cfg 就可以配置需要生成的語音文件，推薦配置如下:

sampling_rate:16000

audioformat:*.wav

audio_length:60

silence_length:0.0

total_hours:15

snr_lower:0

snr_upper:20

total_snrlevels: 3

如果打算快速測試一下，可以把 total_hour 減少為1或者2小時。

修改完后，運行 noisyspeech_synthesizer.py 就可以生成我們需要的音頻WAV文件了。我們需要一對一的干凈的語音和帶噪音的語音，它們分別在MS-SNSD/CleanSpeech_training 和 MS-SNSD/NoisySpeech_training 內(nèi)。

2. 生成訓練數(shù)據(jù)集

之前一步獲取到的是.wav文件，而我們訓練神經(jīng)網(wǎng)絡使用的是 MFCC 和 gains。

現(xiàn)在我們可以運行例子提供的gen_dataset.py來計算MFCC和gains。它最終會生成一個dataset.npz文件。

在這個文件里面，你可以配置這些內(nèi)容

需要MFCC的特征數(shù)(同時也會修改均衡器Equalizer的Banpass Filter的數(shù)量)。修改 num_filter = 20即可。通常數(shù)字在10到26。

這個腳本也會生成一個c工程使用的濾波器參數(shù)文件equalizer_coeff.h (generate_filter_header(...))。在C語音的均衡器中會使用這個頭文件。

另外，這個腳本還會生成兩個Demo音頻。一個叫_noisy_sample.wav 另一個叫 _filtered_sample.wav。前者為從訓練集里面選出的一個帶噪音的范例，后者為用gains和均衡器濾波后文件?；旧希@個文件代表了這個降噪方法的最好的水平。后文會有詳細的說明怎么生成這個gains。

3. 訓練模型

當dataset.npz生成后，我們就可以跑 main.py來訓練Keras模型了。訓練好的模型會保存在目錄下model.h5

因為我們的模型最終要放在單片機上跑，RNN 每次處理一個 timestamp，所以我們的模型設置為stateful=True 和 timestamps=1。這樣的設置對于訓練并不是很理想，因為反向傳播（BP）沒有辦法很好的在很小的batch上工作。我們的Batch盡量設置得很大。這里設置batchsize >= 1024。

同時，這一步會把我們之前的噪音范例_noisy_sample.wav ，使用RNN生成的gains來濾波filtered_sig = voice_denoise(...)（可以對比我們真實gains降噪的結(jié)果）。濾波后的文件保存為_nn_filtered_sample.wav。

在最后，調(diào)用NNoM的API generate_model(...) 生成NNoM模型文件 weights.h。

4. RNN 在 NNoM 上部署

本例提供了SConstruct，所以你可以直接在目錄下運行 scons 來編譯。默認使用目錄下的main.c 編譯成PC可執(zhí)行程序。支持32/64bit windows。理論上也支持linux。

這個二進制文件可以直接對 .wav 文件降噪并生成一個新的 .wav文件，使用方法如下:

注意：僅僅支持16kHz 1CH的格式。(程序不解析WAV只復制文件頭)。

Win powershell: .\rnn-denoise [input_file] [output_file] 或者拖拽.wav 文件到編譯完成的*.exe上

Linux: 大家自己試試

比如，運行這個指令生成定點RNN濾波后的音頻：.\rnn-denoise _noisy_sample.wav _nn_fixedpoit_filtered_sample.wav

到此，目錄下一共有四個音頻，大家可以試聽一下。

_noisy_sample.wav-->原始帶噪音文件

_filtered_sample.wav-->用真實gains降噪的文件(訓練的gains)

_nn_filtered_sample.wav-->Keras浮點模型gains降噪

_nn_fixedpoit_filtered_sample.wav   --> NNoM定點模型gains降噪

關于演示可以看文章頂部的視頻。

不過，大家可以先看個圖視覺上感受一下。Filtered by NNoM是我們單片機上的效果，對比Keras是模型原始輸出的效果。而Truth Gain是模型訓練輸入的參考，也就是最原始最好的效果?？梢钥吹竭@個算法濾掉的不少的東西，具體是不是噪聲。。。再說。

以下是一大波細節(jié)講解

總的來說，我推薦大家看 gen_dataset.py 和 main.py里面的步驟，很多詳細的步驟都在注釋里面有相關的解釋。

關于訓練數(shù)據(jù)

x_train 里面包含了13或者20個（默認）MFCC，除此之外，還有前10個MFCC特征的第一和第二導數(shù)(derivative)。這些為常用的語音識別特征。所以一共有 33 到 40 個特征。

訓練數(shù)據(jù)的生成步驟

y_train 里面有兩組數(shù)據(jù)，一組是gains，另一個叫 VAD

Gains 與RNNoise方法相同，為 clean speech/noisy speech 在每一個band上的能量的開平方。是一組0-1的值，組大小為均衡器的帶通濾波器個數(shù)。

VAD 全稱叫 Voice Active Detection。為一個0-1的值，指示是否有語音。計算方法為檢測一個窗口內(nèi)總能量的大小是否超過一個閾值。

語音能量和激活閾值

關于 Gains 和 VAD

在默認的模型里面，有兩個輸出，其中一個便是VAD。在main_arm.c (單片機版本的Demo)里面，這個VAD值控制了板子上的一個LED。如果VAD > 0.5 LED 會被點亮。

下圖為使用Keras的模型識別 VAD時刻和 gains 的計算結(jié)果。

在語音中各個頻段的增益

關于均衡器

這里使用了20（默認）或者13個帶通濾波器(Filter Band)來抑制噪音所在的頻率。實際上你可以設置成任何值。不過我推薦大于10且小于30。每一個獨立的帶通濾波器的-3dB點都與它附近的帶通濾波器的-3dB點相交。響頻曲線如下:

濾波器響應頻率范圍

音頻信號會平行地通過這些帶通濾波器，在最后把他們相加在一起。因為濾波器是交叉的，最終混合的信號幅度過大導致數(shù)值溢出，所以最終混合的信號會乘上一個0.6（并非數(shù)學上驗證的數(shù)值）再保存在int16 數(shù)組內(nèi)。

關于RNN模型的結(jié)構(gòu)

這里提供了兩個不同的RNN模型。一個是與RNNoise 類似的模型，各個RNN層之間包含很多的支線。這些支線會通過 concatenate 合并在一起。這個模型還會提供一個VAD輸出。整個模型一共約 120k的權(quán)重。比RNNoise稍高因為做了一些針對定點模型的改變。其實這個模型有點過于復雜了，我嘗試過減少模型參數(shù)，仍然可以很好的進行降噪。大佬們可以大膽地調(diào)整參數(shù)。如圖下圖所示。

另一個模型是一個簡單的多層GRU模型，這個模型不提供VAD輸出。非常震驚的是這個模型也能提供不錯的效果。

如果想嘗試這個簡單的模型，在main.py里面修改 history = train(...) 成 train_simple(...)。

Keras的RNN需要把 stateful=True 打開，這樣NNoM在每計算一個timestamps的時候才不會重置state。

MCU 例子

這里提供了一個 MCU 的文件main_arm.c。這個文件針對 STM32L476-Discovery 的麥克風做了移植，可以直接使用板載麥克風進行語音降噪。

例子通過一個綠色 LED（PE8）輸出VAD檢測的結(jié)果，有人說話時就會亮。

除了單片機相關的代碼，功能上MCU代碼main_arm.c與PC代碼main.c完全一致，本例雖然做了音頻降噪，但是并沒有針對音頻輸出寫驅(qū)動，所以降噪輸出是被直接拋棄了。大家可以自己寫保存或者回放的代碼。

如果你使用的是 ARM-Cortex M系列的MCU，做以下設置可以提升性能（參考下面性能測試章節(jié)）。

打開 NNoM 的 CMSIS-NN 后端，參考 Porting and Optimization Guide (https://github.com/majianjia/nnom/blob/master/docs/Porting_and_Optimisation_Guide.md)

在 mfcc.h里面，打開 PLATFORM_ARM 宏定義來使用ARM_FFT。

MCU 上的性能測試

傳統(tǒng)的 RNNoise 不止包含了浮點模型，還包括了其他計算（比如Pitch Filtering），導致總計算量在40MFLOPS左右。即是換成定點計算，一般的單片機也會很吃力。

本例中，浮點FFT，定點RNN模型，浮點均衡器（濾波器），并去掉了Pitch Filtering（額其實是因為我不知道怎么用）。我對這里使用的幾個運算量大的模塊進行了測試，分別是MFCC部分(包含F(xiàn)FT)，神經(jīng)網(wǎng)絡部分，還有均衡器。

測試環(huán)境為

Board: STM32L476-Discovery

MCU: STM32L476, 超頻到 140MHz Cortex-M4F

音頻輸入: 板載PDM麥克風

音頻輸出: 無

IDE: Keil MDK

測試條件:

神經(jīng)網(wǎng)絡后端: CMSIS-NN 或 Local C （本地后端）

FFT 庫(512點): arm_rfft_fast_f32 或純FFT arduino_fft

優(yōu)化等級: -O0/-O1 或 -O2

均衡器濾波器數(shù)目: 13 band 或者 20 band

需要注意的是，這里使用的音頻格式為 16kHz 1CH，所以我們每次更新（FFT窗口:512，overlapping=50%）只有 256/16000 = 16ms 的時間來完成所有的計算。

13 Band Equalizer

可以看到，在完全優(yōu)化的情況下，最短用時僅僅6.18ms 相當于38% 的CPU占用。在不適用ARM加速庫的情況下，也完全在16ms內(nèi)。因為所有的計算量是固定的，測試下來同一項目內(nèi)時間沒有太多的波動。

20 Band Equalizer

20個 band的情況下，在開啟優(yōu)化后也可以實現(xiàn)實時的語音降噪。

模型編譯log

單片機內(nèi)神經(jīng)網(wǎng)絡模型載入的log

單片機內(nèi)神經(jīng)網(wǎng)絡模型性能

點擊閱讀原文，即可下載硬聲APP。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡

+關注

關注
42

文章
4771

瀏覽量
100772
STM32

STM32

+關注

關注
2270

文章
10900

瀏覽量
356046

什么是麥克風陣列

什么是麥克風陣列？想象一下一個小型音響部隊在你面前，它們站成一排，用不同的麥克風捕捉聲音。這就是麥克風陣列的基本概念。麥克風陣列由多個麥克風

發(fā)表于 11-30 01:08 ?182次閱讀

開創(chuàng)迷你麥克風時代：BOYAmini迷你麥克風驅(qū)動無線音頻行業(yè)新變革

麥克風的銷量達473萬臺，同比增長5.2%。其中，新型智能無線麥克風更是占據(jù)了21.6%的市場份額，同比增長17.4個百分點。這不僅表明無線麥克風的技術革新，也反映

發(fā)表于 11-29 12:09 ?396次閱讀

開創(chuàng)迷你<b class='flag-5'>麥克風</b>時代：BOYAmini迷你<b class='flag-5'>麥克風</b>驅(qū)動無線音頻行業(yè)新變革

MEMS麥克風的優(yōu)缺點分析

隨著技術的進步，MEMS麥克風已經(jīng)成為音頻領域的一個重要分支，特別是在移動設備、智能家居和可穿戴設備中。它們以其獨特的優(yōu)勢在音頻捕捉領域占據(jù)了一席之地。 MEMS麥克風的優(yōu)點 1. 小型化 MEMS

發(fā)表于 11-20 10:12 ?491次閱讀

TWL6040如何激活麥克風？

各位高手們，我現(xiàn)在使用TWL6040音頻芯片，想請教下如何激活麥克風，我之前使用到是熊貓板，后來看了原理圖之后，熊貓板上麥克風都被接地了，只留下了FM通道，后來我們自己做了一塊板子，錄完音之后播放都是無聲的，想請教下，如果激活麥克風

發(fā)表于 11-05 07:05

鼎盛合 UHF無線麥克風方案

在當今音頻技術飛速發(fā)展的時代，無線麥克風以其便捷性、靈活性和高質(zhì)量的音頻傳輸能力，在眾多領域中得到了廣泛的應用。而在無線麥克風方案中，主控芯片起著至關重要的作用。本文將圍繞無線麥克風方

發(fā)表于 10-28 16:44 ?422次閱讀

一文全了解麥克風陣列

什么是麥克風陣列？想象一下一個小型音響部隊在你面前，它們站成一排，用不同的麥克風捕捉聲音。這就是麥克風陣列的基本概念。麥克風陣列由多個麥克風

發(fā)表于 09-03 16:03 ?1355次閱讀

麥克風的 Turnkey 解決方案

麥克風的 Turnkey 解決方案提供了從硬件設計到系統(tǒng)集成的全面支持，通過高質(zhì)量的麥克風技術解決了在各種應用場景中遇到的音頻清晰度、噪聲抑制和設備集成等問題。無論是在專業(yè)錄音、公共演講還是智能設備中，選擇合適的

發(fā)表于 08-16 22:45 ?414次閱讀

請問SC589 IIR是否有IIR對實時輸入的麥克風濾波？

SC589 IIR 是否有IIR對實時輸入的麥克風濾波的例程官方的那個IIR歷程是對固定輸入的一個1K和8K正弦波進行濾波我想對一個實時輸入的麥克風進行濾波請問如何

發(fā)表于 07-24 07:05

助聽器降噪神經(jīng)網(wǎng)絡模型

抑制任務是語音增強領域的一個重要學科, 隨著深度神經(jīng)網(wǎng)絡的興起，提出了幾種基于深度模型的音頻處理新方法[1,2,3,4]。然而，這些通常是為離線處理而開發(fā)的，不需要考慮實時性。當使用神經(jīng)網(wǎng)絡

發(fā)表于 05-11 17:15

MEMS麥克風技術和解析：一文讀懂什么是硅麥？

。我們一只都在了解的是較傳統(tǒng)的麥克風，但已經(jīng)有不少年了，MEMS硅麥克風得到了迅猛發(fā)展，是目前應用最多的麥克風，它結(jié)合現(xiàn)代技術，尤其是微機電系統(tǒng)（MEMS）的發(fā)展，功能日益強大。 M

發(fā)表于 04-09 18:11 ?5831次閱讀

是否可以把STM32F407VG板子上的麥克風屏蔽了，外接自己的兩個PDM麥克風？

請問是否可以把STM32F4DISCOVERY板子上的麥克風屏蔽了，外接自己的兩個PDM麥克風

發(fā)表于 04-03 07:30

雙麥克風陣列雙通道降噪拾音模組A-59

麥克風模組

深圳德宇科技有限公司
發(fā)布于 :2024年03月29日 10:23:11

麥克風方案|U段家用麥克風的特點和組成部分

技術開發(fā)。 U段家用 KTV 麥克風方案是一種高效、穩(wěn)定、抗干擾的方案，它可以提供高質(zhì)量的音頻傳輸和接收，讓人們在家中也能享受到專業(yè)級的 KTV 體驗。U 段家用 KTV 麥克風方案采用了 UHF 超高頻傳輸

發(fā)表于 03-21 14:57 ?1184次閱讀

STM32接入PC后能枚舉出來麥克風設備，但是開始錄音后無數(shù)據(jù)，為什么？

采集MEMS數(shù)字麥克風PDM數(shù)據(jù)，然后調(diào)用PDM2PCM庫轉(zhuǎn)換為PCM數(shù)據(jù)，最后把PCM數(shù)據(jù)通過USB上傳給PC實現(xiàn)PC錄音使用的STM32CubeMx生成初始化代碼后默認是只有播放設備的，通過

發(fā)表于 03-18 08:25

無線麥克風音頻方案

無線麥克風是音頻傳輸領域的一項重要技術，廣泛應用于演講、表演、會議等場合。而無線麥克風的音頻方案中，無線芯片起著關鍵作用。下面將介紹無線麥克風音頻方案中的

發(fā)表于 02-26 15:22 ?834次閱讀