国产最新在线一区二区三区,国产精品福利网红五月天

Python在音頻（Audio）領(lǐng)域中，如何進(jìn)行數(shù)據(jù)擴(kuò)充呢？

Python 音頻的數(shù)據(jù)擴(kuò)充

經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)AlexNet使用數(shù)據(jù)擴(kuò)充（Data Augmentation）的方式擴(kuò)大數(shù)據(jù)集，取得較好的分類效果。在深度學(xué)習(xí)的圖像領(lǐng)域中，通過(guò)平移、翻轉(zhuǎn)、加噪等方法進(jìn)行數(shù)據(jù)擴(kuò)充。但是，在音頻（Audio）領(lǐng)域中，如何進(jìn)行數(shù)據(jù)擴(kuò)充呢？

音頻的數(shù)據(jù)擴(kuò)充，主要有以下四種方式：

音頻剪裁（Clip）

音頻旋轉(zhuǎn)（Roll）

音頻調(diào)音（Tune）

音頻加噪（Noise）

音頻解析基于librosa音頻庫(kù)；矩陣操作基于scipy和numpy科學(xué)計(jì)算庫(kù)。

以下是Python的實(shí)現(xiàn)方式

音頻剪裁

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/love_illusion.mp3")

# 讀取音頻print y.shape, sr wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr])

# 寫入音頻

音頻旋轉(zhuǎn)

import cv2

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 讀取音頻ly = len(y) y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze() lc = len(y_tune) - ly y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]print y.shape, sr wavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune)

# 寫入音頻

音頻調(diào)音

import cv2

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 寫入音頻

音頻加噪

import librosa

from scipy.io import wavfile

import numpy as np

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 讀取音頻wn = np.random.randn(len(y)) y = np.where(y != 0.0, y + 0.02 * wn, 0.0)

# 噪聲不要添加到0上！print y.shape, sr wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y)

# 寫入音頻

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴