今天,給大家介紹一個(gè)算法。
AI 算法 5 秒鐘,就能克隆你的聲音,你信嗎?
聽(tīng)聽(tīng)這段音頻,猜猜看是 AI 合成音,還是真人錄音?
答案是:AI 合成。
這個(gè)人的原始聲音在這里:
你給這個(gè) AI 克隆聲音的算法打幾分?
錄制一段音頻,就可以根據(jù)輸入的文字,5s 即可自動(dòng)生成對(duì)應(yīng)的合成音。
突然有個(gè)大膽的想法,你說(shuō)女朋友要是哪天突然不承認(rèn)自己說(shuō)過(guò)了某句話,我就給她造一份!
兄弟們,我做的對(duì)嗎?
MockingBird這個(gè)算法是基于比較著名的 Real Time Voice Cloning 實(shí)現(xiàn)的。
MockingBird 是最近開(kāi)源的中文版。
論文的名字是:
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
簡(jiǎn)單介紹下:
算法分為三個(gè)模塊:encoder模塊、systhesis模塊、vocoder模塊。
encoder模塊將說(shuō)話人的聲音轉(zhuǎn)換成人聲的數(shù)字編碼(speaker embedding)
synthesis 模塊將文本轉(zhuǎn)換成梅爾頻譜(mel-spectrogram)
vocoder模塊將梅爾頻譜(mel-spectrogram)轉(zhuǎn)換成(波形)waveform
具體的算法原理,大家可以先看論文:
https://arxiv.org/pdf/1806.04558.pdf
今天主要聊聊,這個(gè)算法怎么玩。
項(xiàng)目地址:https://github.com/babysor/MockingBird
有深度學(xué)習(xí)基礎(chǔ)的話,這個(gè)應(yīng)該不難。
就是部署環(huán)境,分四步:
Anaconda 配置 Pytorch 開(kāi)發(fā)環(huán)境
根據(jù)項(xiàng)目 requirements.txt 安裝第三方庫(kù)依賴
下載權(quán)重文件
下載訓(xùn)練集,這個(gè)幾十G,有點(diǎn)大
具體的配置方法,直接看這里:
https://github.com/babysor/MockingBird/blob/main/README-CN.md
環(huán)境搭建搞定后,就可以運(yùn)行代碼了。
有兩種模式可以啟動(dòng),Web 模式和工具箱模式。
在項(xiàng)目根目錄運(yùn)行:
python web.py
即可開(kāi)啟 Web ,打開(kāi)地址 http://localhost:8080 就能操作了。
這個(gè)界面比較簡(jiǎn)陋,建議使用工具箱模式。
python demo_toolbox.py -d 《datasets_root》
datasets_root就是下載好的數(shù)據(jù)集的地址。
責(zé)任編輯:haq
-
語(yǔ)音
+關(guān)注
關(guān)注
3文章
385瀏覽量
38055 -
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269220
原文標(biāo)題:危險(xiǎn)!我克隆了女朋友的聲音
文章出處:【微信號(hào):LinuxHub,微信公眾號(hào):Linux愛(ài)好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論