0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-18 10:39 ? 次閱讀

谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),能夠顯著降低多說話者信號(hào)語音識(shí)別詞錯(cuò)誤率。

把一個(gè)人的聲音從嘈雜的人群中分離出來是大多數(shù)人潛意識(shí)里都會(huì)做的事情——這就是所謂的雞尾酒會(huì)效應(yīng)。像谷歌Home和亞馬遜的Echo這樣的智能揚(yáng)聲器實(shí)現(xiàn)分離人群中的聲音可能還要再經(jīng)歷一段時(shí)間,但多虧了AI,它們或許有一天能夠像人類一樣過濾掉聲音。

谷歌和位于Switerzland的Idiap研究所的研究人員發(fā)表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)——說話者識(shí)別網(wǎng)絡(luò)(a speaker recognition network)和聲譜掩碼網(wǎng)絡(luò)(a spectrogram masking network)——這兩個(gè)網(wǎng)絡(luò)一起“顯著”降低了多說話者信號(hào)的語音識(shí)別詞錯(cuò)誤率(WER)。

他們的工作建立在麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室今年早些時(shí)候發(fā)表的一篇論文的基礎(chǔ)上,該論文描述了一個(gè)名為PixelPlayer的系統(tǒng),該系統(tǒng)能夠?qū)蝹€(gè)樂器的聲音從YouTube視頻中分離出來。

論文:

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking

論文地址:

https://arxiv.org/pdf/1810.04826.pdf

最新的論文中,研究人員寫道:“我們的任務(wù)是將一部分感興趣的說話者的聲音與所有其他說話者和聲音的共性分離開來。例如,這樣的子集可以由一個(gè)目標(biāo)揚(yáng)聲器對(duì)個(gè)人移動(dòng)設(shè)備發(fā)出語音查詢,或者由一個(gè)家庭成員對(duì)一個(gè)共享的家庭設(shè)備進(jìn)行交談而形成?!?/p>

研究人員的語音過濾系統(tǒng)分為兩部分,包括LSTM模型和卷積神經(jīng)網(wǎng)絡(luò)(只有一個(gè)LSTM層)。第一個(gè)采用預(yù)處理的語音采樣和輸出揚(yáng)聲器嵌入(即矢量形式的聲音表示)作為輸入,而后者預(yù)測(cè)來自嵌入的軟掩模或濾波器以及根據(jù)噪聲音頻計(jì)算的幅度譜圖。掩模用于生成增強(qiáng)幅度譜圖,當(dāng)與噪聲音頻的相位(聲波)組合并變換時(shí),產(chǎn)生增強(qiáng)的波形。

AI系統(tǒng)被訓(xùn)練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計(jì)算的目標(biāo)幅度頻譜圖之間的差異。

該團(tuán)隊(duì)為訓(xùn)練樣本提供了兩個(gè)數(shù)據(jù)集:(1)來自13.8萬名演講者的大約3400萬個(gè)匿名語音查詢?nèi)罩荆?2)開源語音庫LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網(wǎng)絡(luò)對(duì)來自CSTR VCTK數(shù)據(jù)集(由愛丁堡大學(xué)維護(hù)的一組語音數(shù)據(jù))和LibriSpeech的2338個(gè)貢獻(xiàn)者的語音樣本進(jìn)行了訓(xùn)練,并使用來自73名演講者的話語進(jìn)行評(píng)估。

在測(cè)試中,VoiceFilter在雙揚(yáng)聲器方案中將字錯(cuò)誤率從55.9%降低到23.4%。

研究人員寫道:“我們已經(jīng)證明了使用經(jīng)過專門訓(xùn)練的揚(yáng)聲器編碼器來調(diào)整語音分離任務(wù)的有效性。這樣的系統(tǒng)更適用于真實(shí)場(chǎng)景,因?yàn)樗恍枰孪戎罁P(yáng)聲器的數(shù)量……我們的系統(tǒng)完全依賴于音頻信號(hào),可以很容易地通過使用具有高度代表性的嵌入向量來推廣到未知的揚(yáng)聲器?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6171

    瀏覽量

    105489
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4772

    瀏覽量

    100845
  • 語音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1742

    瀏覽量

    112692

原文標(biāo)題:谷歌神經(jīng)網(wǎng)絡(luò)人聲分離技術(shù)再突破!詞錯(cuò)率低至23.4%

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    神經(jīng)網(wǎng)絡(luò)教程(李亞非)

      第1章 概述  1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展  1.2 生物神經(jīng)元  1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成  第2章人工神經(jīng)網(wǎng)絡(luò)基本模型  2.
    發(fā)表于 03-20 11:32

    人類首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”,更精確模擬神經(jīng)網(wǎng)絡(luò)

    `近日,凱斯西儲(chǔ)大學(xué)醫(yī)學(xué)院、紐約干細(xì)胞基金會(huì)(NYSCF)研究所和喬治華盛頓大學(xué)的研究人員聯(lián)合提出了一種新方法,通過人類胚胎干細(xì)胞培育生成3D版的“迷你大腦”。這些“迷你大腦”名為“大腦類器官
    發(fā)表于 08-21 09:26

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過一些最基礎(chǔ)的概念容易理解不清。首先ART
    發(fā)表于 07-21 04:30

    如何移植一個(gè)CNN神經(jīng)網(wǎng)絡(luò)到FPGA中?

    訓(xùn)練個(gè)神經(jīng)網(wǎng)絡(luò)并移植到Lattice FPGA上,通常需要開發(fā)人員既要懂軟件又要懂?dāng)?shù)字電路設(shè)計(jì),是個(gè)不容易的事。好在FPGA廠商為我們提供
    發(fā)表于 11-26 07:46

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機(jī)的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力,可以通過對(duì)系統(tǒng)性能的學(xué)習(xí)來實(shí)現(xiàn)具有最佳組合的PID控
    發(fā)表于 09-07 07:43

    圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹

    為提升識(shí)別準(zhǔn)確率,采用改進(jìn)神經(jīng)網(wǎng)絡(luò),通過Mnist數(shù)據(jù)集進(jìn)行訓(xùn)練。整體處理過程分為步:圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像的特征,將數(shù)據(jù)處理成規(guī)范的格式,而改進(jìn)
    發(fā)表于 12-23 08:07

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    network,DBN)[24], 從此拉開了深度學(xué)習(xí)大幕。隨著深度學(xué)習(xí)理論的研究和發(fā)展,研究人員提 出了一系列卷積神經(jīng)網(wǎng)絡(luò)模型。為了比較不同模型 的質(zhì)量,收集并整理了文獻(xiàn)中模型在分類任務(wù)上的 識(shí)別率,如圖 1
    發(fā)表于 08-02 10:39

    如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    現(xiàn)有的圖數(shù)據(jù)規(guī)模極大,導(dǎo)致時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要格外長的時(shí)間,因此使用多GPU進(jìn)行訓(xùn)練變得成為尤為重要,如何有效地將多GPU用于時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練
    發(fā)表于 09-28 10:37

    谷歌最新AI算法 遞歸神經(jīng)網(wǎng)絡(luò)繪制大腦神經(jīng)圖像

    谷歌研究人員使用了一種邊緣檢測(cè)算法,該算法可以識(shí)別神經(jīng)突(神經(jīng)元本體的分支)的邊界,以及一種復(fù)發(fā)性卷積神經(jīng)網(wǎng)絡(luò)(復(fù)發(fā)性
    發(fā)表于 07-20 09:45 ?2349次閱讀

    研究人員開發(fā)解釋多義詞的神經(jīng)網(wǎng)絡(luò)

    艾倫人工智能研究所和華盛頓大學(xué)的研究人員正在使用可以根據(jù)上下文來確定英文單詞含義的神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 09-12 15:52 ?2213次閱讀

    神經(jīng)網(wǎng)絡(luò)有什么天生的性質(zhì)

    谷歌大腦研究人員通過精簡(jiǎn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在前幾代中發(fā)現(xiàn)了最小架構(gòu)的神經(jīng)網(wǎng)絡(luò)能夠控制此處所示的雙足機(jī)器人,即使它的得分不高。
    發(fā)表于 02-05 16:55 ?1224次閱讀

    邊緣計(jì)算中深度神經(jīng)網(wǎng)絡(luò)剪枝壓縮的研究

    深度神經(jīng)網(wǎng)絡(luò)與其他很多機(jī)器學(xué)習(xí)模型一樣,可分為訓(xùn)練和推理兩個(gè)階段。訓(xùn)練階段根據(jù)數(shù)據(jù)學(xué)習(xí)模型中的參數(shù)(對(duì)神經(jīng)網(wǎng)絡(luò)來說主要是
    的頭像 發(fā)表于 03-27 15:50 ?2989次閱讀

    研究人員開發(fā)“液態(tài)”神經(jīng)網(wǎng)絡(luò) 可適應(yīng)快速變化的訓(xùn)練環(huán)境

    設(shè)計(jì)出了一種具有重大改進(jìn)的“液態(tài)”神經(jīng)網(wǎng)絡(luò)。其特點(diǎn)是能夠在投入訓(xùn)練階段之后,極大地?cái)U(kuò)展 AI 技術(shù)的靈活性。 通常情況下,研究人員會(huì)在訓(xùn)練階段向神經(jīng)
    的頭像 發(fā)表于 01-29 10:46 ?1567次閱讀

    BP神經(jīng)網(wǎng)絡(luò)研究進(jìn)展

    通過對(duì)傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)缺點(diǎn)的分析,從參數(shù)選取、BP算法、激活函數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)4個(gè)方面綜述了其改進(jìn)方法。介紹了各種方法的原理、應(yīng)用背景及其在BP神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,同時(shí)分析了各種方法的優(yōu)缺點(diǎn)
    發(fā)表于 06-01 11:28 ?5次下載

    怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

    重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個(gè)復(fù)雜的過程,涉及到多個(gè)步驟和考慮因素。 引言 神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、自然語言處理、語音識(shí)別等領(lǐng)域。然而,隨著時(shí)間的推移,數(shù)據(jù)分布可
    的頭像 發(fā)表于 07-11 10:25 ?472次閱讀