99热免费精品6,中文无码日韩欧免费视频,欧美色图亚洲色图日本色图

Google 的研究人員創(chuàng)建了一個視聽模型，可以通過算法將視頻中的多個聲音分離，得到一個清晰的單個語音。

一位二次元朋友說他有一種能力，就是在 B 站開彈幕看視頻時，想看視頻就看視頻，想看彈幕就看彈幕，兩者可以自動分離，不會互相干擾。類似的，人類在聽覺上也有一種選擇能力，就是人在集中注意力聽某個聲音時，可以自動忽略其他聲音或噪音，感覺像是把要聽的聲音放大了一樣，這種現(xiàn)象叫做雞尾酒會效應(yīng)。

這種能力對我們來說好像很自然，但對于計算機可是個不小的挑戰(zhàn)。最近，Google 的研究人員創(chuàng)建了一個視聽模型，可以通過算法將視頻中的多個聲音分離，得到一個清晰的單個語音。簡單來說，你可以選擇只聽視頻中某個人講話的聲音，而不用擔心被干擾。

結(jié)合視覺聽覺信號，識別并分離音軌

利用這種技術(shù)制作的視頻可以將特定人物的聲音增強，把其他無關(guān)的聲音去掉。在普通的單音軌視頻中，用戶可以點擊自己想關(guān)注的人物，或者算法會結(jié)合上下段內(nèi)容來自動選擇突出誰的聲音。這項技術(shù)可以用于增強視頻中的語音，提高視聽效果。

這項技術(shù)的原理是結(jié)合視頻中的聽覺和視覺信號，以此來識別并分離語音。就像識別唇語的原理一樣，一個人說話時發(fā)出的聲音和他嘴部的運動存在某種關(guān)聯(lián)，所以可以利用這一點，來辨別某段聲音是誰發(fā)出的。在視覺信號的幫助下，即使是在多種聲音混雜的環(huán)境中，單個聲音的特征也變得更明顯，更重要的是，你還可以在聽到清晰聲音的同時看到人嘴部的運動，更容易接收并理解信息。

研究人員用 10 萬個高質(zhì)量的 YouTube 視頻為樣本，從視頻中提取清晰的演講片段，沒有背景音樂、沒有觀眾鼓掌、沒有噪音，并且視頻中只有一個說話的人。他們共提取出 2000 個小時的訓(xùn)練數(shù)據(jù)，用這些干凈的視頻來合成“雞尾酒會”的效果。這樣就可以訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)模型，將合成的視頻分離出多個單獨的音軌，也就是每個人單獨的聲音。將每一幀中嘴部運動的視覺信息提取出來，然后找到聲譜圖中對應(yīng)的部分。這樣就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)，從聲音混雜的視頻中，根據(jù)人的嘴部運動來提取對應(yīng)的聲音碎片，最后輸出成具有單獨聲音軌道的視頻，每一個人的聲音都可以進行單獨播放。

可以提高語音識別能力

這個黑科技在語音識別中尤其有用，比如 YouTube 自己的自動字幕，如果視頻中有多種聲音混合，字幕就很難準確顯示，而如果這幾種聲音能夠單獨分離播放，對應(yīng)的字幕也就更準確，用戶也更容易理解。再往遠處想，這項技術(shù)可以運用到 Google Glass 這樣的智能眼鏡中，即使是在紛雜世界，你也可以只關(guān)注想關(guān)注的人，只聽 Ta 的聲音。除此之外，帶視頻能力的智能音箱可能是未來的大趨勢，有了語音分離能力，語音識別的能力也會更精準、更強大。

這種強大的能力也可能帶來隱私問題，比如間諜電影中經(jīng)常見到的天眼系統(tǒng)，如果再搭配語音分離的能力，豈不是可以做到視聽上的全能？不過想達到那樣的效果，識別能力就要很精準了。在此之前它的應(yīng)用可能只是 Google 自己的產(chǎn)品，比如增強視頻智能音箱的語音識別能力，還有讓 YouTube 的自動字幕更智能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Google

Google

+關(guān)注

關(guān)注
5

文章
1768

瀏覽量
57654
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6176

瀏覽量
105677

研究人員利用激光束開創(chuàng)量子計算新局面

演示設(shè)備威特沃特斯蘭德大學(Wits)的物理學家利用激光束和日常顯示技術(shù)開發(fā)出了一種創(chuàng)新的計算系統(tǒng)，標志著在尋求更強大的量子計算解決方案方面取得了重大飛躍。該大學結(jié)構(gòu)光實驗室的研究人員取得的這一

發(fā)表于 12-18 06:24 ?127次閱讀

<b class='flag-5'>研究人員</b>利用激光束開創(chuàng)量子計算新局面

NVIDIA AI助力日本制藥公司推進藥物研發(fā)

制藥公司、醫(yī)療技術(shù)公司和學術(shù)研究人員正在開發(fā)主權(quán) AI 能力，以驅(qū)動藥物發(fā)現(xiàn)、加速基因組學和醫(yī)療設(shè)備。

發(fā)表于 11-19 15:40 ?326次閱讀

使用PPC母版、tas5825mevm-sb進行測試，但是聲音只發(fā)一聲，或者沒有聲音，為什么？

使用PPC母版、tas5825mevm-sb進行測試，左通道連接了一個揚聲器，電源是12V，按照官方文檔測試，如下圖。但是聲音只發(fā)一聲，或者沒有聲音。

發(fā)表于 10-12 06:49

研究人員制造可將短波紅外光的頻率“上轉(zhuǎn)換”到可見光頻率范圍裝置

據(jù)麥姆斯咨詢報道，近期，印度科學理工學院（IISc）的研究人員制造了一種可將短波紅外光的頻率“上轉(zhuǎn)換”到可見光頻率范圍的裝置。光的上轉(zhuǎn)換具有多種應(yīng)用，尤其是在國防和光通信領(lǐng)域。首先，印度科學

發(fā)表于 06-30 15:45 ?1.2w次閱讀

研究人員：微生物電池可能會對遠程應(yīng)用產(chǎn)生巨大影響

一粒土壤中可以包含宇宙般的微生物群，據(jù)估計數(shù)量可以多達100億?，F(xiàn)在，位于英國巴斯的一組研究人員正在開發(fā)原型機技術(shù)，以收集一些微生物物種呼出的電子。這個想法是為了給低產(chǎn)出的傳感器和開關(guān)供電，并可

發(fā)表于 06-29 17:17 ?1610次閱讀

使用google-translate和wwe合并后無法使用google-tts怎么解決？

我打算使用lyrat-mini做一個使用喚醒詞喚醒然后后續(xù)通過google-sr和google-tts進行交流的聊天機器人，但是當我合并了adf的例子中的wwe和google-translate之后

發(fā)表于 06-28 06:05

研究人員利用人工智能提升超透鏡相機的圖像質(zhì)量

研究人員利用深度學習技術(shù)提高了直接集成在 CMOS 成像芯片上的超透鏡相機(左)的圖像質(zhì)量。超透鏡利用 1000 納米高的圓柱形氮化硅納米柱陣列(右圖)操縱光線。 研究人員利用深度學習技術(shù)提高了超

發(fā)表于 06-11 06:34 ?397次閱讀

<b class='flag-5'>研究人員</b>利用人工智能提升超透鏡相機的圖像質(zhì)量

MIT/三星研究人員利用活體拉曼光譜直接觀察葡萄糖指紋圖譜

MIT/三星研究人員對葡萄糖拉曼光譜進行活體觀測 Direct observation of glucose fingerprint using in vivo Raman spectroscopy

發(fā)表于 06-05 06:35 ?388次閱讀

MIT/三星<b class='flag-5'>研究人員</b>利用活體拉曼光譜直接觀察葡萄糖指紋圖譜

光子動量的發(fā)現(xiàn)揭示了新型硅基光電功能

來源：半導(dǎo)體芯科技編譯在加州大學歐文分校化學家的指導(dǎo)下，一組研究人員發(fā)現(xiàn)了一種光與物質(zhì)相互作用的新方式。這一突破有可能提高太陽能發(fā)電系統(tǒng)、發(fā)光二極管、半導(dǎo)體激光器和其他技術(shù)的效率。研究小組

發(fā)表于 05-28 10:00 ?356次閱讀

光子動量的<b class='flag-5'>發(fā)現(xiàn)</b>揭示了新型硅基光電功能

研究人員利用定制光控制二維材料的量子特性

的發(fā)展鋪平了道路。由美國能源部SLAC國家加速器實驗室和斯坦福大學研究人員領(lǐng)導(dǎo)的研究小組將這種方法應(yīng)用于一種名為六方氮化硼(hBN)的材料，這種材料由單層原子以蜂窩狀排列而成，其特性使其非常適合量子操縱。在實驗中，科學家們利用一種電

發(fā)表于 05-06 06:29 ?267次閱讀

<b class='flag-5'>研究人員</b>利用定制光控制二維材料的量子特性

研究人員開發(fā)出高性能p型非晶氧化物半導(dǎo)體

和 107 的開/關(guān)電流比，與早期 n 型氧化物薄膜晶體管的關(guān)鍵電氣屬性非常相似。此外，薄膜晶體管在長時間偏置應(yīng)力下表現(xiàn)出顯著的穩(wěn)定性以及大面積薄膜的均勻性。圖源：浦項工科大學 研究人員合作開發(fā)了碲硒復(fù)合氧化物半導(dǎo)體材料。他們成功創(chuàng)造了高性能和高穩(wěn)定性的p型薄膜晶體管（

發(fā)表于 04-30 14:58 ?556次閱讀