0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于對圖片的語音描述,可以學(xué)習(xí)在圖片中辨認(rèn)目標(biāo)物體

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-04 10:30 ? 次閱讀

最近,麻省理工學(xué)院的計(jì)算機(jī)科學(xué)家們提出了一種系統(tǒng),基于對圖片的語音描述,可以學(xué)習(xí)在圖片中辨認(rèn)目標(biāo)物體,給定一張圖片和音頻解釋,模型可以實(shí)時辨認(rèn)出音頻描述的相關(guān)區(qū)域。

與現(xiàn)有的語音識別技術(shù)不同,該模型不需要對其訓(xùn)練的樣本進(jìn)行手動標(biāo)注,而是模型直接從錄音中學(xué)習(xí)單詞,并從原始圖片中學(xué)習(xí)目標(biāo)物體,將它們相互連接。

目前,模型僅僅可以辨認(rèn)幾百個不同的單詞和目標(biāo)物體類別,但是研究者希望,未來他們的這種語音和目標(biāo)辨認(rèn)相結(jié)合的技術(shù)可以節(jié)約大量手工勞動,為語音辨認(rèn)和圖像識別打開新的世界。

像Siri之類的語音識別系統(tǒng)需要對上千小時的錄音進(jìn)行轉(zhuǎn)譯。用這些數(shù)據(jù),系統(tǒng)學(xué)會將語音信號映射到具體的單詞上。但一旦詞匯中出現(xiàn)了新術(shù)語,這種方法就不管用了,系統(tǒng)就要重新訓(xùn)練。

計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的研究者,David Harwath表示:“我們想用一種更自然的方法進(jìn)行語音識別,使用人類常用的信號和信息來訓(xùn)練。但是那樣的機(jī)器學(xué)習(xí)算法并不容易獲取。我們想到了一種類似教小孩走路并敘述自己所看到的景象的方法?!盚arwath曾參與發(fā)表了一篇論文,論文中的模型在最近的計(jì)算機(jī)視覺歐洲會議上進(jìn)行了展示。

在上述論文中,研究人員用一張圖片展示了他們的模型,圖片上有一位年輕的金發(fā)小女孩,她有一雙藍(lán)色的眼睛,穿著藍(lán)色的連衣裙,背景中有一座白色燈塔,燈塔的頂部是紅色的。模型會學(xué)習(xí)圖片中的哪些像素與小女孩有關(guān),例如哪些是“女孩”、“金發(fā)”、“藍(lán)眼睛”、“藍(lán)裙子”等等。隨著音頻的播放敘述,模型會在圖片上對這些區(qū)域進(jìn)行高亮。

其中一種有前景的應(yīng)用就是在兩種不同的語言之間進(jìn)行裝換,無需雙語標(biāo)注器。全世界大約有7000種語言,只有100種左右有足夠的數(shù)據(jù)進(jìn)行語音識別。但是,是否有這樣一種情景,當(dāng)兩種說著不同語言的人描述同一幅圖畫呢?如果模型學(xué)會語言A所描述的語言信號所對應(yīng)的圖中物體,同時也學(xué)會了B所描述的同樣物體,那么它就能將這兩種信號看作是彼此的翻譯版本。

Harwath說表示,這有助于解決神話故事中的“巴別塔”問題。

音頻-視覺聯(lián)系

這項(xiàng)工作是Harwath等人早期一項(xiàng)研究的擴(kuò)展,他們當(dāng)時研究將語音與相關(guān)主題的圖片相連接。在早期研究中,他們從Mechanical Turk平臺的分類數(shù)據(jù)集中選擇不同場景的圖片,之后讓人對圖片進(jìn)行描述,就像給小孩子講故事,錄制大約10秒鐘的視頻。他們收集了20多萬份圖片和與之對應(yīng)的音頻注解,分成了上百種不同類別,例如沙灘、購物廣場、城市街道、臥室等等。

之后,他們設(shè)計(jì)了一款模型,由兩個獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。其中一個處理圖像,另一個處理光譜(音頻信號的視覺表示)。模型的最高層會計(jì)算兩個網(wǎng)絡(luò)的輸出,并將語音模式映射到圖片數(shù)據(jù)上。

例如,研究者會A注釋輸入到圖片A中,這是相對應(yīng)的。之后又會隨機(jī)選擇一個注釋B輸入到圖片A中,這就是錯誤的配對。經(jīng)過對比上千種錯誤的陪讀,模型學(xué)會了與圖片A相對應(yīng)的語音信號,然后將這些信號和注釋中的單詞聯(lián)系起來。正如2016年一份研究中所描述的,模型學(xué)會了表示“water”這個詞的語音信號,然后檢索出了所有帶水的圖片。

但是Harwath表示,這并不能證明當(dāng)某人說出特定單詞時就指的是某個像素。

matchmap

在新的論文中,研究人員對之前的模型進(jìn)行了修改,將特定詞語和特定的像素補(bǔ)丁聯(lián)系在一起。研究人員在同樣的數(shù)據(jù)集上訓(xùn)練模型,但是最終共有40萬個圖片注釋對子,他們從中隨機(jī)選取了1000對用作測試。

在訓(xùn)練時,模型像上述那樣給予不同的注釋,但這次,分析圖片的卷積神經(jīng)網(wǎng)絡(luò)將圖片用網(wǎng)格分成不同的部分,每個單元都有對應(yīng)的像素補(bǔ)丁。分析音頻的卷積神經(jīng)網(wǎng)絡(luò)將聲譜也分成不同片段,也就是說一秒鐘可能會有一到兩個單詞。

在正確的圖片和注釋對子下,模型會將第一個圖片網(wǎng)格與第一段音頻對應(yīng)起來,然后將同樣的圖片網(wǎng)格與第二段音頻對應(yīng),如此下去。對每個網(wǎng)格和音頻片段,模型都會給出一個相似度分?jǐn)?shù),表示音頻信號與目標(biāo)物體的相似程度有多少。

但其中的難題是,在訓(xùn)練過程中,模型并不知道音頻和圖片對應(yīng)的標(biāo)準(zhǔn)是什么。所以這篇論文最大的貢獻(xiàn)就是,它通過教網(wǎng)絡(luò)哪些圖片和注釋是同屬一類,而哪些不是,就能自動推斷這些跨形態(tài)連接。

論文作者將語音和圖片像素之間的聯(lián)系稱作“matchmap”。訓(xùn)練了數(shù)千對圖片和注釋對子之后,網(wǎng)絡(luò)會在matchmap中主線縮小與詞語相對的目標(biāo)物體。

論文的寫作者Florian Metze說:“很高興看到這種神經(jīng)方法連接起圖片元素和音頻片段,并且不用文本作為中間工具。這并非是模仿熱淚學(xué)習(xí),而是完全基于彼此之間的連接。這也許能幫助我們理解,通過音頻和視頻線索如何形成視覺表示。機(jī)器翻譯是一種應(yīng)用,但它也能用于對瀕危語言的記錄上。我們也可以想象如何將這種技術(shù)應(yīng)用到廢除劉的語音中,或者殘障人士身上。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1773

    瀏覽量

    113881
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8490

    瀏覽量

    134034
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1222

    瀏覽量

    25268

原文標(biāo)題:MIT設(shè)計(jì)跨模態(tài)系統(tǒng),讓模型“聽音識圖”

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    這張圖片中的DBL是什么意思?

    這張圖片中的DBL是什么意思,在前面板中對應(yīng)的是波形圖表,求哪位大神指導(dǎo)?
    發(fā)表于 05-06 09:00

    圖片中的[I/O]是什么類型的IO?

    圖片中的[I/O]是什么類型的IO?
    發(fā)表于 07-18 14:27

    怎樣labview的圖片里插入與plc的通信接口,類似圖片中的組態(tài)軟件這種,在線等,急!

    怎樣labview的圖片里插入與plc的通信接口,類似圖片中的組態(tài)軟件這種,在線等,急!有36張不同模型角度的圖片,怎樣插入通信之后,切
    發(fā)表于 08-25 21:43

    圖片中的電子器件是什么?

    本帖最后由 heroen08808 于 2016-10-29 10:02 編輯 圖片中的電子器件是什么?
    發(fā)表于 10-28 07:29

    請問圖片中顯示的應(yīng)該如何解決???

    `我上載了一張圖片,不知道如何解決圖片中的問題。`
    發(fā)表于 03-23 17:33

    基于圖片特征的并行化海量圖片快速去重技術(shù)

    針對海量圖片中的去除重復(fù)圖片效率低的問題,提出一種基于圖片特征的并行化海量圖片快速去重技術(shù)。首先,對圖片提取
    發(fā)表于 12-14 11:48 ?2次下載

    基于深度學(xué)習(xí)圖片中商品參數(shù)識別方法

    trade-off.目前電商領(lǐng)域的飛速發(fā)展產(chǎn)生了大量包含商品參數(shù)的圖片。使用傳統(tǒng)方法難以有效地提取出圖片中的商品參數(shù)信息.針對這一問題。本文提出了一種將深度學(xué)習(xí)檢測算法和傳統(tǒng)OCR技術(shù)相結(jié)合的方法,
    發(fā)表于 12-15 10:15 ?0次下載

    深度學(xué)習(xí)圖片壓縮算法,可以節(jié)省55%帶寬

    通過深度學(xué)習(xí)技術(shù)設(shè)計(jì)壓縮算法不僅能在不借助HEVC的情況下設(shè)計(jì)出更適合商用的更高壓縮比的圖片壓縮算法,還可以保持圖片畫質(zhì)同時,盡可能降低
    的頭像 發(fā)表于 03-14 13:31 ?7090次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>為<b class='flag-5'>圖片</b>壓縮算法,<b class='flag-5'>可以</b>節(jié)省55%帶寬

    哪個軟件可以打開HEIC圖片

    !? ? ? ? 1.打開電腦中的瀏覽器,百度中搜索蘋果HEIC圖片轉(zhuǎn)換器,進(jìn)入官網(wǎng)下載并安裝。? ? ? ? 2.安裝完成后,雙擊桌面上的圖標(biāo)進(jìn)入軟件操作界面,我們可以看到添加圖片
    發(fā)表于 08-09 18:16 ?865次閱讀

    谷歌新聞:谷歌解雇48名員工 新推機(jī)器學(xué)習(xí)標(biāo)注圖片功能

    Google2018 ACM多媒體會議上,推出一種使用機(jī)器學(xué)習(xí)來標(biāo)注圖片界面,讓使用者快速為圖片中物體標(biāo)記出輪廓以及標(biāo)簽,提高整體標(biāo)記速度
    的頭像 發(fā)表于 10-26 14:42 ?2974次閱讀

    可解析圖片顏色及設(shè)置多彩陰影控件PaletteImageView

    控制控件四個角的圓角大?。ㄈ绻丶O(shè)置成正方向,隨著圓角半徑增大,可以將控件變成圓形) 可以控制控件的陰影半徑大小 可以分別控制陰影x方向和y方向上的偏移量
    發(fā)表于 03-23 09:09 ?1次下載

    目標(biāo)檢測算法有哪些 目標(biāo)檢測算法原理圖

    目標(biāo)檢測定義,識別圖片中有哪些物體以及物體的位置(坐標(biāo)位置)。其中,需要識別哪些物體是人為設(shè)定限制的,僅識別需要檢測的
    的頭像 發(fā)表于 12-06 15:49 ?5495次閱讀
    <b class='flag-5'>目標(biāo)</b>檢測算法有哪些 <b class='flag-5'>目標(biāo)</b>檢測算法原理圖

    如何在超大分辨率的圖片中檢測目標(biāo)

    本文通過一篇YOLT的文章引出超大分辨率的圖片遇到目標(biāo)檢測任務(wù)該如何處理?此類問題一般出現(xiàn)在遙感領(lǐng)域和醫(yī)療影像中居多,我們先來分析超大圖像的目標(biāo)檢測存在哪些問題,然后學(xué)習(xí)一下YOLT是
    的頭像 發(fā)表于 04-16 09:27 ?2153次閱讀

    圖片文字識別:揭開數(shù)字世界的神秘面紗

    便應(yīng)運(yùn)而生。 圖片文字識別,簡單來說就是將圖片中的文字信息提取出來。這項(xiàng)技術(shù)的應(yīng)用范圍非常廣泛,例如在商業(yè)領(lǐng)域中,我們可以通過圖片文字識別技術(shù)來識別產(chǎn)品的宣傳語、標(biāo)簽等信息,快速了解產(chǎn)
    的頭像 發(fā)表于 05-11 18:20 ?815次閱讀

    使用Python+OpenCV處理圖片

    如果給你一張圖片作為背景,另外一張圖片中物體作為前景圖,要把前景圖中的物體疊加布置到背景圖的中間位置,并且前景圖中的物體需要在背景圖中有旋
    的頭像 發(fā)表于 12-23 15:54 ?668次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品