0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于對圖片的語音描述,可以學習在圖片中辨認目標物體

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-04 10:30 ? 次閱讀

最近,麻省理工學院的計算機科學家們提出了一種系統,基于對圖片的語音描述,可以學習在圖片中辨認目標物體,給定一張圖片和音頻解釋,模型可以實時辨認出音頻描述的相關區(qū)域。

與現有的語音識別技術不同,該模型不需要對其訓練的樣本進行手動標注,而是模型直接從錄音中學習單詞,并從原始圖片中學習目標物體,將它們相互連接。

目前,模型僅僅可以辨認幾百個不同的單詞和目標物體類別,但是研究者希望,未來他們的這種語音和目標辨認相結合的技術可以節(jié)約大量手工勞動,為語音辨認和圖像識別打開新的世界。

像Siri之類的語音識別系統需要對上千小時的錄音進行轉譯。用這些數據,系統學會將語音信號映射到具體的單詞上。但一旦詞匯中出現了新術語,這種方法就不管用了,系統就要重新訓練。

計算機科學和人工智能實驗室(CSAIL)的研究者,David Harwath表示:“我們想用一種更自然的方法進行語音識別,使用人類常用的信號和信息來訓練。但是那樣的機器學習算法并不容易獲取。我們想到了一種類似教小孩走路并敘述自己所看到的景象的方法?!盚arwath曾參與發(fā)表了一篇論文,論文中的模型在最近的計算機視覺歐洲會議上進行了展示。

在上述論文中,研究人員用一張圖片展示了他們的模型,圖片上有一位年輕的金發(fā)小女孩,她有一雙藍色的眼睛,穿著藍色的連衣裙,背景中有一座白色燈塔,燈塔的頂部是紅色的。模型會學習圖片中的哪些像素與小女孩有關,例如哪些是“女孩”、“金發(fā)”、“藍眼睛”、“藍裙子”等等。隨著音頻的播放敘述,模型會在圖片上對這些區(qū)域進行高亮。

其中一種有前景的應用就是在兩種不同的語言之間進行裝換,無需雙語標注器。全世界大約有7000種語言,只有100種左右有足夠的數據進行語音識別。但是,是否有這樣一種情景,當兩種說著不同語言的人描述同一幅圖畫呢?如果模型學會語言A所描述的語言信號所對應的圖中物體,同時也學會了B所描述的同樣物體,那么它就能將這兩種信號看作是彼此的翻譯版本。

Harwath說表示,這有助于解決神話故事中的“巴別塔”問題。

音頻-視覺聯系

這項工作是Harwath等人早期一項研究的擴展,他們當時研究將語音與相關主題的圖片相連接。在早期研究中,他們從Mechanical Turk平臺的分類數據集中選擇不同場景的圖片,之后讓人對圖片進行描述,就像給小孩子講故事,錄制大約10秒鐘的視頻。他們收集了20多萬份圖片和與之對應的音頻注解,分成了上百種不同類別,例如沙灘、購物廣場、城市街道、臥室等等。

之后,他們設計了一款模型,由兩個獨立的卷積神經網絡構成。其中一個處理圖像,另一個處理光譜(音頻信號的視覺表示)。模型的最高層會計算兩個網絡的輸出,并將語音模式映射到圖片數據上。

例如,研究者會A注釋輸入到圖片A中,這是相對應的。之后又會隨機選擇一個注釋B輸入到圖片A中,這就是錯誤的配對。經過對比上千種錯誤的陪讀,模型學會了與圖片A相對應的語音信號,然后將這些信號和注釋中的單詞聯系起來。正如2016年一份研究中所描述的,模型學會了表示“water”這個詞的語音信號,然后檢索出了所有帶水的圖片。

但是Harwath表示,這并不能證明當某人說出特定單詞時就指的是某個像素。

matchmap

在新的論文中,研究人員對之前的模型進行了修改,將特定詞語和特定的像素補丁聯系在一起。研究人員在同樣的數據集上訓練模型,但是最終共有40萬個圖片注釋對子,他們從中隨機選取了1000對用作測試。

在訓練時,模型像上述那樣給予不同的注釋,但這次,分析圖片的卷積神經網絡將圖片用網格分成不同的部分,每個單元都有對應的像素補丁。分析音頻的卷積神經網絡將聲譜也分成不同片段,也就是說一秒鐘可能會有一到兩個單詞。

在正確的圖片和注釋對子下,模型會將第一個圖片網格與第一段音頻對應起來,然后將同樣的圖片網格與第二段音頻對應,如此下去。對每個網格和音頻片段,模型都會給出一個相似度分數,表示音頻信號與目標物體的相似程度有多少。

但其中的難題是,在訓練過程中,模型并不知道音頻和圖片對應的標準是什么。所以這篇論文最大的貢獻就是,它通過教網絡哪些圖片和注釋是同屬一類,而哪些不是,就能自動推斷這些跨形態(tài)連接。

論文作者將語音和圖片像素之間的聯系稱作“matchmap”。訓練了數千對圖片和注釋對子之后,網絡會在matchmap中主線縮小與詞語相對的目標物體。

論文的寫作者Florian Metze說:“很高興看到這種神經方法連接起圖片元素和音頻片段,并且不用文本作為中間工具。這并非是模仿熱淚學習,而是完全基于彼此之間的連接。這也許能幫助我們理解,通過音頻和視頻線索如何形成視覺表示。機器翻譯是一種應用,但它也能用于對瀕危語言的記錄上。我們也可以想象如何將這種技術應用到廢除劉的語音中,或者殘障人士身上。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1739

    瀏覽量

    112656
  • 機器學習
    +關注

    關注

    66

    文章

    8418

    瀏覽量

    132628
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24700

原文標題:MIT設計跨模態(tài)系統,讓模型“聽音識圖”

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    這張圖片中的DBL是什么意思?

    這張圖片中的DBL是什么意思,在前面板中對應的是波形圖表,求哪位大神指導?
    發(fā)表于 05-06 09:00

    圖片中的[I/O]是什么類型的IO?

    圖片中的[I/O]是什么類型的IO?
    發(fā)表于 07-18 14:27

    請問大神們怎么樣解決圖片中的問題?

    請問大神們怎么樣解決圖片中的問題
    發(fā)表于 03-08 15:06

    怎樣labview的圖片里插入與plc的通信接口,類似圖片中的組態(tài)軟件這種,在線等,急!

    怎樣labview的圖片里插入與plc的通信接口,類似圖片中的組態(tài)軟件這種,在線等,急!有36張不同模型角度的圖片,怎樣插入通信之后,切
    發(fā)表于 08-25 21:43

    圖片中的電子器件是什么?

    本帖最后由 heroen08808 于 2016-10-29 10:02 編輯 圖片中的電子器件是什么?
    發(fā)表于 10-28 07:29

    請問圖片中顯示的應該如何解決啊?

    `我上載了一張圖片,不知道如何解決圖片中的問題。`
    發(fā)表于 03-23 17:33

    基于圖片特征的并行化海量圖片快速去重技術

    針對海量圖片中的去除重復圖片效率低的問題,提出一種基于圖片特征的并行化海量圖片快速去重技術。首先,對圖片提取
    發(fā)表于 12-14 11:48 ?2次下載

    基于深度學習圖片中商品參數識別方法

    trade-off.目前電商領域的飛速發(fā)展產生了大量包含商品參數的圖片。使用傳統方法難以有效地提取出圖片中的商品參數信息.針對這一問題。本文提出了一種將深度學習檢測算法和傳統OCR技術相結合的方法,
    發(fā)表于 12-15 10:15 ?0次下載

    深度學習圖片壓縮算法,可以節(jié)省55%帶寬

    通過深度學習技術設計壓縮算法不僅能在不借助HEVC的情況下設計出更適合商用的更高壓縮比的圖片壓縮算法,還可以保持圖片畫質同時,盡可能降低
    的頭像 發(fā)表于 03-14 13:31 ?6810次閱讀
    深度<b class='flag-5'>學習</b>為<b class='flag-5'>圖片</b>壓縮算法,<b class='flag-5'>可以</b>節(jié)省55%帶寬

    谷歌新聞:谷歌解雇48名員工 新推機器學習標注圖片功能

    Google2018 ACM多媒體會議上,推出一種使用機器學習來標注圖片界面,讓使用者快速為圖片中物體標記出輪廓以及標簽,提高整體標記速度
    的頭像 發(fā)表于 10-26 14:42 ?2845次閱讀

    可解析圖片顏色及設置多彩陰影控件PaletteImageView

    控制控件四個角的圓角大小(如果控件設置成正方向,隨著圓角半徑增大,可以將控件變成圓形) 可以控制控件的陰影半徑大小 可以分別控制陰影x方向和y方向上的偏移量
    發(fā)表于 03-23 09:09 ?1次下載

    目標檢測算法有哪些 目標檢測算法原理圖

    目標檢測定義,識別圖片中有哪些物體以及物體的位置(坐標位置)。其中,需要識別哪些物體是人為設定限制的,僅識別需要檢測的
    的頭像 發(fā)表于 12-06 15:49 ?4761次閱讀
    <b class='flag-5'>目標</b>檢測算法有哪些 <b class='flag-5'>目標</b>檢測算法原理圖

    如何在超大分辨率的圖片中檢測目標

    本文通過一篇YOLT的文章引出超大分辨率的圖片遇到目標檢測任務該如何處理?此類問題一般出現在遙感領域和醫(yī)療影像中居多,我們先來分析超大圖像的目標檢測存在哪些問題,然后學習一下YOLT是
    的頭像 發(fā)表于 04-16 09:27 ?1852次閱讀

    圖片文字識別:揭開數字世界的神秘面紗

    便應運而生。 圖片文字識別,簡單來說就是將圖片中的文字信息提取出來。這項技術的應用范圍非常廣泛,例如在商業(yè)領域中,我們可以通過圖片文字識別技術來識別產品的宣傳語、標簽等信息,快速了解產
    的頭像 發(fā)表于 05-11 18:20 ?611次閱讀

    使用Python+OpenCV處理圖片

    如果給你一張圖片作為背景,另外一張圖片中物體作為前景圖,要把前景圖中的物體疊加布置到背景圖的中間位置,并且前景圖中的物體需要在背景圖中有旋
    的頭像 發(fā)表于 12-23 15:54 ?149次閱讀