最近,麻省理工學院的計算機科學家們提出了一種系統,基于對圖片的語音描述,可以學習在圖片中辨認目標物體,給定一張圖片和音頻解釋,模型可以實時辨認出音頻描述的相關區(qū)域。
與現有的語音識別技術不同,該模型不需要對其訓練的樣本進行手動標注,而是模型直接從錄音中學習單詞,并從原始圖片中學習目標物體,將它們相互連接。
目前,模型僅僅可以辨認幾百個不同的單詞和目標物體類別,但是研究者希望,未來他們的這種語音和目標辨認相結合的技術可以節(jié)約大量手工勞動,為語音辨認和圖像識別打開新的世界。
像Siri之類的語音識別系統需要對上千小時的錄音進行轉譯。用這些數據,系統學會將語音信號映射到具體的單詞上。但一旦詞匯中出現了新術語,這種方法就不管用了,系統就要重新訓練。
計算機科學和人工智能實驗室(CSAIL)的研究者,David Harwath表示:“我們想用一種更自然的方法進行語音識別,使用人類常用的信號和信息來訓練。但是那樣的機器學習算法并不容易獲取。我們想到了一種類似教小孩走路并敘述自己所看到的景象的方法?!盚arwath曾參與發(fā)表了一篇論文,論文中的模型在最近的計算機視覺歐洲會議上進行了展示。
在上述論文中,研究人員用一張圖片展示了他們的模型,圖片上有一位年輕的金發(fā)小女孩,她有一雙藍色的眼睛,穿著藍色的連衣裙,背景中有一座白色燈塔,燈塔的頂部是紅色的。模型會學習圖片中的哪些像素與小女孩有關,例如哪些是“女孩”、“金發(fā)”、“藍眼睛”、“藍裙子”等等。隨著音頻的播放敘述,模型會在圖片上對這些區(qū)域進行高亮。
其中一種有前景的應用就是在兩種不同的語言之間進行裝換,無需雙語標注器。全世界大約有7000種語言,只有100種左右有足夠的數據進行語音識別。但是,是否有這樣一種情景,當兩種說著不同語言的人描述同一幅圖畫呢?如果模型學會語言A所描述的語言信號所對應的圖中物體,同時也學會了B所描述的同樣物體,那么它就能將這兩種信號看作是彼此的翻譯版本。
Harwath說表示,這有助于解決神話故事中的“巴別塔”問題。
音頻-視覺聯系
這項工作是Harwath等人早期一項研究的擴展,他們當時研究將語音與相關主題的圖片相連接。在早期研究中,他們從Mechanical Turk平臺的分類數據集中選擇不同場景的圖片,之后讓人對圖片進行描述,就像給小孩子講故事,錄制大約10秒鐘的視頻。他們收集了20多萬份圖片和與之對應的音頻注解,分成了上百種不同類別,例如沙灘、購物廣場、城市街道、臥室等等。
之后,他們設計了一款模型,由兩個獨立的卷積神經網絡構成。其中一個處理圖像,另一個處理光譜(音頻信號的視覺表示)。模型的最高層會計算兩個網絡的輸出,并將語音模式映射到圖片數據上。
例如,研究者會A注釋輸入到圖片A中,這是相對應的。之后又會隨機選擇一個注釋B輸入到圖片A中,這就是錯誤的配對。經過對比上千種錯誤的陪讀,模型學會了與圖片A相對應的語音信號,然后將這些信號和注釋中的單詞聯系起來。正如2016年一份研究中所描述的,模型學會了表示“water”這個詞的語音信號,然后檢索出了所有帶水的圖片。
但是Harwath表示,這并不能證明當某人說出特定單詞時就指的是某個像素。
matchmap
在新的論文中,研究人員對之前的模型進行了修改,將特定詞語和特定的像素補丁聯系在一起。研究人員在同樣的數據集上訓練模型,但是最終共有40萬個圖片注釋對子,他們從中隨機選取了1000對用作測試。
在訓練時,模型像上述那樣給予不同的注釋,但這次,分析圖片的卷積神經網絡將圖片用網格分成不同的部分,每個單元都有對應的像素補丁。分析音頻的卷積神經網絡將聲譜也分成不同片段,也就是說一秒鐘可能會有一到兩個單詞。
在正確的圖片和注釋對子下,模型會將第一個圖片網格與第一段音頻對應起來,然后將同樣的圖片網格與第二段音頻對應,如此下去。對每個網格和音頻片段,模型都會給出一個相似度分數,表示音頻信號與目標物體的相似程度有多少。
但其中的難題是,在訓練過程中,模型并不知道音頻和圖片對應的標準是什么。所以這篇論文最大的貢獻就是,它通過教網絡哪些圖片和注釋是同屬一類,而哪些不是,就能自動推斷這些跨形態(tài)連接。
論文作者將語音和圖片像素之間的聯系稱作“matchmap”。訓練了數千對圖片和注釋對子之后,網絡會在matchmap中主線縮小與詞語相對的目標物體。
論文的寫作者Florian Metze說:“很高興看到這種神經方法連接起圖片元素和音頻片段,并且不用文本作為中間工具。這并非是模仿熱淚學習,而是完全基于彼此之間的連接。這也許能幫助我們理解,通過音頻和視頻線索如何形成視覺表示。機器翻譯是一種應用,但它也能用于對瀕危語言的記錄上。我們也可以想象如何將這種技術應用到廢除劉的語音中,或者殘障人士身上。”
-
語音識別
+關注
關注
38文章
1739瀏覽量
112656 -
機器學習
+關注
關注
66文章
8418瀏覽量
132628 -
數據集
+關注
關注
4文章
1208瀏覽量
24700
原文標題:MIT設計跨模態(tài)系統,讓模型“聽音識圖”
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論