0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Keras構(gòu)建基于關(guān)鍵字和圖像的搜索引擎

汽車玩家 ? 來源:人工智能遇見磐創(chuàng) ? 作者:人工智能遇見磐創(chuàng) ? 2020-05-05 08:43 ? 次閱讀

動機

想象一下,如果有數(shù)十萬到數(shù)百萬張圖像的數(shù)據(jù)集,卻沒有描述每張圖像內(nèi)容的元數(shù)據(jù)。我們?nèi)绾谓⒁粋€系統(tǒng),能夠找到這些圖像的子集來更好地回答用戶的搜索查詢?

我們基本上需要的是一個搜索引擎,它能夠根據(jù)圖像與搜索查詢的對應(yīng)程度對圖像結(jié)果進行排序,可以用一種自然語言表示,,也可以用其他查詢圖像表示。

我們將在本文中解決問題的方法是訓(xùn)練一個深度神經(jīng)模型,該模型學(xué)習(xí)任何輸入圖像和文本的固定長度表示形式(或嵌入形式),使得如果文本-圖像或圖像-圖像是“相似的”,則他們在歐氏空間中接近,。

數(shù)據(jù)集

我找不到足夠大的搜索結(jié)果排名數(shù)據(jù)集,但我能夠得到這個數(shù)據(jù)集:http://jmcauley.ucsd.edu/data/amazon/它將電子商務(wù)項目的圖像鏈接到它們的標題和描述。我們將使用這些元數(shù)據(jù)作為監(jiān)督源來學(xué)習(xí)有意義的聯(lián)合文本-圖像表示。為了管理計算和存儲成本,這些實驗僅限于時尚(服裝、鞋子和珠寶)物品和50萬張圖像。

問題設(shè)置

我們的數(shù)據(jù)集將每個圖像與用自然語言編寫的描述鏈接起來。因此,我們定義了一個任務(wù),在該任務(wù)中,我們要學(xué)習(xí)圖像和文本的固定長度的聯(lián)合表示,以便每個圖像表示都接近其描述的表示。

模型

該模型有3個輸入:圖像(即錨點)、圖像標題與描述(即正例)和第三個輸入是一些隨機采樣的文本(即負例)。

然后定義兩個子模型:

圖像編碼器:Resnet50預(yù)訓(xùn)練的ImageNet+GlobalMaxpooling2D

文本編碼器:GRU+GlobalMaxpooling1D

圖像子模型產(chǎn)生錨點E_a的嵌入,文本子模型輸出正標題和描述E_p的嵌入和負例文本E_n的嵌入。

然后,我們通過優(yōu)化以下?lián)p失函數(shù)進行訓(xùn)練:

L = max( d(Ea, Ep)-d(Ea, En)+alpha, 0)

其中d為歐氏距離,alpha為超參數(shù),在本實驗中為0.4。

基本上,這種損失允許做的是使d(E_a,E_p)變小,使d(E_a,E_n)變大,這樣每個圖像的嵌入就接近于它的描述的嵌入,而遠離隨機文本的嵌入。

可視化結(jié)果

一旦我們學(xué)習(xí)了圖像嵌入模型和文本嵌入模型,我們就可以通過使用tsne (https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html)將它們投影到二維空間中來實現(xiàn)可視化。測試圖像及其對應(yīng)的文本描述用綠線連接

從圖中可以看出,通常在嵌入空間中,圖像及其對應(yīng)的描述是接近的??紤]到使用的訓(xùn)練損失,這是我們期望的。

文字圖片搜索

在這里,我們使用幾個文本查詢示例來在一組70,000張圖像中搜索最佳匹配。我們計算查詢的文本嵌入,然后計算集合中每個圖像的嵌入。我們最終在嵌入空間中選擇最接近查詢的前9張圖像。

這些例子表明,嵌入模型能夠?qū)W習(xí)圖像的有用表示形式和簡單單詞組成的嵌入。

圖像搜索

在這里,我們將使用圖像作為查詢,然后在包含70,000張圖像的數(shù)據(jù)庫中搜索與之最相似的示例。排序是由每對圖像在嵌入空間內(nèi)的歐氏距離決定的。

結(jié)果表明,生成的嵌入是圖像的高級表示,它捕獲了所表示對象的最重要特征,而不受方向、光照或局部細節(jié)的過度影響,也沒有經(jīng)過明確的訓(xùn)練。

結(jié)論:在這個項目中,我們研究了機器學(xué)習(xí)模塊,它允許我們構(gòu)建一個基于關(guān)鍵字和圖像的搜索引擎,應(yīng)用于圖像集合。其基本思想是學(xué)習(xí)一個有意義的文本和圖像的聯(lián)合嵌入函數(shù),然后利用嵌入空間中項之間的距離對搜索結(jié)果進行排序。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4511

    瀏覽量

    87194
  • keras
    +關(guān)注

    關(guān)注

    2

    文章

    20

    瀏覽量

    6187
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    單片機編程關(guān)鍵字之volatile

    volatile 修飾的變量是說這變量可能會被意想不到地改變。通常對于程序員而言,單片機 中用的就算常見了volatile 是易變的,不穩(wěn)定的意思。其實對于很多人來說,根本沒見過這個關(guān)鍵字,不 知道
    發(fā)表于 04-02 13:47 ?2次下載

    C語言關(guān)鍵字分別發(fā)生在哪個階段

    以下C語言關(guān)鍵字,分別發(fā)生在哪個階段? 第一個,define。 首先得糾正一下,define 并不是C語言里面的關(guān)鍵字,即使加了井號,也不是。 define 屬于C語言的預(yù)處理指令,很顯然,它發(fā)生
    的頭像 發(fā)表于 11-24 10:31 ?554次閱讀

    SSR的優(yōu)勢和劣勢分析

    SSR(Server-Side Rendering,服務(wù)器端渲染)的優(yōu)勢和劣勢分析如下: SSR的優(yōu)勢 SEO友好 : 由于搜索引擎爬蟲的性質(zhì),更容易識別和抓取服務(wù)端渲染的頁面內(nèi)容,因此提升了網(wǎng)站
    的頭像 發(fā)表于 11-18 11:27 ?1620次閱讀

    阿里國際推出全球首個B2B AI搜索引擎Accio

    近日,在歐洲科技峰會Web Summit上,阿里國際正式推出了全球首個B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品面向全球商家開放,標志著阿里國際正式入局當前備受矚目的AI Search賽道。
    的頭像 發(fā)表于 11-15 16:53 ?1159次閱讀

    阿里國際推出B2B領(lǐng)域AI搜索引擎Accio

    近日,阿里國際宣布正式進軍AI搜索領(lǐng)域,并面向全球商家推出了首個B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品的推出,標志著阿里國際在電子商務(wù)和人工智能技術(shù)結(jié)合方面邁出了重要一步。 Accio
    的頭像 發(fā)表于 11-14 11:47 ?838次閱讀

    Meta開發(fā)新搜索引擎,減少對谷歌和必應(yīng)的依賴

    近日,Meta正在積極進軍人工智能領(lǐng)域,并試圖跟上OpenAI的發(fā)展步伐。為實現(xiàn)這一目標,Meta正在開發(fā)一款全新的搜索引擎,該搜索引擎具備網(wǎng)絡(luò)爬蟲功能,能夠為用戶提供有關(guān)時事的對話答案,而這些答案
    的頭像 發(fā)表于 10-29 11:49 ?767次閱讀

    C語言關(guān)鍵字--typedef

    C語言關(guān)鍵字使用方法學(xué)習(xí)指南!
    的頭像 發(fā)表于 10-07 12:44 ?582次閱讀

    月訪問量超2億,增速113%!360AI搜索成為全球增速最快的AI搜索引擎

    與傳統(tǒng)搜索引擎不同,作為AI原生搜索引擎的360AI搜索基于公開網(wǎng)絡(luò)、知識庫、大模型三大支柱。借助首創(chuàng)的 CoE 技術(shù)架構(gòu),360AI搜索整合了國內(nèi)主流的16家廠商51款大模型,支持用
    的頭像 發(fā)表于 09-09 13:44 ?840次閱讀
    月訪問量超2億,增速113%!360AI<b class='flag-5'>搜索</b>成為全球增速最快的AI<b class='flag-5'>搜索引擎</b>

    使用邊緣AI和Sitara處理器進行關(guān)鍵字檢測

    電子發(fā)燒友網(wǎng)站提供《使用邊緣AI和Sitara處理器進行關(guān)鍵字檢測.pdf》資料免費下載
    發(fā)表于 09-02 11:30 ?0次下載
    使用邊緣AI和Sitara處理器進行<b class='flag-5'>關(guān)鍵字</b>檢測

    用 AI 解鎖技術(shù)調(diào)研的新姿勢

    1. 前言 在日常開發(fā)中,為了保證技術(shù)方案的質(zhì)量,一般會在撰寫前進行調(diào)研。如果先前沒有相關(guān)領(lǐng)域的知識儲備,筆者的調(diào)研方式一般是先通過搜索引擎進行關(guān)鍵字查詢,然后再基于搜索的結(jié)果進行發(fā)散。這樣調(diào)研
    的頭像 發(fā)表于 08-05 13:44 ?388次閱讀
    用 AI 解鎖技術(shù)調(diào)研的新姿勢

    恒訊科技分析:香港站群服務(wù)器為什么要做偽靜態(tài)處理呢?

    提高搜索引擎優(yōu)化(SEO)效果:偽靜態(tài)處理可以使得動態(tài)網(wǎng)頁URL看起來像是靜態(tài)網(wǎng)頁的URL,這有助于搜索引擎更好地索引網(wǎng)站內(nèi)容。搜索引擎通常偏好靜態(tài)網(wǎng)頁,因為它們認為靜態(tài)網(wǎng)頁更穩(wěn)定、內(nèi)
    的頭像 發(fā)表于 07-31 12:49 ?489次閱讀

    OpenAI推出SearchGPT原型,正式向Google搜索引擎發(fā)起挑戰(zhàn)

    在人工智能領(lǐng)域的持續(xù)探索中,OpenAI 邁出了重大一步,發(fā)布了其最新的 SearchGPT 原型,直接瞄準了 Google 的核心業(yè)務(wù)——搜索引擎。這一舉動不僅標志著 OpenAI 在技術(shù)上的又一次飛躍,也預(yù)示著搜索引擎市場即將迎來一場前所未有的變革。
    的頭像 發(fā)表于 07-26 15:11 ?773次閱讀

    微軟計劃在搜索引擎Bing中引入AI摘要功能

    近期,科技界傳來新動向,微軟緊隨百度與谷歌的步伐,宣布計劃在其搜索引擎Bing中引入先進的AI摘要功能,旨在為用戶帶來更加智能、豐富的搜索體驗。
    的頭像 發(fā)表于 07-26 14:23 ?729次閱讀

    快速掌握C語言關(guān)鍵字

    C語言中的32個關(guān)鍵字你知道多少個呢?根據(jù)關(guān)鍵字的作用分為四類:數(shù)據(jù)類型關(guān)鍵字、控制語句關(guān)鍵字、存儲類型關(guān)鍵字和其它
    的頭像 發(fā)表于 07-06 08:04 ?714次閱讀
    快速掌握C語言<b class='flag-5'>關(guān)鍵字</b>

    AI搜索挑戰(zhàn)百度谷歌,重塑信息檢索的市場?

    ? ? 作者:一號 編輯:美美 AI正在顛覆傳統(tǒng)的搜索引擎市場。 隨著ChatGPT等大型語言模型的火爆,AI搜索技術(shù)成為了公眾和業(yè)界關(guān)注的焦點。這些技術(shù)不僅能夠提供快速、準確的信息檢索,還能夠通過
    的頭像 發(fā)表于 07-04 21:15 ?490次閱讀
    AI<b class='flag-5'>搜索</b>挑戰(zhàn)百度谷歌,重塑信息檢索的市場?

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品