別再怕圖片搜索結(jié)果牛頭不對(duì)馬嘴了,你可以試試這個(gè) 精準(zhǔn)圖片搜索,來(lái)自 OpenAI最新的技術(shù) CLIP。
只需一句 “大白話”描述,便能給出想要的圖片。
例如輸入:
The word love written on the wall
就會(huì)得到這樣的結(jié)果:
可以說(shuō)是相當(dāng)?shù)?精準(zhǔn)了!這就是今天在Reddit上爆火的一個(gè)項(xiàng)目。
這個(gè)項(xiàng)目利用到的,便是 OpenAI前不久頻頻刷屏的DALL·E 中的核心模塊—— CLIP,一個(gè)負(fù)責(zé)重排序 (rerank)的模型。
這個(gè)項(xiàng)目使用谷歌Colab Notebook,而且在線、免費(fèi),包含200萬(wàn)圖片數(shù)據(jù)集,最重要的是效果還非常的精準(zhǔn)。
不禁引得網(wǎng)友直呼“ Amazing”。
簡(jiǎn)單幾步,“大白話”在線精準(zhǔn)搜圖
這個(gè)項(xiàng)目之所以如此火爆, 操作簡(jiǎn)單是很重要的一個(gè)原因之一。
首先要做的,就是點(diǎn)開該項(xiàng)目在Colab Notebook中的地址 (見文末鏈接),登陸自己的賬號(hào)。
至于環(huán)境配置、包或庫(kù)的調(diào)用,這個(gè)項(xiàng)目非常貼心的已經(jīng)做好了,只需要依次點(diǎn)擊cell左側(cè)的小三角,等待運(yùn)行完成即可。
最后,來(lái)到包含如下代碼的cell:
search_query = “Two dogs playing inthe snow”
點(diǎn)擊運(yùn)行這個(gè)cell,便可得到搜索圖片的結(jié)果,例如:
當(dāng)然,這個(gè)程序似乎很懂人,若是輸入“當(dāng)你的代碼跑通時(shí)的情緒”:
The feeling when your program finallyworks
得到的結(jié)果,和正常人想象中的應(yīng)該是一致的:
為什么CLIP搜圖能如此精準(zhǔn)?
OpenAI前不久推出的DALL·E,主要能實(shí)現(xiàn)的功能就是 可以按照文字描述、生成對(duì)應(yīng)圖片。
而其呈現(xiàn)給我們的最終作品,其實(shí)是它生成大量圖片中的一部分。
在中間過程中,其實(shí)也有排名、打分的帥選過程。
這部分的任務(wù),便是由 CLIP來(lái)完成:
越是它看得懂、匹配度最高的作品,分?jǐn)?shù)就會(huì)越高,排名也會(huì)越靠前。
這種結(jié)構(gòu),有點(diǎn)像是利用生成對(duì)抗文本,以合成圖像的 GAN。
不過,相比于利用GAN擴(kuò)大圖像分辨率、匹配圖像-文本特征等方法,CLIP則選擇了直接對(duì)輸出進(jìn)行排名。
據(jù)研究人員表示,CLIP網(wǎng)絡(luò)的 最大意義在于,它緩解了深度學(xué)習(xí)在視覺任務(wù)中,最大的兩個(gè)問題。
首先,它 降低了深度學(xué)習(xí)需要的數(shù)據(jù)標(biāo)注量。
相比于手動(dòng)在ImageNet上,用文字描述1400萬(wàn)張圖像,CLIP直接從網(wǎng)上已有的“文字描述圖像”數(shù)據(jù)中進(jìn)行學(xué)習(xí)。
此外,CLIP還能“身兼多職”,在各種數(shù)據(jù)集上的表現(xiàn)都很好 (包括沒見過的數(shù)據(jù)集)。
但此前的大部分視覺神經(jīng)網(wǎng)絡(luò),只能在訓(xùn)練的數(shù)據(jù)集上有不錯(cuò)的表現(xiàn)。
例如,CLIP與ResNet101相比,在各項(xiàng)數(shù)據(jù)集上都有不錯(cuò)的檢測(cè)精度,然而ResNet101在除了ImageNet以外的檢測(cè)精度上,表現(xiàn)都不太好。
具體來(lái)說(shuō),CLIP用到了零樣本學(xué)習(xí) (zero-shot learning)、自然語(yǔ)言理解和多模態(tài)學(xué)習(xí)等技術(shù),來(lái)完成圖像的理解。
例如,描述一只斑馬,可以用“馬的輪廓+虎的皮毛+熊貓的黑白”。這樣,網(wǎng)絡(luò)就能從沒見過的數(shù)據(jù)中,找出“斑馬”的圖像。
最后,CLIP將文本和圖像理解結(jié)合起來(lái),預(yù)測(cè)哪些圖像,與數(shù)據(jù)集中的哪些文本能完成最好的配對(duì)。
網(wǎng)友:機(jī)器人(bot)可能不太高興
在驚嘆CLIP用“大白話”搜索圖片效果之余,一位Reddit網(wǎng)友還發(fā)現(xiàn)了一個(gè)比較有意思的搜索結(jié)果。
他在文本描述的代碼部分輸入:
What image best represents how you feel right now?
這句話在我們?nèi)祟愌壑?,?yīng)當(dāng)是詢問AI的語(yǔ)氣了,然后出來(lái)的圖片結(jié)果是這樣的:
還有這樣的:
嗯,看來(lái)是被“玩多了”,AI寶寶有點(diǎn)小脾氣了。
-
搜索
+關(guān)注
關(guān)注
0文章
69瀏覽量
16664 -
OpenAT
+關(guān)注
關(guān)注
0文章
5瀏覽量
8676 -
圖片
+關(guān)注
關(guān)注
0文章
203瀏覽量
15942 -
Clip
+關(guān)注
關(guān)注
0文章
31瀏覽量
6670 -
OpenAI
+關(guān)注
關(guān)注
9文章
1092瀏覽量
6541
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論