0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SceneXplain:讓ChatGPT開啟視覺視角

深度學(xué)習(xí)自然語言處理 ? 來源:Jina AI ? 2023-04-14 10:20 ? 次閱讀

精準(zhǔn)的圖像描述不僅可以讓人們更容易理解圖像背后的故事和信息,還可以讓圖像更易于被檢索和識別。然而,對于那些復(fù)雜的圖像來說,寫出既準(zhǔn)確又詳細(xì)的描述實(shí)在是件非常困難的事情。

圖像描述算法的演變

所謂 Image Caption(圖像描述)任務(wù),就是讓計算機(jī)能夠根據(jù)一張圖片自動生成相應(yīng)的文字描述。在早期的模型,比如OpenAI 的 CLIP,利用了無監(jiān)督學(xué)習(xí)和微調(diào)技術(shù),通過海量的圖片和文本數(shù)據(jù)集進(jìn)行了訓(xùn)練,理解了圖片和文本間的聯(lián)系,從而能夠生成有意義的圖像描述。

后來,一種名為BLIP-2的算法應(yīng)運(yùn)而生,它采用了更高效的預(yù)訓(xùn)練策略。BLIP-2 利用現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和大型語言模型,通過一個輕量級的查詢式 Transformer 來連接不同的模態(tài)。不僅減少了訓(xùn)練參數(shù),還保證了各種視覺-語言任務(wù)上取得 SOTA 表現(xiàn)。

得益于多模態(tài)技術(shù)的不斷發(fā)展,圖像描述這個需要結(jié)合 CV 和 NLP 的老大難問題在近些年里邁出了一大步。但直到現(xiàn)在,大部分 AI 生成的圖像描述都比較籠統(tǒng)簡短,難以充分展示圖像的豐富內(nèi)涵。尤其為復(fù)雜圖像所生成的文本描述在準(zhǔn)確性方面仍存在明顯不足,更別提那些涉及多個物體、互動和復(fù)雜細(xì)節(jié)的圖像了。

現(xiàn)有圖像描述解決方案面臨的挑戰(zhàn)

1. 過于簡化或空泛的論述

如圖,大多數(shù)圖像字幕算法給出的是“一個人和一條狗”,看似準(zhǔn)確,但其這張圖里有非常豐富的物體和故事。他們在外面做什么,他們?yōu)槭裁磿稜I,右邊的背包有什么暗示嗎?

d7b89700-d9b9-11ed-bfe3-dac502259ad0.png

圖源《First Dog, 10th Man to Walk Around the World》

2. 缺少細(xì)微差別和關(guān)系

如圖,簡單地給出“對象 A 和對象 B”的描述是遠(yuǎn)遠(yuǎn)不夠的,兩者間的空間關(guān)系傳達(dá)了截然不同的內(nèi)涵。

d7d7127a-d9b9-11ed-bfe3-dac502259ad0.png

圖源《MESSRS: A model-based 3D system for of recognition, semantic annotation and calculating the spatial relationships of a factory’s digital facilities》

3. 處理噪音和糟糕的圖像質(zhì)量

如圖,中間顯示的“攻擊”對比擾動原來照片,盡管人類眼睛瞟一眼就知道和原始圖片沒變化,但圖像描述算法依然標(biāo)錯了分類。

d7eba424-d9b9-11ed-bfe3-dac502259ad0.png

圖源:Daniel Jakubovitz 和 Raja Giryes,Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization.

4. 難以處理復(fù)雜圖像

對于經(jīng)典畫作,如下圖,很多圖像描述算法只能給出簡單的“波提切利的維納斯的誕生”的說明,單單一個名字實(shí)在讓人一知半解,讓觀眾無法理解圖像所展現(xiàn)的品味。

d8035ec0-d9b9-11ed-bfe3-dac502259ad0.png

SceneXplain 生成的描述

一幅標(biāo)志性的畫作「維納斯的誕生」展開在眼前,女神維納斯從貝殼中誕生,周身環(huán)繞著神話人物和天界人物,包括美人魚、天使和手持花束的女人。這些人物之間微妙的交互營造出一種迷人和驚奇的感覺,宛如在慶祝維納斯降臨于人世。這優(yōu)雅的構(gòu)圖引領(lǐng)觀眾進(jìn)入神話領(lǐng)域,驚嘆于這個永恒場景所展現(xiàn)的壯麗和優(yōu)雅。

相比起上面生成的枯燥無味的標(biāo)題,由 SceneXplain 生成的這樣一段豐富生動的描繪不僅能夠幫助我們更好地欣賞圖像,還能讓我們深入了解其審美價值。

應(yīng)對多媒體內(nèi)容的挑戰(zhàn),SceneXplain 讓故事破圖而出

總而言之,現(xiàn)有圖像字幕解決方案取得了很大進(jìn)步,能夠?yàn)閳D片生成相關(guān)的描述,然而還無法為復(fù)雜圖像生成細(xì)節(jié)、上下文和細(xì)微差別的描述。如何進(jìn)一步提高處理這樣復(fù)雜圖像的能力,是當(dāng)前圖像描述技術(shù)面臨的重要挑戰(zhàn)。

這也正是 SceneXplain 一個箭步跨進(jìn)來的契機(jī),這是一個顛覆性的工具,它不止停留在表面,而是進(jìn)一步拓寬了圖像描述的邊界。它突破了傳統(tǒng)圖像描述算法的局限性,提供了簡練專業(yè)、引人入勝的圖像敘事體驗(yàn)。憑借用戶友好的界面、無縫 API 集成和強(qiáng)大的多語言支持,方便開發(fā)者輕松集成到他們的多模態(tài)應(yīng)用中。

d8329528-d9b9-11ed-bfe3-dac502259ad0.png

網(wǎng)址:scenex.jina.ai

SceneXplain 生成的文本拓展了圖片的表現(xiàn)力,不管是動漫,風(fēng)景,商品,還是產(chǎn)品 UI,它都準(zhǔn)確識別了圖片中關(guān)鍵信息,理解了畫面表達(dá)的氣氛,并深入捕捉到了圖片中的細(xì)節(jié),并用流暢連貫的語言完成了描述。

d84b27f0-d9b9-11ed-bfe3-dac502259ad0.png

d8641b48-d9b9-11ed-bfe3-dac502259ad0.png

d88e4d78-d9b9-11ed-bfe3-dac502259ad0.png

d8a7a606-d9b9-11ed-bfe3-dac502259ad0.png

SceneXplain vs Midjourney describe

我們對 SceneXplain 與市面上流行的圖像描述工具和算法的性能進(jìn)行了測評。

SceneXplain:生成詳細(xì)、復(fù)雜、生動、富有上下文的文本描述,為復(fù)雜視覺內(nèi)容提供先進(jìn)的圖像描述解決方案。

Midjourney:最近發(fā)布的 /describe 功能,旨在將圖像轉(zhuǎn)化為文本提示詞。

注意:相比起 /describe 生成的是圖像提示詞 Prompt,而 SceneXplain 生成出的是詳細(xì)、復(fù)雜、生動、富含上下文的圖像描述,更適合人類閱讀。此外,我們還對比了

BLIP-2:一種高效的預(yù)訓(xùn)練策略,使用現(xiàn)成的凍結(jié)的預(yù)訓(xùn)練圖像編碼器和大型語言模型進(jìn)行視覺語言預(yù)訓(xùn)練,可在訓(xùn)練參數(shù)大大減少的情況下,實(shí)現(xiàn)各種視覺語言任務(wù)的 SOTA 性能。

CLIP Interrogator 2.1 專門設(shè)計給 Stable Diffusion 2.0 模型生成圖像提示詞。

接下來讓我們將這些算法對同一圖片進(jìn)行描述,展示它們在各種圖像描述任務(wù)中的效果。完整的 Benchmark 表格請在公眾號回復(fù) SceneX 獲取。

d8bf993c-d9b9-11ed-bfe3-dac502259ad0.png

d8eb57b6-d9b9-11ed-bfe3-dac502259ad0.png

d913f91e-d9b9-11ed-bfe3-dac502259ad0.png

d9301fa4-d9b9-11ed-bfe3-dac502259ad0.png

d95a9914-d9b9-11ed-bfe3-dac502259ad0.png

d98533f4-d9b9-11ed-bfe3-dac502259ad0.png

相比之下,Midjourney /describe 和 CLIP Interrogator 2.1 等解決方案側(cè)重于為圖像生成對應(yīng)提示詞,而非讓人類輕松閱讀的自然語言描述。同時,BLIP-2 生成的字幕非常簡短、粗略且生硬,僅包含幾個相關(guān)詞匯,可能適用于簡單的場景,但難以捕捉到更為復(fù)雜的視覺細(xì)節(jié),從而忽略了關(guān)鍵信息,無法展示圖像的豐富內(nèi)涵。

而 SceneXplain 填補(bǔ)了這一塊空白,深入、準(zhǔn)確、豐富 —— 面對復(fù)雜圖像,SceneXplain 讓圖像描述更上一層樓。它兼顧了準(zhǔn)確性和深度,它能夠深入到復(fù)雜場景里錯綜復(fù)雜的細(xì)節(jié),并基于這些細(xì)節(jié)的微妙關(guān)聯(lián),比如空間位置,依賴關(guān)系等,構(gòu)建出流暢連貫的敘事。這種結(jié)構(gòu)化敘事讓觀眾能夠從更高的視角去理解圖像所呈現(xiàn)的復(fù)雜概念和場景,使得圖像栩栩如生,故事得以生動訴說。

當(dāng)然,我們也必須要承認(rèn) SceneXplain 在簡單場景下有些矯枉過正,會出現(xiàn)一些幻覺。

SceneXplain 的優(yōu)勢

與其他圖像描述解決方案相比,SceneXplain 具有許多優(yōu)勢:

抗噪聲和變化的圖像質(zhì)量

SceneXplain 背后強(qiáng)大的 AI 算法增強(qiáng)了其對各種圖像質(zhì)量的理解能力,哪怕是低分辨率、模糊不清或帶有噪點(diǎn)的圖像,SceneX 也能基于有限的信息推斷圖像內(nèi)涵,確保生成的描述保持準(zhǔn)確性。

d9a9881c-d9b9-11ed-bfe3-dac502259ad0.png

d9c856f2-d9b9-11ed-bfe3-dac502259ad0.png

da02d3c2-d9b9-11ed-bfe3-dac502259ad0.png

多語言支持

SceneXplain 有強(qiáng)大的多語言支持,可以生成多種語言的上下文豐富的圖像描述。

應(yīng)用場景

我們期待您探索和體驗(yàn) SceneXplain 的能力,它的潛在應(yīng)用非常廣泛,比如三個關(guān)鍵領(lǐng)域:

視覺敘事升級:SceneXplain 的豐富描述能夠把簡單的視覺圖像轉(zhuǎn)化為真正引人入勝的敘事體驗(yàn)。這種敘事升級能夠在各個場景下得以運(yùn)用,比如電商產(chǎn)品詳情頁的撰寫,通過詳細(xì)的圖像描述,為用戶提供更豐富的瀏覽體驗(yàn)。

優(yōu)化 SEO:SceneXplain 生成的生動且豐富的描述包含大量的關(guān)鍵詞,這有助于提高內(nèi)容的搜索引導(dǎo)性和點(diǎn)擊率,從而有可能帶來網(wǎng)站排名的提升和來自搜索引擎的更多流量。

提高可訪問性:SceneXplain 生成的描述能夠充分解釋圖像細(xì)節(jié)和含義,從而有望徹底改變無障礙多媒體內(nèi)容的創(chuàng)建和消費(fèi)方式,改善視覺障礙用戶的網(wǎng)絡(luò)體驗(yàn)。

從三個關(guān)鍵領(lǐng)域?qū)?yīng)的場景上,SceneX 也有許多應(yīng)用空間,對于社交媒體內(nèi)容創(chuàng)作者,美食博主,旅游博主等為拍攝的圖片生成更加具體生動的描述,提高圖片素材的影響力;在線電商企業(yè)可以用來描述商品,用關(guān)鍵詞和描述語句豐富產(chǎn)品詳情頁描述,提升 SEO;博物館等公共服務(wù)行業(yè)用于為展品創(chuàng)建詳細(xì)的文字描述,幫助視障人士更好地欣賞等等。

如何將 SceneXplain 集成到您的應(yīng)用中

SceneXplain 提供多種集成選項(xiàng)以滿足不同組織的需求。

1. 通過網(wǎng)頁生成圖像描述

da1ed446-d9b9-11ed-bfe3-dac502259ad0.png

2. 通過 API 批量處理圖像

對于尋求自動化和無縫集成的組織,SceneXplain 為其系統(tǒng)提供了強(qiáng)大、可擴(kuò)展且安全的 API。快速批處理 API 允許在 50 秒內(nèi)在一個批次中描述多達(dá) 128 張圖像。

da482e36-d9b9-11ed-bfe3-dac502259ad0.png

3. 作為 ChatGPT 插件使用

對于 ChatGPT Plus 用戶來說,可以在 ChatGPT 插件里使用。

4. 本地隱私保護(hù)解決方案

對于數(shù)據(jù)安全和隱私有嚴(yán)格要求的組織來說,我們提供本地解決方案,您可以在自己的服務(wù)器上部署 SceneXplain,確保了敏感數(shù)據(jù)保留在自己的網(wǎng)絡(luò)中,同樣無縫集成 SceneXplain 的高級圖像描述。

添加技術(shù)運(yùn)營微信 jinaai01,或掃描文末二維碼,與我們的團(tuán)隊約定會議了解本地解決方案。

SceneXplain 的核心優(yōu)勢在于它能精準(zhǔn)捕捉到圖片中多個物體之間的關(guān)系和互動,同時考慮它們在場景中的位置,以及周圍環(huán)境的氛圍。這些細(xì)節(jié)在普通的圖像描述工具里經(jīng)常被忽略,但 SceneXplain 不僅在生成文本描述時保留了這些細(xì)節(jié),還提供了更多的情境感,將視覺內(nèi)容的精髓高效地呈現(xiàn)出來,幫助讀者更好地理解圖像所呈現(xiàn)的內(nèi)容。無論是社交媒體、電商網(wǎng)站,還是公共服務(wù)領(lǐng)域,它都能大顯身手。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3652

    瀏覽量

    134854
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4622

    瀏覽量

    93101
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1564

    瀏覽量

    7858

原文標(biāo)題:SceneXplain:讓 ChatGPT 開啟視覺視角

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    在FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計中,是否也可以用ChatGPT輔助設(shè)計呢?
    發(fā)表于 03-28 23:41

    ChatGPT對話語音識別

    ChatGPT
    YS YYDS
    發(fā)布于 :2023年05月30日 22:13:10

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    最近,AI(人工智能)圈一股以“ChatGPT”為核心的熱潮從美國“硅谷”涌入中國。 2022年11月底,初創(chuàng)公司OpenAI發(fā)布了名為ChatGPT的對話式聊天機(jī)器人模型,一經(jīng)推出,便在網(wǎng)絡(luò)上
    發(fā)表于 03-03 14:28

    AMOLED技術(shù)日臻成熟 即將開啟視覺新時代

    維信諾創(chuàng)新設(shè)計大賽整個AMOLED產(chǎn)業(yè)的創(chuàng)新升級增加額外動力,如今隨著折疊的AMOLED技術(shù)日臻成熟,為滿足人類在未來對于顯示的需求,AMOLED產(chǎn)業(yè)將開啟視覺新時代。
    發(fā)表于 02-02 13:44 ?1642次閱讀

    機(jī)器視覺與視頻監(jiān)控的結(jié)合,安防行業(yè)開啟一個全新的智慧時代!

    計算機(jī)視覺是人工智能的重要分支,隨著深度學(xué)習(xí)與人工智能的快速迭代和進(jìn)化,計算機(jī)視覺也創(chuàng)造了更多應(yīng)用場景。與視頻監(jiān)控的結(jié)合,安防行業(yè)開啟一個全新的智慧時代!
    發(fā)表于 09-06 15:17 ?3853次閱讀

    iNFINITE Production使用VR作為工具 人們感受色盲人群的日常視角

    2016年,捷克VR開發(fā)商 Jan Horsk與他的公司iNFINITE Production使用VR作為激起同理心的工具,人們切身感受色盲人群的日常視角。鑒于VR的優(yōu)勢之一是作為視覺工具,因此Jan專注于開發(fā)與
    發(fā)表于 12-05 09:56 ?2018次閱讀

    中文版ChatGPT開啟AI技術(shù)新時代

    系統(tǒng)。 ChatGPT的概念宣傳已經(jīng)引得無數(shù)網(wǎng)民垂涎欲滴,基于無法訪問外網(wǎng),海外賬號登錄難等痛點(diǎn),時代飛鷹ChatGPT橫空出世。 國外一億用戶使用ChatGPT 上線兩個月日活用戶超一億,
    的頭像 發(fā)表于 02-08 08:53 ?2131次閱讀
    中文版<b class='flag-5'>ChatGPT</b>:<b class='flag-5'>開啟</b>AI技術(shù)新時代

    ChatGPT的智能來自哪里

    ChatGPT \text{ChatGPT} ChatGPT效果的同時,其“胡編亂造”的結(jié)果也人擔(dān)憂。   ChatGPT \te
    發(fā)表于 02-14 10:15 ?0次下載
    <b class='flag-5'>ChatGPT</b>的智能來自哪里

    從攻擊視角探討ChatGPT對網(wǎng)絡(luò)安全的影響

    專家介紹 ChatGPT是OpenAI 發(fā)布的基于人工智能的對話機(jī)器人,上線短短2個月活躍用戶就突破了1億,成為全球關(guān)注的焦點(diǎn)。ChatGPT可以自動化地處理對話,可以通過基于自然語言處理技術(shù)的模型
    的頭像 發(fā)表于 02-22 08:15 ?1444次閱讀

    從防御視角探討ChatGPT對網(wǎng)絡(luò)安全的影響

    專家介紹 ChatGPT的核心優(yōu)勢是通過基于自然語言處理技術(shù)模型、情景模型和語言模型來自動生成文章和代碼。在前面的文章中,我們從攻擊視角探討了ChatGPT對網(wǎng)絡(luò)安全的影響, 本文將從防御視角
    的頭像 發(fā)表于 02-23 23:55 ?1493次閱讀

    微軟發(fā)布Visual ChatGPT視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

    系統(tǒng)原則的提示符,“Visual ChatGPT是一個可以處理廣泛語言和視覺任務(wù)的助手,xxxxxx”。在這個prompt的部分,以下內(nèi)容被強(qiáng)調(diào):Visual ChatGPT的角色,可以訪問且需要
    的頭像 發(fā)表于 03-16 10:35 ?1410次閱讀

    一個令人驚艷的ChatGPT項(xiàng)目,開源了!

    而Visual ChatGPT這個項(xiàng)目則可以把ChatGPT和一系列視覺基礎(chǔ)模型(VFM,Visual Foundation Model)給聯(lián)系起來,以便實(shí)現(xiàn)在ChatGPT聊天的過程
    的頭像 發(fā)表于 03-31 11:00 ?2280次閱讀

    視覺新紀(jì)元:解碼LED顯示屏的視角、可視角、最佳視角的最終奧秘

    在璀璨奪目的LED顯示屏世界里,每一個絢爛畫面的背后,都離不開三個關(guān)鍵概念:視角、可視角與最佳視角。這些術(shù)語不僅是衡量顯示效果的重要標(biāo)尺,也是連接觀眾與精彩內(nèi)容的橋梁。讓我們一起走進(jìn)這場視覺
    的頭像 發(fā)表于 06-23 02:55 ?691次閱讀
    <b class='flag-5'>視覺</b>新紀(jì)元:解碼LED顯示屏的<b class='flag-5'>視角</b>、可<b class='flag-5'>視角</b>、最佳<b class='flag-5'>視角</b>的最終奧秘