日韩少妇内射免费播放18禁裸乳,免费国产在线网址,亚洲日韩欧美国产精品共

精準(zhǔn)的圖像描述不僅可以讓人們更容易理解圖像背后的故事和信息，還可以讓圖像更易于被檢索和識別。然而，對于那些復(fù)雜的圖像來說，寫出既準(zhǔn)確又詳細(xì)的描述實(shí)在是件非常困難的事情。

圖像描述算法的演變

所謂 Image Caption(圖像描述)任務(wù)，就是讓計算機(jī)能夠根據(jù)一張圖片自動生成相應(yīng)的文字描述。在早期的模型，比如OpenAI 的 CLIP，利用了無監(jiān)督學(xué)習(xí)和微調(diào)技術(shù)，通過海量的圖片和文本數(shù)據(jù)集進(jìn)行了訓(xùn)練，理解了圖片和文本間的聯(lián)系，從而能夠生成有意義的圖像描述。

后來，一種名為BLIP-2的算法應(yīng)運(yùn)而生，它采用了更高效的預(yù)訓(xùn)練策略。BLIP-2 利用現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和大型語言模型，通過一個輕量級的查詢式 Transformer 來連接不同的模態(tài)。不僅減少了訓(xùn)練參數(shù)，還保證了各種視覺-語言任務(wù)上取得 SOTA 表現(xiàn)。

得益于多模態(tài)技術(shù)的不斷發(fā)展，圖像描述這個需要結(jié)合 CV 和 NLP 的老大難問題在近些年里邁出了一大步。但直到現(xiàn)在，大部分 AI 生成的圖像描述都比較籠統(tǒng)簡短，難以充分展示圖像的豐富內(nèi)涵。尤其為復(fù)雜圖像所生成的文本描述在準(zhǔn)確性方面仍存在明顯不足，更別提那些涉及多個物體、互動和復(fù)雜細(xì)節(jié)的圖像了。

現(xiàn)有圖像描述解決方案面臨的挑戰(zhàn)

1. 過于簡化或空泛的論述

如圖，大多數(shù)圖像字幕算法給出的是“一個人和一條狗”，看似準(zhǔn)確，但其這張圖里有非常豐富的物體和故事。他們在外面做什么，他們?yōu)槭裁磿稜I，右邊的背包有什么暗示嗎？

圖源《First Dog, 10th Man to Walk Around the World》

2. 缺少細(xì)微差別和關(guān)系

如圖，簡單地給出“對象 A 和對象 B”的描述是遠(yuǎn)遠(yuǎn)不夠的，兩者間的空間關(guān)系傳達(dá)了截然不同的內(nèi)涵。

圖源《MESSRS: A model-based 3D system for of recognition, semantic annotation and calculating the spatial relationships of a factory’s digital facilities》

3. 處理噪音和糟糕的圖像質(zhì)量

如圖，中間顯示的“攻擊”對比擾動原來照片，盡管人類眼睛瞟一眼就知道和原始圖片沒變化，但圖像描述算法依然標(biāo)錯了分類。

圖源：Daniel Jakubovitz 和 Raja Giryes，Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization.

4. 難以處理復(fù)雜圖像

對于經(jīng)典畫作，如下圖，很多圖像描述算法只能給出簡單的“波提切利的維納斯的誕生”的說明，單單一個名字實(shí)在讓人一知半解，讓觀眾無法理解圖像所展現(xiàn)的品味。

SceneXplain 生成的描述

一幅標(biāo)志性的畫作「維納斯的誕生」展開在眼前，女神維納斯從貝殼中誕生，周身環(huán)繞著神話人物和天界人物，包括美人魚、天使和手持花束的女人。這些人物之間微妙的交互營造出一種迷人和驚奇的感覺，宛如在慶祝維納斯降臨于人世。這優(yōu)雅的構(gòu)圖引領(lǐng)觀眾進(jìn)入神話領(lǐng)域，驚嘆于這個永恒場景所展現(xiàn)的壯麗和優(yōu)雅。

相比起上面生成的枯燥無味的標(biāo)題，由 SceneXplain 生成的這樣一段豐富生動的描繪不僅能夠幫助我們更好地欣賞圖像，還能讓我們深入了解其審美價值。

應(yīng)對多媒體內(nèi)容的挑戰(zhàn)，SceneXplain 讓故事破圖而出

總而言之，現(xiàn)有圖像字幕解決方案取得了很大進(jìn)步，能夠?yàn)閳D片生成相關(guān)的描述，然而還無法為復(fù)雜圖像生成細(xì)節(jié)、上下文和細(xì)微差別的描述。如何進(jìn)一步提高處理這樣復(fù)雜圖像的能力，是當(dāng)前圖像描述技術(shù)面臨的重要挑戰(zhàn)。

這也正是 SceneXplain 一個箭步跨進(jìn)來的契機(jī)，這是一個顛覆性的工具，它不止停留在表面，而是進(jìn)一步拓寬了圖像描述的邊界。它突破了傳統(tǒng)圖像描述算法的局限性，提供了簡練專業(yè)、引人入勝的圖像敘事體驗(yàn)。憑借用戶友好的界面、無縫 API 集成和強(qiáng)大的多語言支持，方便開發(fā)者輕松集成到他們的多模態(tài)應(yīng)用中。

網(wǎng)址：scenex.jina.ai

SceneXplain 生成的文本拓展了圖片的表現(xiàn)力，不管是動漫，風(fēng)景，商品，還是產(chǎn)品 UI，它都準(zhǔn)確識別了圖片中關(guān)鍵信息，理解了畫面表達(dá)的氣氛，并深入捕捉到了圖片中的細(xì)節(jié)，并用流暢連貫的語言完成了描述。

SceneXplain vs Midjourney describe

我們對 SceneXplain 與市面上流行的圖像描述工具和算法的性能進(jìn)行了測評。

SceneXplain：生成詳細(xì)、復(fù)雜、生動、富有上下文的文本描述，為復(fù)雜視覺內(nèi)容提供先進(jìn)的圖像描述解決方案。

Midjourney：最近發(fā)布的 /describe 功能，旨在將圖像轉(zhuǎn)化為文本提示詞。

注意：相比起 /describe 生成的是圖像提示詞 Prompt，而 SceneXplain 生成出的是詳細(xì)、復(fù)雜、生動、富含上下文的圖像描述，更適合人類閱讀。此外，我們還對比了

BLIP-2：一種高效的預(yù)訓(xùn)練策略，使用現(xiàn)成的凍結(jié)的預(yù)訓(xùn)練圖像編碼器和大型語言模型進(jìn)行視覺語言預(yù)訓(xùn)練，可在訓(xùn)練參數(shù)大大減少的情況下，實(shí)現(xiàn)各種視覺語言任務(wù)的 SOTA 性能。

CLIP Interrogator 2.1 專門設(shè)計給 Stable Diffusion 2.0 模型生成圖像提示詞。

接下來讓我們將這些算法對同一圖片進(jìn)行描述，展示它們在各種圖像描述任務(wù)中的效果。完整的 Benchmark 表格請在公眾號回復(fù) SceneX 獲取。

相比之下，Midjourney /describe 和 CLIP Interrogator 2.1 等解決方案側(cè)重于為圖像生成對應(yīng)提示詞，而非讓人類輕松閱讀的自然語言描述。同時，BLIP-2 生成的字幕非常簡短、粗略且生硬，僅包含幾個相關(guān)詞匯，可能適用于簡單的場景，但難以捕捉到更為復(fù)雜的視覺細(xì)節(jié)，從而忽略了關(guān)鍵信息，無法展示圖像的豐富內(nèi)涵。

而 SceneXplain 填補(bǔ)了這一塊空白，深入、準(zhǔn)確、豐富 —— 面對復(fù)雜圖像，SceneXplain 讓圖像描述更上一層樓。它兼顧了準(zhǔn)確性和深度，它能夠深入到復(fù)雜場景里錯綜復(fù)雜的細(xì)節(jié)，并基于這些細(xì)節(jié)的微妙關(guān)聯(lián)，比如空間位置，依賴關(guān)系等，構(gòu)建出流暢連貫的敘事。這種結(jié)構(gòu)化敘事讓觀眾能夠從更高的視角去理解圖像所呈現(xiàn)的復(fù)雜概念和場景，使得圖像栩栩如生，故事得以生動訴說。

當(dāng)然，我們也必須要承認(rèn) SceneXplain 在簡單場景下有些矯枉過正，會出現(xiàn)一些幻覺。

SceneXplain 的優(yōu)勢

與其他圖像描述解決方案相比，SceneXplain 具有許多優(yōu)勢：

抗噪聲和變化的圖像質(zhì)量

SceneXplain 背后強(qiáng)大的 AI 算法增強(qiáng)了其對各種圖像質(zhì)量的理解能力，哪怕是低分辨率、模糊不清或帶有噪點(diǎn)的圖像，SceneX 也能基于有限的信息推斷圖像內(nèi)涵，確保生成的描述保持準(zhǔn)確性。

多語言支持

SceneXplain 有強(qiáng)大的多語言支持，可以生成多種語言的上下文豐富的圖像描述。

應(yīng)用場景

我們期待您探索和體驗(yàn) SceneXplain 的能力，它的潛在應(yīng)用非常廣泛，比如三個關(guān)鍵領(lǐng)域：

視覺敘事升級：SceneXplain 的豐富描述能夠把簡單的視覺圖像轉(zhuǎn)化為真正引人入勝的敘事體驗(yàn)。這種敘事升級能夠在各個場景下得以運(yùn)用，比如電商產(chǎn)品詳情頁的撰寫，通過詳細(xì)的圖像描述，為用戶提供更豐富的瀏覽體驗(yàn)。

優(yōu)化 SEO：SceneXplain 生成的生動且豐富的描述包含大量的關(guān)鍵詞，這有助于提高內(nèi)容的搜索引導(dǎo)性和點(diǎn)擊率，從而有可能帶來網(wǎng)站排名的提升和來自搜索引擎的更多流量。

提高可訪問性：SceneXplain 生成的描述能夠充分解釋圖像細(xì)節(jié)和含義，從而有望徹底改變無障礙多媒體內(nèi)容的創(chuàng)建和消費(fèi)方式，改善視覺障礙用戶的網(wǎng)絡(luò)體驗(yàn)。

從三個關(guān)鍵領(lǐng)域?qū)?yīng)的場景上，SceneX 也有許多應(yīng)用空間，對于社交媒體內(nèi)容創(chuàng)作者，美食博主，旅游博主等為拍攝的圖片生成更加具體生動的描述，提高圖片素材的影響力；在線電商企業(yè)可以用來描述商品，用關(guān)鍵詞和描述語句豐富產(chǎn)品詳情頁描述，提升 SEO；博物館等公共服務(wù)行業(yè)用于為展品創(chuàng)建詳細(xì)的文字描述，幫助視障人士更好地欣賞等等。

如何將 SceneXplain 集成到您的應(yīng)用中

SceneXplain 提供多種集成選項(xiàng)以滿足不同組織的需求。

1. 通過網(wǎng)頁生成圖像描述

2. 通過 API 批量處理圖像

對于尋求自動化和無縫集成的組織，SceneXplain 為其系統(tǒng)提供了強(qiáng)大、可擴(kuò)展且安全的 API。快速批處理 API 允許在 50 秒內(nèi)在一個批次中描述多達(dá) 128 張圖像。

3. 作為 ChatGPT 插件使用

對于 ChatGPT Plus 用戶來說，可以在 ChatGPT 插件里使用。

4. 本地隱私保護(hù)解決方案

對于數(shù)據(jù)安全和隱私有嚴(yán)格要求的組織來說，我們提供本地解決方案，您可以在自己的服務(wù)器上部署 SceneXplain，確保了敏感數(shù)據(jù)保留在自己的網(wǎng)絡(luò)中，同樣無縫集成 SceneXplain 的高級圖像描述。

添加技術(shù)運(yùn)營微信 jinaai01，或掃描文末二維碼，與我們的團(tuán)隊約定會議了解本地解決方案。

SceneXplain 的核心優(yōu)勢在于它能精準(zhǔn)捕捉到圖片中多個物體之間的關(guān)系和互動，同時考慮它們在場景中的位置，以及周圍環(huán)境的氛圍。這些細(xì)節(jié)在普通的圖像描述工具里經(jīng)常被忽略，但 SceneXplain 不僅在生成文本描述時保留了這些細(xì)節(jié)，還提供了更多的情境感，將視覺內(nèi)容的精髓高效地呈現(xiàn)出來，幫助讀者更好地理解圖像所呈現(xiàn)的內(nèi)容。無論是社交媒體、電商網(wǎng)站，還是公共服務(wù)領(lǐng)域，它都能大顯身手。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3652

瀏覽量
134854
算法

算法

+關(guān)注

關(guān)注
23

文章
4622

瀏覽量
93101
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1564

瀏覽量
7858

原文標(biāo)題：SceneXplain：讓 ChatGPT 開啟視覺視角

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

在FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

當(dāng)下AI人工智能崛起，很多開發(fā)領(lǐng)域都可看到ChatGPT的身影，F(xiàn)PGA設(shè)計中，是否也可以用ChatGPT輔助設(shè)計呢？

發(fā)表于 03-28 23:41

讓chatGPT幫我寫硬件代碼，是懂行的，好助手！#chatgpt #物聯(lián)網(wǎng)開發(fā) #python開發(fā)板

ChatGPT

蘇州煜瑛微電子科技有限公司

發(fā)布于 :2023年02月17日 15:27:42

#chatgpt 使用chatGPT輔助開發(fā)第一彈-電路設(shè)計，讓它設(shè)計一個放大電路，看下效果#人工智能

ChatGPT

jf_82140138

發(fā)布于 :2023年02月27日 13:07:41

ChatGPT對話語音識別

ChatGPT

YS YYDS

發(fā)布于 :2023年05月30日 22:13:10

科技大廠競逐AIGC，中國的ChatGPT在哪？

最近，AI（人工智能）圈一股以“ChatGPT”為核心的熱潮從美國“硅谷”涌入中國。 2022年11月底，初創(chuàng)公司OpenAI發(fā)布了名為ChatGPT的對話式聊天機(jī)器人模型，一經(jīng)推出，便在網(wǎng)絡(luò)上

發(fā)表于 03-03 14:28

AMOLED技術(shù)日臻成熟即將開啟視覺新時代

維信諾創(chuàng)新設(shè)計大賽讓整個AMOLED產(chǎn)業(yè)的創(chuàng)新升級增加額外動力，如今隨著折疊的AMOLED技術(shù)日臻成熟，為滿足人類在未來對于顯示的需求，AMOLED產(chǎn)業(yè)將開啟視覺新時代。

發(fā)表于 02-02 13:44 ?1642次閱讀

機(jī)器視覺與視頻監(jiān)控的結(jié)合，讓安防行業(yè)開啟一個全新的智慧時代！

計算機(jī)視覺是人工智能的重要分支，隨著深度學(xué)習(xí)與人工智能的快速迭代和進(jìn)化，計算機(jī)視覺也創(chuàng)造了更多應(yīng)用場景。與視頻監(jiān)控的結(jié)合，讓安防行業(yè)開啟一個全新的智慧時代！

發(fā)表于 09-06 15:17 ?3853次閱讀

iNFINITE Production使用VR作為工具讓人們感受色盲人群的日常視角

2016年，捷克VR開發(fā)商 Jan Horsk與他的公司iNFINITE Production使用VR作為激起同理心的工具，讓人們切身感受色盲人群的日常視角。鑒于VR的優(yōu)勢之一是作為視覺工具，因此Jan專注于開發(fā)與

發(fā)表于 12-05 09:56 ?2018次閱讀

中文版ChatGPT：開啟AI技術(shù)新時代

系統(tǒng)。 ChatGPT的概念宣傳已經(jīng)引得無數(shù)網(wǎng)民垂涎欲滴，基于無法訪問外網(wǎng)，海外賬號登錄難等痛點(diǎn)，時代飛鷹ChatGPT橫空出世。國外一億用戶使用ChatGPT 上線兩個月日活用戶超一億，讓

發(fā)表于 02-08 08:53 ?2131次閱讀

ChatGPT的智能來自哪里

ChatGPT \text{ChatGPT} ChatGPT效果的同時，其“胡編亂造”的結(jié)果也讓人擔(dān)憂。　　ChatGPT \te

發(fā)表于 02-14 10:15 ?0次下載

從攻擊視角探討ChatGPT對網(wǎng)絡(luò)安全的影響

專家介紹 ChatGPT是OpenAI 發(fā)布的基于人工智能的對話機(jī)器人，上線短短2個月活躍用戶就突破了1億，成為全球關(guān)注的焦點(diǎn)。ChatGPT可以自動化地處理對話，可以通過基于自然語言處理技術(shù)的模型

發(fā)表于 02-22 08:15 ?1444次閱讀

從防御視角探討ChatGPT對網(wǎng)絡(luò)安全的影響

專家介紹 ChatGPT的核心優(yōu)勢是通過基于自然語言處理技術(shù)模型、情景模型和語言模型來自動生成文章和代碼。在前面的文章中，我們從攻擊視角探討了ChatGPT對網(wǎng)絡(luò)安全的影響，本文將從防御視角

發(fā)表于 02-23 23:55 ?1493次閱讀

微軟發(fā)布Visual ChatGPT：視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

系統(tǒng)原則的提示符，“Visual ChatGPT是一個可以處理廣泛語言和視覺任務(wù)的助手，xxxxxx”。在這個prompt的部分，以下內(nèi)容被強(qiáng)調(diào)：Visual ChatGPT的角色，可以訪問且需要

發(fā)表于 03-16 10:35 ?1410次閱讀

一個令人驚艷的ChatGPT項(xiàng)目，開源了！

而Visual ChatGPT這個項(xiàng)目則可以把ChatGPT和一系列視覺基礎(chǔ)模型（VFM，Visual Foundation Model）給聯(lián)系起來，以便實(shí)現(xiàn)在ChatGPT聊天的過程

發(fā)表于 03-31 11:00 ?2280次閱讀

視覺新紀(jì)元：解碼LED顯示屏的視角、可視角、最佳視角的最終奧秘

在璀璨奪目的LED顯示屏世界里，每一個絢爛畫面的背后，都離不開三個關(guān)鍵概念：視角、可視角與最佳視角。這些術(shù)語不僅是衡量顯示效果的重要標(biāo)尺，也是連接觀眾與精彩內(nèi)容的橋梁。讓我們一起走進(jìn)這場視覺

發(fā)表于 06-23 02:55 ?691次閱讀

搜索歷史

SceneXplain：讓ChatGPT開啟視覺視角

評論

在FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

讓chatGPT幫我寫硬件代碼，是懂行的，好助手！#chatgpt #物聯(lián)網(wǎng)開發(fā) #python開發(fā)板

#chatgpt 使用chatGPT輔助開發(fā)第一彈-電路設(shè)計，讓它設(shè)計一個放大電路，看下效果#人工智能

ChatGPT對話語音識別

科技大廠競逐AIGC，中國的ChatGPT在哪？

AMOLED技術(shù)日臻成熟即將開啟視覺新時代

機(jī)器視覺與視頻監(jiān)控的結(jié)合，讓安防行業(yè)開啟一個全新的智慧時代！

iNFINITE Production使用VR作為工具讓人們感受色盲人群的日常視角

中文版ChatGPT：開啟AI技術(shù)新時代

ChatGPT的智能來自哪里

從攻擊視角探討ChatGPT對網(wǎng)絡(luò)安全的影響

從防御視角探討ChatGPT對網(wǎng)絡(luò)安全的影響

微軟發(fā)布Visual ChatGPT：視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

一個令人驚艷的ChatGPT項(xiàng)目，開源了！

視覺新紀(jì)元：解碼LED顯示屏的視角、可視角、最佳視角的最終奧秘