精準(zhǔn)的圖像描述不僅可以讓人們更容易理解圖像背后的故事和信息,還可以讓圖像更易于被檢索和識別。然而,對于那些復(fù)雜的圖像來說,寫出既準(zhǔn)確又詳細(xì)的描述實(shí)在是件非常困難的事情。
圖像描述算法的演變
所謂 Image Caption(圖像描述)任務(wù),就是讓計算機(jī)能夠根據(jù)一張圖片自動生成相應(yīng)的文字描述。在早期的模型,比如OpenAI 的 CLIP,利用了無監(jiān)督學(xué)習(xí)和微調(diào)技術(shù),通過海量的圖片和文本數(shù)據(jù)集進(jìn)行了訓(xùn)練,理解了圖片和文本間的聯(lián)系,從而能夠生成有意義的圖像描述。
后來,一種名為BLIP-2的算法應(yīng)運(yùn)而生,它采用了更高效的預(yù)訓(xùn)練策略。BLIP-2 利用現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和大型語言模型,通過一個輕量級的查詢式 Transformer 來連接不同的模態(tài)。不僅減少了訓(xùn)練參數(shù),還保證了各種視覺-語言任務(wù)上取得 SOTA 表現(xiàn)。
得益于多模態(tài)技術(shù)的不斷發(fā)展,圖像描述這個需要結(jié)合 CV 和 NLP 的老大難問題在近些年里邁出了一大步。但直到現(xiàn)在,大部分 AI 生成的圖像描述都比較籠統(tǒng)簡短,難以充分展示圖像的豐富內(nèi)涵。尤其為復(fù)雜圖像所生成的文本描述在準(zhǔn)確性方面仍存在明顯不足,更別提那些涉及多個物體、互動和復(fù)雜細(xì)節(jié)的圖像了。
現(xiàn)有圖像描述解決方案面臨的挑戰(zhàn)
1. 過于簡化或空泛的論述
如圖,大多數(shù)圖像字幕算法給出的是“一個人和一條狗”,看似準(zhǔn)確,但其這張圖里有非常豐富的物體和故事。他們在外面做什么,他們?yōu)槭裁磿稜I,右邊的背包有什么暗示嗎?
圖源《First Dog, 10th Man to Walk Around the World》
2. 缺少細(xì)微差別和關(guān)系
如圖,簡單地給出“對象 A 和對象 B”的描述是遠(yuǎn)遠(yuǎn)不夠的,兩者間的空間關(guān)系傳達(dá)了截然不同的內(nèi)涵。
圖源《MESSRS: A model-based 3D system for of recognition, semantic annotation and calculating the spatial relationships of a factory’s digital facilities》
3. 處理噪音和糟糕的圖像質(zhì)量
如圖,中間顯示的“攻擊”對比擾動原來照片,盡管人類眼睛瞟一眼就知道和原始圖片沒變化,但圖像描述算法依然標(biāo)錯了分類。
圖源:Daniel Jakubovitz 和 Raja Giryes,Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization.
4. 難以處理復(fù)雜圖像
對于經(jīng)典畫作,如下圖,很多圖像描述算法只能給出簡單的“波提切利的維納斯的誕生”的說明,單單一個名字實(shí)在讓人一知半解,讓觀眾無法理解圖像所展現(xiàn)的品味。
SceneXplain 生成的描述
一幅標(biāo)志性的畫作「維納斯的誕生」展開在眼前,女神維納斯從貝殼中誕生,周身環(huán)繞著神話人物和天界人物,包括美人魚、天使和手持花束的女人。這些人物之間微妙的交互營造出一種迷人和驚奇的感覺,宛如在慶祝維納斯降臨于人世。這優(yōu)雅的構(gòu)圖引領(lǐng)觀眾進(jìn)入神話領(lǐng)域,驚嘆于這個永恒場景所展現(xiàn)的壯麗和優(yōu)雅。
相比起上面生成的枯燥無味的標(biāo)題,由 SceneXplain 生成的這樣一段豐富生動的描繪不僅能夠幫助我們更好地欣賞圖像,還能讓我們深入了解其審美價值。
應(yīng)對多媒體內(nèi)容的挑戰(zhàn),SceneXplain 讓故事破圖而出
總而言之,現(xiàn)有圖像字幕解決方案取得了很大進(jìn)步,能夠?yàn)閳D片生成相關(guān)的描述,然而還無法為復(fù)雜圖像生成細(xì)節(jié)、上下文和細(xì)微差別的描述。如何進(jìn)一步提高處理這樣復(fù)雜圖像的能力,是當(dāng)前圖像描述技術(shù)面臨的重要挑戰(zhàn)。
這也正是 SceneXplain 一個箭步跨進(jìn)來的契機(jī),這是一個顛覆性的工具,它不止停留在表面,而是進(jìn)一步拓寬了圖像描述的邊界。它突破了傳統(tǒng)圖像描述算法的局限性,提供了簡練專業(yè)、引人入勝的圖像敘事體驗(yàn)。憑借用戶友好的界面、無縫 API 集成和強(qiáng)大的多語言支持,方便開發(fā)者輕松集成到他們的多模態(tài)應(yīng)用中。
網(wǎng)址:scenex.jina.ai
SceneXplain 生成的文本拓展了圖片的表現(xiàn)力,不管是動漫,風(fēng)景,商品,還是產(chǎn)品 UI,它都準(zhǔn)確識別了圖片中關(guān)鍵信息,理解了畫面表達(dá)的氣氛,并深入捕捉到了圖片中的細(xì)節(jié),并用流暢連貫的語言完成了描述。
SceneXplain vs Midjourney describe
我們對 SceneXplain 與市面上流行的圖像描述工具和算法的性能進(jìn)行了測評。
SceneXplain:生成詳細(xì)、復(fù)雜、生動、富有上下文的文本描述,為復(fù)雜視覺內(nèi)容提供先進(jìn)的圖像描述解決方案。
Midjourney:最近發(fā)布的 /describe 功能,旨在將圖像轉(zhuǎn)化為文本提示詞。
注意:相比起 /describe 生成的是圖像提示詞 Prompt,而 SceneXplain 生成出的是詳細(xì)、復(fù)雜、生動、富含上下文的圖像描述,更適合人類閱讀。此外,我們還對比了
BLIP-2:一種高效的預(yù)訓(xùn)練策略,使用現(xiàn)成的凍結(jié)的預(yù)訓(xùn)練圖像編碼器和大型語言模型進(jìn)行視覺語言預(yù)訓(xùn)練,可在訓(xùn)練參數(shù)大大減少的情況下,實(shí)現(xiàn)各種視覺語言任務(wù)的 SOTA 性能。
CLIP Interrogator 2.1 專門設(shè)計給 Stable Diffusion 2.0 模型生成圖像提示詞。
接下來讓我們將這些算法對同一圖片進(jìn)行描述,展示它們在各種圖像描述任務(wù)中的效果。完整的 Benchmark 表格請在公眾號回復(fù) SceneX 獲取。
相比之下,Midjourney /describe 和 CLIP Interrogator 2.1 等解決方案側(cè)重于為圖像生成對應(yīng)提示詞,而非讓人類輕松閱讀的自然語言描述。同時,BLIP-2 生成的字幕非常簡短、粗略且生硬,僅包含幾個相關(guān)詞匯,可能適用于簡單的場景,但難以捕捉到更為復(fù)雜的視覺細(xì)節(jié),從而忽略了關(guān)鍵信息,無法展示圖像的豐富內(nèi)涵。
而 SceneXplain 填補(bǔ)了這一塊空白,深入、準(zhǔn)確、豐富 —— 面對復(fù)雜圖像,SceneXplain 讓圖像描述更上一層樓。它兼顧了準(zhǔn)確性和深度,它能夠深入到復(fù)雜場景里錯綜復(fù)雜的細(xì)節(jié),并基于這些細(xì)節(jié)的微妙關(guān)聯(lián),比如空間位置,依賴關(guān)系等,構(gòu)建出流暢連貫的敘事。這種結(jié)構(gòu)化敘事讓觀眾能夠從更高的視角去理解圖像所呈現(xiàn)的復(fù)雜概念和場景,使得圖像栩栩如生,故事得以生動訴說。
當(dāng)然,我們也必須要承認(rèn) SceneXplain 在簡單場景下有些矯枉過正,會出現(xiàn)一些幻覺。
SceneXplain 的優(yōu)勢
與其他圖像描述解決方案相比,SceneXplain 具有許多優(yōu)勢:
抗噪聲和變化的圖像質(zhì)量
SceneXplain 背后強(qiáng)大的 AI 算法增強(qiáng)了其對各種圖像質(zhì)量的理解能力,哪怕是低分辨率、模糊不清或帶有噪點(diǎn)的圖像,SceneX 也能基于有限的信息推斷圖像內(nèi)涵,確保生成的描述保持準(zhǔn)確性。
多語言支持
SceneXplain 有強(qiáng)大的多語言支持,可以生成多種語言的上下文豐富的圖像描述。
應(yīng)用場景
我們期待您探索和體驗(yàn) SceneXplain 的能力,它的潛在應(yīng)用非常廣泛,比如三個關(guān)鍵領(lǐng)域:
視覺敘事升級:SceneXplain 的豐富描述能夠把簡單的視覺圖像轉(zhuǎn)化為真正引人入勝的敘事體驗(yàn)。這種敘事升級能夠在各個場景下得以運(yùn)用,比如電商產(chǎn)品詳情頁的撰寫,通過詳細(xì)的圖像描述,為用戶提供更豐富的瀏覽體驗(yàn)。
優(yōu)化 SEO:SceneXplain 生成的生動且豐富的描述包含大量的關(guān)鍵詞,這有助于提高內(nèi)容的搜索引導(dǎo)性和點(diǎn)擊率,從而有可能帶來網(wǎng)站排名的提升和來自搜索引擎的更多流量。
提高可訪問性:SceneXplain 生成的描述能夠充分解釋圖像細(xì)節(jié)和含義,從而有望徹底改變無障礙多媒體內(nèi)容的創(chuàng)建和消費(fèi)方式,改善視覺障礙用戶的網(wǎng)絡(luò)體驗(yàn)。
從三個關(guān)鍵領(lǐng)域?qū)?yīng)的場景上,SceneX 也有許多應(yīng)用空間,對于社交媒體內(nèi)容創(chuàng)作者,美食博主,旅游博主等為拍攝的圖片生成更加具體生動的描述,提高圖片素材的影響力;在線電商企業(yè)可以用來描述商品,用關(guān)鍵詞和描述語句豐富產(chǎn)品詳情頁描述,提升 SEO;博物館等公共服務(wù)行業(yè)用于為展品創(chuàng)建詳細(xì)的文字描述,幫助視障人士更好地欣賞等等。
如何將 SceneXplain 集成到您的應(yīng)用中
SceneXplain 提供多種集成選項(xiàng)以滿足不同組織的需求。
1. 通過網(wǎng)頁生成圖像描述
2. 通過 API 批量處理圖像
對于尋求自動化和無縫集成的組織,SceneXplain 為其系統(tǒng)提供了強(qiáng)大、可擴(kuò)展且安全的 API。快速批處理 API 允許在 50 秒內(nèi)在一個批次中描述多達(dá) 128 張圖像。
3. 作為 ChatGPT 插件使用
對于 ChatGPT Plus 用戶來說,可以在 ChatGPT 插件里使用。
4. 本地隱私保護(hù)解決方案
對于數(shù)據(jù)安全和隱私有嚴(yán)格要求的組織來說,我們提供本地解決方案,您可以在自己的服務(wù)器上部署 SceneXplain,確保了敏感數(shù)據(jù)保留在自己的網(wǎng)絡(luò)中,同樣無縫集成 SceneXplain 的高級圖像描述。
添加技術(shù)運(yùn)營微信 jinaai01,或掃描文末二維碼,與我們的團(tuán)隊約定會議了解本地解決方案。
SceneXplain 的核心優(yōu)勢在于它能精準(zhǔn)捕捉到圖片中多個物體之間的關(guān)系和互動,同時考慮它們在場景中的位置,以及周圍環(huán)境的氛圍。這些細(xì)節(jié)在普通的圖像描述工具里經(jīng)常被忽略,但 SceneXplain 不僅在生成文本描述時保留了這些細(xì)節(jié),還提供了更多的情境感,將視覺內(nèi)容的精髓高效地呈現(xiàn)出來,幫助讀者更好地理解圖像所呈現(xiàn)的內(nèi)容。無論是社交媒體、電商網(wǎng)站,還是公共服務(wù)領(lǐng)域,它都能大顯身手。
審核編輯 :李倩
-
編碼器
+關(guān)注
關(guān)注
45文章
3652瀏覽量
134854 -
算法
+關(guān)注
關(guān)注
23文章
4622瀏覽量
93101 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1564瀏覽量
7858
原文標(biāo)題:SceneXplain:讓 ChatGPT 開啟視覺視角
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論