0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

伯克利AI實驗室開源圖像編輯模型InstructPix2Pix,簡化生成圖像編輯并提供一致結(jié)果

jf_WZTOguxH ? 來源:AI前線 ? 2023-08-28 15:45 ? 次閱讀

來自伯克利人工智能研究(BAIR)實驗室的研究人員開源深度學(xué)習(xí)模型 InstructPix2Pix,它可以遵循人類指令來編輯圖像。InstructPix2Pix 在合成數(shù)據(jù)上進(jìn)行訓(xùn)練,表現(xiàn)優(yōu)于基線 AI 圖像編輯模型。

BAIR 團(tuán)隊在最近舉行的 2023 年 IEEE/CVF 計算機視覺和模式識別(CVPR)大會上展示了他們的工作成果。他們先是生成了一個合成訓(xùn)練數(shù)據(jù)集,其中的訓(xùn)練樣本是成對的圖像以及用于將第一幅圖像轉(zhuǎn)換為第二幅圖像的編輯指令。該數(shù)據(jù)集用于訓(xùn)練圖像生成擴(kuò)散模型,該模型可以接受基于文本的指令來編輯圖像。例如,給定一張騎馬的人的圖片和提示詞“讓她變成騎龍”,它會輸出原始圖片,但原來的馬被替換了龍。BAIR 的研究人員的表示:

盡管模型完全是在合成樣本上進(jìn)行訓(xùn)練的,但它實現(xiàn)了對任意真實圖像和人類自然語言指令的零樣本泛化。我們的模型能夠進(jìn)行直觀的圖像編輯,可以遵循人類指令執(zhí)行多種編輯:替換對象、改變圖像風(fēng)格、修改設(shè)置、藝術(shù)媒介等。

之前的 AI 圖像編輯能力通常是進(jìn)行風(fēng)格轉(zhuǎn)換,流行的文本到圖像生成模型(如 DALL-E 和 Stable Diffusion)也支持圖像到圖像風(fēng)格轉(zhuǎn)換操作。然而,使用這些模型進(jìn)行有針對性的編輯仍然具有挑戰(zhàn)性。最近,InfoQ 報道了微軟的 Visual ChatGPT,它可以調(diào)用外部工具來編輯圖像,前提是提供編輯操作的文本描述。

為了訓(xùn)練 InstructPix2Pix,BAIR 首先創(chuàng)建了一個合成數(shù)據(jù)集。為此,團(tuán)隊在一個由輸入文字說明、編輯指令和期望輸出文字說明組成的人類文本樣本的小數(shù)據(jù)集上對 GPT-3 進(jìn)行了微調(diào)。然后,這個微調(diào)模型被給予一個大型的輸入圖像文字說明數(shù)據(jù)集,從中生成了超過 450k 次編輯和輸出文字說明。然后,團(tuán)隊將輸入和輸出文字說明饋送到預(yù)訓(xùn)練的 Prompt-to-Prompt 模型中,該模型根據(jù)文字說明生成成對的相似圖像。

d051acec-4564-11ee-a2ef-92fbcf53809c.jpg

InstructPix2Pix 的架構(gòu),圖片來源:https://arxiv.org/abs/2211.09800

研究人員鑒于這個數(shù)據(jù)集訓(xùn)練了基于 Stable Diffusion 的 InstructPix2Pix。為了評估其性能,團(tuán)隊將其輸出與基線模型 SDEdit 進(jìn)行了比較。他們使用兩個指標(biāo)之間的權(quán)衡:一致性(即輸入圖像和編輯后圖像的 CLIP 嵌入之間的余弦相似度)和方向相似性(即編輯后文字說明中的變化與編輯后圖像的變化在多大程度上保持一致)。在實驗中,對于給定的方向相似性值,InstructPix2Pix 產(chǎn)生的圖像比 SDEdit 具有更高的一致性。

人工智能研究員吳恩達(dá)在他的深度學(xué)習(xí)新聞郵件組“The Batch”中評價了 InstructPix2Pix:

這項工作簡化了生成和人造圖像的編輯操作,并提供了更一致的結(jié)果。巧妙地利用現(xiàn)有模型,模型作者能夠使用相對較少的人類標(biāo)記樣本在新任務(wù)上訓(xùn)練他們的模型。

InstructPix2Pix 的代碼可在 GitHub 上獲取,模型和基于 Web 的演示可在 Huggingface 上訪問。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Web
    Web
    +關(guān)注

    關(guān)注

    2

    文章

    1263

    瀏覽量

    69470
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47279

    瀏覽量

    238493
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48840
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24701

原文標(biāo)題:伯克利 AI 實驗室開源圖像編輯模型 InstructPix2Pix,簡化生成圖像編輯并提供一致結(jié)果

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    字節(jié)發(fā)布SeedEdit圖像編輯模型

    近日,字節(jié)跳動公司在其豆包大模型團(tuán)隊的官方網(wǎng)站上,正式公布了其最新的通用圖像編輯模型——SeedEdit。這款創(chuàng)新性的圖像編輯模型,為用戶
    的頭像 發(fā)表于 11-12 10:43 ?262次閱讀

    榮耀與智譜攜手共建AI模型聯(lián)合實驗室

    近日,榮耀終端有限公司與北京智譜華章科技有限公司正式攜手,共同宣布成立AI模型技術(shù)聯(lián)合實驗室,并簽署了戰(zhàn)略合作協(xié)議。此次合作標(biāo)志著雙方在人工智能領(lǐng)域的深度合作邁入新階段,共同致力于為用戶帶來前所未有的智能體驗。
    的頭像 發(fā)表于 09-03 18:15 ?1027次閱讀

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設(shè)計資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這里程碑式的
    的頭像 發(fā)表于 08-30 16:23 ?1141次閱讀

    Meta發(fā)布Imagine Yourself AI模型,重塑個性化圖像生成未來

    Meta公司近日在人工智能領(lǐng)域邁出了重要步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這突破性技術(shù)為個性化圖像
    的頭像 發(fā)表于 08-26 10:59 ?513次閱讀

    微軟AI新成果:將不可編輯PDF轉(zhuǎn)化為可編輯文檔

    市面現(xiàn)有相關(guān)軟件雖能將PDF轉(zhuǎn)為可編輯版,但易喪失原始布局。微軟研究論文名為《從不可編輯文檔生成編輯文檔的方法和系統(tǒng)》,其獨特之處在于運用AI
    的頭像 發(fā)表于 05-30 10:11 ?697次閱讀

    OpenAI發(fā)布圖像檢測分類器,可區(qū)分AI生成圖像與實拍照片

    據(jù)OpenAI介紹,初步測試結(jié)果表明,該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時,
    的頭像 發(fā)表于 05-09 09:57 ?468次閱讀

    上海人工智能實驗室發(fā)布自動駕駛視頻生成模型GenAD

    上海人工智能實驗室近日取得重大技術(shù)突破,聯(lián)合香港科技大學(xué)、德國圖賓根大學(xué)及香港大學(xué)共同研發(fā)并發(fā)布了大規(guī)模自動駕駛視頻生成模型——GenAD。這創(chuàng)新
    的頭像 發(fā)表于 03-26 10:40 ?520次閱讀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學(xué)團(tuán)隊宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實現(xiàn)了顯著突破。KOALA 能夠在短短 2
    的頭像 發(fā)表于 03-05 10:46 ?790次閱讀

    谷歌模型怎么用PS打開文件和圖片

    )或ONNX模型(.onnx)等。這些模型文件是二進(jìn)制的,并且是為特定的機器學(xué)習(xí)框架設(shè)計的,而不是為圖像編輯軟件如PS設(shè)計的。
    的頭像 發(fā)表于 02-29 18:25 ?1454次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強大,而Stable Diffusion是許多其他文
    的頭像 發(fā)表于 02-19 16:03 ?944次閱讀
    Stability <b class='flag-5'>AI</b>試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持領(lǐng)先地位

    微軟為新聞編輯行業(yè)推出AI工具

    近日,微軟宣布與全球多家知名新聞機構(gòu)展開緊密合作,共同探索并推動生成AI在新聞編輯室中的創(chuàng)新應(yīng)用。微軟表示,將全力支持新聞機構(gòu)優(yōu)化AI技術(shù)在新聞采編和日常業(yè)務(wù)實踐中的運用,并致力于培
    的頭像 發(fā)表于 02-18 11:08 ?711次閱讀

    上海AI實驗室發(fā)布新代書生·視覺大模型

    近日,上海人工智能實驗室(上海AI實驗室)聯(lián)手多所知名高校及科技公司共同研發(fā)出新代書生·視覺大模型(InternVL)。
    的頭像 發(fā)表于 02-04 11:25 ?1115次閱讀

    谷歌推出圖像生成新工具ImageFX,提升圖像質(zhì)量

    作為實驗室的新興工具,ImageFX 允許用戶借助簡潔的文字指令來創(chuàng)作圖像。經(jīng)過前期試驗,該團(tuán)隊認(rèn)為對生成型人工智能工具來說最關(guān)鍵的是如何啟發(fā)并鼓勵用戶挖掘和實踐創(chuàng)意想法。
    的頭像 發(fā)表于 02-02 14:18 ?679次閱讀

    科學(xué)家如何加速下代微電子技術(shù)的發(fā)展

    揚聲器、救生醫(yī)療設(shè)備和電動汽車等幾乎任何用途的微小硅組件,而個由勞倫斯伯克利國家實驗室伯克利實驗室)領(lǐng)導(dǎo)的新中心可以加速微芯片的下
    的頭像 發(fā)表于 01-23 13:42 ?369次閱讀

    三星AI手機有多神?引入智能顯示,自動調(diào)節(jié)亮度、顏色…

    Galaxy S24系列配備了Galaxy AI(設(shè)備端人工智能)以及三星Gauss(高斯)等生成式人工智能。換句話說,關(guān)鍵功能可以通過設(shè)備上的人工智能來解決,而無需聯(lián)系外部服務(wù)器。生成式人工智能支持需要更多計算的任務(wù),例如高級
    的頭像 發(fā)表于 01-19 15:49 ?1228次閱讀