0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

谷歌開(kāi)發(fā)者 ? 來(lái)源:谷歌開(kāi)發(fā)者 ? 2025-01-03 10:38 ? 次閱讀

本文作者 /ML 谷歌開(kāi)發(fā)者專家王玉成

介紹

在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢(shì)可以帶來(lái)顯著的成果。通過(guò)利用谷歌的 Gemini 模型來(lái)制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示生成高質(zhì)量的圖像,您可以獲得卓越的視覺(jué)效果。這個(gè)過(guò)程并不止于此;一旦圖像生成,Imagen 2 可以進(jìn)一步優(yōu)化以滿足特定需求,從而創(chuàng)建一個(gè)強(qiáng)大的工作流程,用于制作頂級(jí)視覺(jué)內(nèi)容。

使用 Gemini 進(jìn)行提示生成

Gemini 是谷歌開(kāi)發(fā)的強(qiáng)大語(yǔ)言模型,擅長(zhǎng)生成連貫且上下文準(zhǔn)確的文本。在這個(gè)工作流程中,Gemini 用于創(chuàng)建詳細(xì)且富有想象力的提示,這些提示將作為圖像生成的基礎(chǔ)。提示的質(zhì)量至關(guān)重要,因?yàn)樗苯佑绊?Imagen 2 模型的輸出。通過(guò)仔細(xì)制作或完善 Gemini 的 Prompt,您可以確保生成的圖像與您的創(chuàng)意愿景相一致。

使用 Imagen 3 生成圖像

一旦從 Gemini 獲得了精心制作的 Prompt,下一步就是使用谷歌的 Imagen 3 模型生成圖像。Imagen 3 是一個(gè)尖端的生成式 AI 模型,專門(mén)根據(jù)文本描述生成高分辨率、細(xì)節(jié)豐富的圖像。該模型以其能夠以驚人的準(zhǔn)確性渲染復(fù)雜場(chǎng)景、紋理和光照而脫穎而出。通過(guò)將 Gemini 生成的提示輸入到 Imagen 3 中,你可以創(chuàng)建不僅視覺(jué)上令人驚嘆,而且精確符合初始概念的圖像。

使用 Imagen 2 精調(diào)生成的圖像

該工作流程的最后一步是優(yōu)化由 Imagen 2 生成的圖像。根據(jù)需求,這可能涉及調(diào)整顏色、增強(qiáng)細(xì)節(jié),甚至合并多張圖像。目標(biāo)是對(duì)來(lái)自 Imagen 3 的高質(zhì)量輸出進(jìn)行微調(diào),以確保最終圖像完全符合所需的美學(xué)和功能標(biāo)準(zhǔn)。

關(guān)于 Imagen 模型的有用資源

在 Vertex AI 上查找主題 Imagen | AI 圖像生成器以獲取更多信息。此頁(yè)面指導(dǎo)如何請(qǐng)求訪問(wèn) Vertex AI 上的 Imagen。

工作流程

準(zhǔn)備 Prompt

Vertex AI 提供多個(gè)模塊供使用。首先打開(kāi) Gemini 以生成滿足我們需求的理想 Prompt。要全面了解 Prompt 創(chuàng)建的關(guān)鍵方面,您可以閱讀 Prompt 和圖像屬性指南 (需要有限訪問(wèn)權(quán)限)。

我們選擇 gemini-1.5-flash 作為當(dāng)前的語(yǔ)言模塊,它為高容量、高質(zhì)量、具有成本效益的應(yīng)用提供了速度和效率。有關(guān)更多信息,請(qǐng)閱讀 Gemini 模塊。

43c6e928-c8ed-11ef-9310-92fbcf53809c.png

點(diǎn)擊 Edit 輸入系統(tǒng)指令,然后點(diǎn)擊保存。

System instructions:

You are an experienced article illustrator, skilled in creating illustrations for articles with a deep cultural background, capable of understanding the deeper meaning behind the text.

43e4a12a-c8ed-11ef-9310-92fbcf53809c.png

Prompt:

I'm currently reading the novel `One Hundred Years of Solitude` and plan to write an article expressing my sympathy for the tragic fate of the family. To enrich the content, I intend to include some illustrations in the article. After the title, I need an image that visually represents the time period and setting of the novel. We will generate and modify this image to achieve the desired effect.

I want to generate a prompt to help me generate an image, and the prompt contains the basic rules:

1. Short keyword-based prompts separated by commas.

2. Prompt includes: "A painting of...", "A sketch of..."for example

3. General Modifiers:high-quality, beautiful, stylized for example

4. Photos: like 4K, HDR, Studio Photo for example

5. Art, Illustration:by a professional, detailed for example

輸入 Prompt 并點(diǎn)擊紅色標(biāo)記的部分以生成結(jié)果。

43fa711c-c8ed-11ef-9310-92fbcf53809c.png 結(jié)果:

4416740c-c8ed-11ef-9310-92fbcf53809c.png

原始結(jié)果:

A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, high-quality, by a professional artist.

Here are some variations for your prompt based on specific aspects of "One Hundred Years of Solitude":

Focus on the Buendía family: "A sketch of, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed"

Highlight the cyclical nature of history: "A photorealistic image of, a crumbling, overgrown mansion in a jungle setting, with the remnants of a forgotten era, HDR, stylized"

Emphasize the magical elements: "A painting of, a vibrant, surreal landscape, with fantastical creatures and strange weather patterns, in a dreamlike style, high-quality, beautiful"

By combining different elements of these prompts, you can create a visually striking image that perfectly captures the essence of "One Hundred Years of Solitude." Remember to experiment with different keywords and art styles to find the ideal representation for your article.

修改結(jié)果:

A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, by a professional artist, Focus on the Buendía family, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed.

打開(kāi) Imagen 3,檢查高級(jí)選項(xiàng),如下所示:

443a0e94-c8ed-11ef-9310-92fbcf53809c.png

確保選項(xiàng) Person/face generation is Allow (Adults Only)

4454c8e2-c8ed-11ef-9310-92fbcf53809c.png

此選擇用于避免產(chǎn)生如下問(wèn)題 "圖像生成失敗,出現(xiàn)以下錯(cuò)誤:項(xiàng)目或用戶未被允許關(guān)閉兒童檢測(cè)過(guò)濾器":

4469a9a6-c8ed-11ef-9310-92fbcf53809c.png

輸入 Prompt:

A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, by a professional artist, Focus on the Buendía family, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed.

43c6e928-c8ed-11ef-9310-92fbcf53809c.png

點(diǎn)擊 GENERATE,結(jié)果應(yīng)該是這樣的:

我喜歡第二個(gè)。我們可以點(diǎn)擊第二張圖片:

對(duì)話框顯示如下:

我們使用 UPSCALE/EXPORT 按鈕下載此圖像,選擇 Upscle images (如果需要):

44f80f84-c8ed-11ef-9310-92fbcf53809c.png

點(diǎn)擊 EXPORT 按鈕以下載 PNG 格式的圖像。

我們想編輯這張圖片,所以我們?cè)俅螜z查了第二張圖片。

點(diǎn)擊 EDIT IMAGE 按鈕。

頂部有很多工具可以幫助我們編輯圖像。Imagen 3 現(xiàn)在不支持 Edit image,確保模型已更改為 imagen 2 (預(yù)計(jì) Imagen 3 將在未來(lái)支持 Edit image)。

我想把所有遠(yuǎn)離桌子的人都移走,只留下在桌子旁邊的人。所以我添加了一個(gè) Musk box (遮罩盒) 并生成了一張圖像。我們不需要任何提示來(lái)進(jìn)行此操作。

點(diǎn)擊 GENERATE 按鈕后的結(jié)果:

為什么?二樓的閣樓消失了,與一樓合并,并創(chuàng)建了 4 幅圖片。

原來(lái),我在原始圖片上添加了三個(gè) Musk box,兩個(gè) Musk box 給人打了 Musk,一個(gè) Musk box 給二樓打了 Musk。Imagan 3 的編輯操作有多智能?我們可以持續(xù)編輯圖像。

結(jié)果是:

這是我想要的最終圖片。如果您有權(quán)限,請(qǐng)閱讀有關(guān)圖像編輯的更多信息。

結(jié)論

通過(guò)將谷歌的 Gemini 模型的創(chuàng)造力與 Imagen 3 的先進(jìn)圖像生成能力以及 Imagen 2 的編輯能力相結(jié)合,您可以開(kāi)發(fā)出一個(gè)強(qiáng)大的工作流程,以生成高質(zhì)量、精致的圖像。這個(gè)過(guò)程允許從文本到視覺(jué)內(nèi)容的無(wú)縫過(guò)渡,提供對(duì)最終輸出的靈活性和控制。無(wú)論是用于廣告、內(nèi)容創(chuàng)作還是藝術(shù)創(chuàng)作,這種方法都提供了一個(gè)強(qiáng)大的工具集,以實(shí)現(xiàn)卓越的視覺(jué)效果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6171

    瀏覽量

    105503
  • Gemini
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    7605
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31021

    瀏覽量

    269360

原文標(biāo)題:【GDE 分享】利用谷歌的 Gemini 和 Imagen 模型進(jìn)行高質(zhì)量圖像生成和優(yōu)化

文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開(kāi)發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型圖像生成過(guò)程

    近年來(lái),擴(kuò)散模型在文本到圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也
    的頭像 發(fā)表于 07-17 11:00 ?2758次閱讀
    基于擴(kuò)散<b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過(guò)程

    protel輸出高質(zhì)量gerber

    圖文并茂一步一步手把手教你輸出高質(zhì)量的gerber傻瓜式教學(xué)。。。。[hide] [/hide]
    發(fā)表于 12-12 15:43

    高質(zhì)量C語(yǔ)言編程

    高質(zhì)量c語(yǔ)言,精,精,精,精華
    發(fā)表于 07-22 13:48

    編寫(xiě)高質(zhì)量C語(yǔ)言代碼

    編寫(xiě)高質(zhì)量C語(yǔ)言代碼 編寫(xiě)高質(zhì)量C語(yǔ)言代碼 編寫(xiě)高質(zhì)量C語(yǔ)言代碼
    發(fā)表于 07-31 17:47

    高質(zhì)量編程

    干貨,《495個(gè)C語(yǔ)言問(wèn)題》、《華為內(nèi)部程序設(shè)計(jì)編碼規(guī)范》、《C語(yǔ)言:陷阱和缺陷》、《高質(zhì)量C編程[林銳]》
    發(fā)表于 02-27 19:39

    三星電子開(kāi)發(fā)出高質(zhì)量CMOS圖像傳感器芯片資料推薦

    三星電子近日宣布成功開(kāi)發(fā)出高質(zhì)量的CMOS圖像傳感器(CIS)芯片和照相機(jī)模組。該照相機(jī)模組有1/3英寸SXGA(130萬(wàn)像素)、1/5.8英寸VGA(33萬(wàn)像素)兩種規(guī)格,都包含了CIS和ISP
    發(fā)表于 04-22 07:35

    基于FPGA的高速高質(zhì)量圖像旋轉(zhuǎn)

    基于FPGA的高速高質(zhì)量圖像旋轉(zhuǎn),下來(lái)看看
    發(fā)表于 08-30 15:10 ?9次下載

    獸醫(yī)超聲:高質(zhì)量和高強(qiáng)度圖像系統(tǒng)

      超聲波機(jī)器的主要用途之一是檢測(cè)動(dòng)物的懷孕情況。準(zhǔn)確診斷農(nóng)場(chǎng)動(dòng)物的懷孕需要高質(zhì)量圖像。這些機(jī)器還需要高強(qiáng)度(更高的電壓和更高的電流脈沖),以便更強(qiáng)的脈沖可以穿透大型動(dòng)物。對(duì)于帶入獸醫(yī)診所的小動(dòng)物,需要具有高分辨率黑白或彩色圖像
    的頭像 發(fā)表于 04-24 09:37 ?2046次閱讀

    清華朱軍團(tuán)隊(duì)提出ProlificDreamer:直接文本生成高質(zhì)量3D內(nèi)容

    Imagen 生成的照片(下圖靜態(tài)圖)和 ProlificDreamer(基于 Stable-Diffusion)生成的 3D(下圖動(dòng)態(tài)圖)進(jìn)行對(duì)比。有網(wǎng)友感慨:短短一年時(shí)間,高質(zhì)量
    的頭像 發(fā)表于 05-29 10:02 ?933次閱讀
    清華朱軍團(tuán)隊(duì)提出ProlificDreamer:直接文本<b class='flag-5'>生成</b><b class='flag-5'>高質(zhì)量</b>3D內(nèi)容

    生成高質(zhì)量 3D 網(wǎng)格,從重建到生成式 AI

    有很多優(yōu)點(diǎn),包括支持現(xiàn)有的軟件包、高級(jí)硬件加速,以及支持物理模擬。然而,并非所有網(wǎng)格都是相同的,只有高質(zhì)量的網(wǎng)格才能實(shí)現(xiàn)這些優(yōu)點(diǎn)。 NVIDIA Research 提出了一種名為“FlexiCubes”的新方法,它可以在 3D 工作流中生成
    的頭像 發(fā)表于 08-17 19:15 ?732次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>高質(zhì)量</b> 3D 網(wǎng)格,從重建到<b class='flag-5'>生成</b>式 AI

    谷歌Gemini AI模型因人物圖像生成問(wèn)題暫停運(yùn)行

    據(jù)報(bào)道,部分用戶發(fā)現(xiàn)Gemini生成的圖片存在明顯錯(cuò)誤,如特斯拉創(chuàng)始人和其他名人變成了黑人模樣。谷歌已決定暫停該模型的人物圖像
    的頭像 發(fā)表于 02-25 09:59 ?597次閱讀

    谷歌計(jì)劃重新推出改進(jìn)后的Gemini AI模型人像生成功能

    谷歌DeepMind的首席執(zhí)行官德米斯·哈薩比斯在2月26日透露,公司計(jì)劃在接下來(lái)的幾周內(nèi)重新發(fā)布其備受關(guān)注的Gemini AI模型人像生成功能。此前,由于在某些歷史
    的頭像 發(fā)表于 02-28 10:17 ?610次閱讀

    KOALA人工智能圖像生成模型問(wèn)世

    近日,韓國(guó)科學(xué)團(tuán)隊(duì)宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實(shí)現(xiàn)了顯著突破。KOALA 能夠在短短 2
    的頭像 發(fā)表于 03-05 10:46 ?798次閱讀

    谷歌發(fā)布Imagen 3,提升圖像文本生成技術(shù)

    已為谷歌人工智能研究所DeepMind掌門(mén)人的德米斯·哈薩比斯指出,相比于前款Imagen 2,Image 3能夠更加精準(zhǔn)地解碼文字提示信息,并據(jù)此創(chuàng)建出更有創(chuàng)造力、細(xì)節(jié)豐富且出錯(cuò)率較低的圖像。
    的頭像 發(fā)表于 05-15 11:24 ?695次閱讀

    谷歌發(fā)布AI文生圖大模型Imagen

    近日,谷歌在人工智能領(lǐng)域取得新突破,正式推出了Imagen文生圖模型。這款模型以其卓越的細(xì)節(jié)調(diào)整功能、逼真的光線效果以及從草圖快速生成高分辨
    的頭像 發(fā)表于 05-16 09:30 ?538次閱讀